Guia para iniciantes em Python para ciência de dados

Compartilhe!

Guia para iniciantes em Python para ciência de dados

Algumas linguagens de programação vivem no coração da ciência de dados. Python é uma dessas linguagens. É um ingrediente integral para Data Science e vice-versa. E, na verdade, demoraria muito para explicar o porquê.

Vamos começar com o fato de que Python fornece grande funcionalidade para lidar com matemática, estatística e função científica. Quando se trata de aplicação de ciência de dados, ele fornece bibliotecas extensas para lidar. Sem mencionar que é uma ferramenta de código aberto, interpretada e de alto nível!

Mais importante ainda, Python é amplamente utilizado nas comunidades científica e de pesquisa por causa de sua facilidade de uso, sua sintaxe simples facilita a adaptação para pessoas que não têm formação em engenharia. Os dados reais também confirmam isso:

Em 2018, 66% dos cientistas de dados relataram usar Python diariamente, tornando-o a ferramenta número um para profissionais de análise.

Acho que essa tendência certamente continuará evoluindo, então por que atrasar? Se você sonhou muito com Data Science, é hora de começar!

Este é o curso de aprendizagem mais eficaz, pelo que vejo por mim mesmo:

  • Etapa 1: Noções básicas de Python: Olá, mundo!
  • Etapa 2: listas e strings Python
  • Etapa 3: Bibliotecas Python para ciência de dados
  • Etapa 4: praticar suas habilidades de codificação e ciência de dados

Você está pronto?

Etapa 1: Noções básicas de Python: Olá, mundo!

Python é uma linguagem comparativamente simples e tem uma sintaxe realmente muito útil. Ele apóia adequadamente os programadores para programar sem código clichê (preparado) e reconhece instantaneamente os pontos fracos. 

Portanto, a primeira coisa que você normalmente precisa fazer é, obviamente, uma instalação.

Como instalar o Python?

Meu conselho é usar a distribuição Anaconda para instalação (disponível para Linux, Windows e Mac OS X). 
A razão para isso é que ele contém todas as bibliotecas necessárias para a análise de dados.

Hello, WORD!

diretiva mais simples (uma construção de linguagem que especifica como um compilador deve processar sua entrada) em Python é a diretiva “print” – ela simplesmente imprime uma linha (e também inclui uma nova linha, ao contrário de C).

Para imprimir uma string em Python, basta escrever:

print(“Esta linha será impressa.”)

Portanto, use o comando “print” para imprimir a linha “Hello, World!” – o primeiro programa inevitável que geralmente se escreve ao aprender uma nova linguagem de programação:

print(“Olá, Mundo!”)

Parabéns, você é quase um programador agora.

Bem, foi apenas a indução em uma miríade de linguagens de programação. Sem dúvida, haverá tempos mais difíceis pela frente, mas todo especialista já foi um iniciante, lembra?

Sintaxe Python – a pedra angular do seu sucesso

Bem, para ser honesto, há muitos detalhes específicos relacionados à sintaxe que você precisa aprender, e este artigo não é uma maneira suficiente de cumprir amplamente essa tarefa. Mas tentarei genuinamente aliviar sua dor de aprendizagem. Aqui estão os conceitos básicos e resources/books valiosos abaixo:

  • Python é uma linguagem fortemente tipada (uma linguagem fortemente tipada é aquela em que cada tipo de dados é predefinido como parte da linguagem e todas as constantes ou variáveis ​​definidas para um determinado programa devem ser descritas com um dos tipos de dados), mas no ao mesmo tempo, é digitada dinamicamente (não há declaração de uma variável, apenas uma declaração de atribuição).
  • Python é uma linguagem que diferencia maiúsculas de minúsculas (var e VAR são duas variáveis ​​diferentes) e uma linguagem orientada a objetos (tudo em Python é um objeto: números, dicionários, classes definidas pelo usuário e integradas).
  • Python não tem caracteres obrigatórios de conclusão do operador, os limites do bloco são definidos por indentações. O recuo inicia um novo bloco, a falta de recuo o finaliza. As expressões que estão aguardando um novo recuo terminam com dois pontos (:). Os comentários de uma linha começam com o símbolo sustenido (#); para comentários de várias linhas, literais de string são usados, entre apóstrofos triplos ou aspas triplas.
  • Os valores são atribuídos (na verdade, objetos associados aos nomes dos valores) usando um sinal de igual (“=”), e a igualdade é verificada usando dois sinais de igual (“==”). Você pode aumentar / diminuir os valores usando os operadores + = e – =, respectivamente, pelo valor especificado à direita do operador. Isso funciona para muitos tipos de dados, incl. e cordas.
  • TIPOS DE DADOS. Em Python, existem as seguintes estruturas de dados: listas, tuplas e dicionários. Os conjuntos também estão disponíveis, mas apenas em Python 2.5 e versões posteriores. As listas são como matrizes unidimensionais (mas você também pode criar listas de outras listas e obter uma matriz multidimensional), os dicionários são matrizes associativas (as chamadas tabelas hash, que podem ser de qualquer tipo de dados) e as tuplas são unidimensionais imutáveis arrays (em Python, “arrays” podem ser de qualquer tipo, então você pode misturar, por exemplo, inteiros, strings, etc. em listas / dicionários / tuplas). O índice do primeiro elemento em arrays de todos os tipos é 0 e o último elemento pode ser obtido pelo índice -1.
  • Você pode trabalhar apenas com uma parte dos elementos da matriz usando dois pontos (:). Nesse caso, o índice antes dos dois pontos indica o primeiro elemento da parte usada da matriz, e o índice após os dois pontos indica o elemento APÓS o último elemento da parte usada da matriz (não está incluído na subarray) . Se o primeiro índice não for especificado, o primeiro elemento da matriz será usado; se o segundo não for especificado, o último elemento será o último elemento da matriz. calcular valores negativos determinam a posição do elemento a partir do final.

Recursos e coisas obrigatórias para iniciantes:

Automatize as coisas chatas com Python – este livro prova que o principal na programação não é o conhecimento da sintaxe, mas a compreensão de como fazer a máquina executar suas instruções. Programar é criatividade e automatizar as coisas chatas com Python é a sua melhor maneira de dominar essa linguagem!

Como pensar como um cientista da computação – outro bom projeto de livro aberto que o instrui a programar como um profissional. É mais como uma informação geral sobre programação. Por exemplo, você não tem ideia do que é Strings ou Tuplas ou qualquer outra coisa, é o lugar certo para receber uma explicação fundamental.

O próximo passo é fundamental para a consolidação do que foi alcançado até agora:

PracticePython.org – um ótimo lugar que oferece todo o espectro de tarefas de programação Python e, o mais importante, suas soluções. Aqui você pode comparar sua decisão com as decisões de outras pessoas e descobrir os pontos fortes e fracos de sua abordagem.

Etapa 2: listas e strings Python

Imagem para postagem

Uma Lists é uma estrutura de dados em Python que é uma sequência ordenada de elementos mutável ou mutável. Cada elemento ou valor que está dentro de uma lista é chamado de item. Assim como strings são definidas como caracteres entre aspas, as listas são definidas por ter valores entre colchetes [].

Aqui está um exemplo rápido para definir uma lista e acessá-la:

Imagem para postagem

As strings podem ser definidas simplesmente pelo uso de vírgulas simples (‘), duplas (”) ou triplas (”’). Strings entre aspas tripe (”’) podem se estender por várias linhas e são usadas frequentemente em docstrings (a maneira do Python de documentar funções). \ é usado como um caractere de escape. Observe que as strings do Python são imutáveis, portanto você não pode alterar parte das strings.

Imagem para postagem

Etapa 3: Bibliotecas Python para ciência de dados

Imagem para postagem

O que são bibliotecas na programação? É uma coleção de rotinas pré-compiladas que um programa pode usar. As rotinas, às vezes chamadas de módulos, são armazenadas em formato de objeto. As bibliotecas são particularmente úteis para armazenar rotinas usadas com frequência porque você não precisa vinculá-las explicitamente a todos os programas que as usam. Bibliotecas economizam tempo porque você não precisa construir funções do zero.

O que você precisa aprender:

Jupyter Notebook – um conjunto de ferramentas para o desenvolvimento de programas. Se você baixou o Python com a distribuição Anaconda, use o Anaconda para criar e salvar o Jupyter Notebook.

Caminho de aprendizagem:

  1. Leia as informações gerais (leva aproximadamente 30 minutos).
  2. Abra o Jupyter Notebook e carregue a biblioteca.
  3. Veja como a biblioteca funciona, usando as instruções para trabalhar com a biblioteca.
  4. Reserve 30 minutos para o estudo das informações de referência.

Usando este caminho de aprendizagem, você dominará a biblioteca o suficiente para começar a usá-la em seu trabalho.

Bibliotecas Python para ciência de dados que você precisa aprender:

1. Primeiro, comece a aprender NumPy , pois é o pacote fundamental para computação científica com Python. Um bom conhecimento do Numpy o ajudará a usar ferramentas como o Pandas de forma mais eficaz.

Coisas para aprender: conceitos básicos de Numpy, as operações mais frequentemente realizadas em Numpy, como trabalhar com array N-dimensional, Indexação e divisão de arrays, Indexação usando arrays inteiros, transposição de array, funções universais, processamento de dados usando arrays, frequentemente métodos estatísticos utilizados.

2. Os Pandas contêm estruturas de dados de alto nível e ferramentas de manipulação para tornar a análise de dados rápida e fácil em Python. O trabalho com esta biblioteca é baseado no NumPy.

Fina para aprender: série, quadros de dados, descartando entradas de um eixo, trabalhando com valores ausentes.

3. Matplotlib – para visualização de dados bidimensionais ou tridimensionais. É uma ferramenta pesada, mas poderosa. Com Matplotlib você pode gerar rapidamente gráficos de linha, histogramas, gráficos de pizza e muito mais.

Coisas para aprender:

Crie diferentes tipos de visualizações, dependendo da mensagem que você deseja transmitir. Aprenda a construir plotagens complexas e personalizadas com base em dados reais.

Bibliotecas adicionais:

1. Scipy – um módulo Python para álgebra linear, integração, otimização, estatísticas e outras tarefas freqüentemente usadas em ciência de dados. É altamente amigável e fornece manipulação rápida e conveniente de array N-dimensional.

2. PyTorch – baseado no Torch, é uma biblioteca de ML de código aberto que foi construída principalmente para o grupo de pesquisa de inteligência artificial do Facebook. Embora seja uma ótima ferramenta para processamento de linguagem natural e aprendizado profundo, também pode ser aproveitada com eficácia para ciência de dados.

3. scikit-learn – um módulo focado em ML que se baseia no SciPy. A biblioteca fornece um conjunto comum de algoritmos de ML por meio de sua interface consistente e ajuda os usuários a implementar rapidamente algoritmos populares em conjuntos de dados. Ele também tem todas as ferramentas padrão para tarefas comuns de ML, como classificação, armazenamento em cluster e regressão.

Etapa 4: praticar suas habilidades de codificação e ciência de dados

A prática leva à perfeição, especialmente quando se trata de ciência de dados.

Pois bem, se já conseguiste percorrer um caminho tão longo, os meus parabéns! Agora a bola está no campo da prática e começa o trabalho analítico com Python! Para mim, pessoalmente, a solução mais eficaz nesta fase são três maneiras: participar de concursos Kaggle, inventar e resolver um problema sozinho, concluir um curso prático sobre análise de dados em Python. Mas vamos tentar falar um de cada vez:

1. Crie e resolva o problema você mesmo

Imaginemos um profissional de marketing cansado de ficar acordado até tarde no trabalho devido ao fato de ter que coletar e processar dados manualmente e fazer relatórios visuais com base neles. Para simplificar seu trabalho e voltar para casa a tempo, ele define a tarefa – automatizar esse processo usando Python e resolvê-lo.

Da mesma forma, você deve encontrar algo que o torne difícil de trabalhar. Então, sua tarefa é pensar em como consertar. A única coisa que pode impedi-lo é a ignorância da sequência de ações. A partir disso, você pode pular as etapas necessárias e falhar. Ou fique preso no meio, sem saber como proceder.

Se isso acontecer, use o método abaixo.

2. Faça um curso prático sobre análise de dados em Python

Por curso prático, quero dizer obter os conhecimentos necessários e realizar uma tarefa real sob a supervisão de um profissional que entende das coisas. Cursos que recomendo:

Python de A a Z – Guia de Primeiros passos com a linguagem (E-book)
https://go.hotmart.com/L40280548R

Data Science de A-Z: Desde a Teoria à Programação – Black
https://go.hotmart.com/G40280676D

Conselho final e um pouco de motivação

Um dos erros mais fáceis que você pode cometer ao dominar Python é tentar aprender muitas coisas, especialmente bibliotecas de uma vez. Quando você tenta aprender assim, passa muito tempo trocando conceitos diferentes, fica frustrado e passa para outra coisa.

Portanto, quando você começar a aprender, concentre-se neste processo e seja paciente em cada etapa:

  • Entenda os fundamentos do Python
  • Aprenda Numpy
  • Aprenda Pandas
  • Aprenda Matplotlib
  • Pratique suas habilidades de codificação e ciência de dados

Boa sorte!

Créditos: audible

Espero que você tenha gostado deste post. Sinta-se à vontade para fazer suas perguntas nos comentários abaixo se algo não estiver claro para você.

Compartilhe!