O que é data Science e o que fazem os cientistas de dados?

Compartilhe!

O que é data Science

Que profissão Harvard chamou de o trabalho mais sexy do século 21? Isso mesmo … o cientista de dados.

Ah, sim, o sempre misterioso cientista de dados. Então, qual é exatamente o ingrediente secreto do cientista de dados e o que essa pessoa “sexy” realmente faz no trabalho todos os dias?

Este artigo tem como objetivo ajudar a definir a função do cientista de dados, incluindo habilidades, qualificações, educação, experiência e responsabilidades típicas. Essa definição é um pouco vaga, pois realmente não existe uma definição padronizada da função do cientista de dados e, considerando que a experiência e o conjunto de habilidades ideais são relativamente raros de se encontrar em um indivíduo.

Esta definição pode ser ainda mais confundida pelo fato de que há outras funções às vezes consideradas iguais, mas geralmente são bastante diferentes. Alguns deles incluem analista de dados, engenheiro de dados e assim por diante. Mais sobre isso mais tarde.

Aqui está um diagrama que mostra algumas das disciplinas comuns que um cientista de dados pode utilizar. O nível de experiência e conhecimento de um cientista de dados em cada um deles geralmente varia em uma escala que varia de iniciante a proficiente e a especialista, no caso ideal.

Por Calvin.Andrus (Trabalho próprio) [CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons
Por Calvin.Andrus (Trabalho próprio) [CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons

Embora essas, e outras disciplinas e áreas de especialização (não mostradas aqui), sejam todas características da função do cientista de dados, gosto de pensar que a base de um cientista de dados é baseada em quatro pilares. Outras áreas de especialização mais específicas podem ser derivadas desses pilares.

Vamos discuti-los agora.

Os Pilares Da Expertise Em Ciência De Dados

Embora os cientistas de dados geralmente tenham experiências educacionais e de trabalho diferentes, a maioria deve ser forte ou, em um caso ideal, especialista em quatro áreas fundamentais. Em nenhuma ordem particular de prioridade ou importância, são:

  • Empresa / Domínio
  • Matemática (inclui estatísticas e probabilidade)
  • Ciência da computação (por exemplo, software / arquitetura de dados e engenharia)
  • Comunicação (escrita e verbal)
data-science-pillars-of-expertisecopyright-2019-alex-castrounis-all-rights-reserved.png

Existem outras habilidades e conhecimentos que também são altamente desejáveis, mas essas são as quatro principais, na minha opinião. Eles serão chamados de pilares do cientista de dados no restante deste artigo.

Na realidade, as pessoas geralmente são fortes em um ou dois desses pilares, mas geralmente não são igualmente fortes em todos os quatro. Se por acaso você encontrar um cientista de dados que é realmente um especialista em tudo, então você essencialmente se encontrou um unicórnio.

Com base nesses pilares, um cientista de dados é uma pessoa que deve ser capaz de aproveitar as fontes de dados existentes e criar novas, conforme necessário, a fim de extrair informações significativas e percepções acionáveis. Esses insights podem ser usados ​​para conduzir decisões de negócios e mudanças destinadas a atingir as metas de negócios.

Isso é feito por meio de experiência no domínio do negócio, comunicação eficaz e interpretação de resultados e utilização de todas e quaisquer técnicas estatísticas relevantes, linguagens de programação, pacotes de software e bibliotecas, infraestrutura de dados e assim por diante.

Diagramas De Venn Da Ciência De Dados

É possível encontrar muitas versões diferentes do diagrama de Venn do cientista de dados para ajudar a visualizar esses pilares (ou variações) e seus relacionamentos uns com os outros. David Taylor escreveu um excelente artigo sobre esses diagramas de Venn, intitulado Battle of the Data Science Venn Diagrams. Eu recomendo a leitura.

Autor: Stephan Kolassa
Autor: Stephan Kolassa

Este diagrama, e outros semelhantes, tentam atribuir rótulos e / ou caracterizar a pessoa ou campo que se encontra na interseção de cada uma das competências primárias mostradas, que estou chamando de pilares aqui.

Como mostra este diagrama, Stephan Kolassa rotula ‘O Cientista de Dados Perfeito’ como o indivíduo que é igualmente forte em negócios, programação, estatística e comunicação. Eu concordo completamente.

Metas E Resultados Finais Da Ciência De Dados

Para entender a importância desses pilares, deve-se primeiro entender as metas e resultados típicos associados às iniciativas de ciência de dados e também o próprio processo de ciência de dados. Vamos primeiro discutir alguns objetivos e resultados comuns da ciência de dados.

Aqui está uma pequena lista de produtos comuns de ciência de dados:

  • Predição (prever um valor com base nas entradas)
  • Classificação (por exemplo, spam ou não spam)
  • Recomendações (por exemplo, recomendações da Amazon e Netflix)
  • Detecção e agrupamento de padrões (por exemplo, classificação sem classes conhecidas)
  • Detecção de anomalias (por exemplo, detecção de fraude)
  • Reconhecimento (imagem, texto, áudio, vídeo, facial, …)
  • Insights acionáveis ​​(por meio de painéis, relatórios, visualizações, …)
  • Processos automatizados e tomada de decisão (por exemplo, aprovação de cartão de crédito)
  • Pontuação e classificação (por exemplo, pontuação FICO)
  • Segmentação (por exemplo, marketing com base demográfica)
  • Otimização (por exemplo, gerenciamento de risco)
  • Previsões (por exemplo, vendas e receita)

Cada um deles se destina a abordar uma meta específica e / ou resolver um problema específico. A verdadeira questão é qual objetivo, e de quem é?

Por exemplo, um cientista de dados pode pensar que seu objetivo é criar um mecanismo de previsão de alto desempenho. A empresa que planeja utilizar o mecanismo de previsão, por outro lado, pode ter o objetivo de aumentar a receita, o que pode ser alcançado usando este mecanismo de previsão.

Embora possa parecer não ser um problema à primeira vista, na realidade, a situação descrita explica porque o primeiro pilar (especialização no domínio do negócio) é tão crítico. Freqüentemente, os membros da alta administração têm formação educacional centrada nos negócios, como um MBA.

Embora muitos executivos sejam indivíduos excepcionalmente inteligentes, eles podem não estar bem versados ​​em todas as ferramentas, técnicas e algoritmos disponíveis para um cientista de dados (por exemplo, análise estatística, aprendizado de máquina, inteligência artificial e assim por diante). Diante disso, eles podem não ser capazes de dizer a um cientista de dados o que eles gostariam de entrega final, ou sugerir as fontes de dados, recursos (variáveis) e caminho para chegar lá.

Mesmo que um executivo seja capaz de determinar que um mecanismo de recomendação específico ajudaria a aumentar a receita, ele pode não perceber que provavelmente há muitas outras maneiras de usar os dados da empresa para aumentar a receita.

Portanto, não pode ser enfatizado o suficiente que o cientista de dados ideal tem um entendimento bastante abrangente sobre como os negócios funcionam em geral e como os dados de uma empresa podem ser usados ​​para atingir as metas de negócios de nível superior.

Com experiência significativa no domínio de negócios, um cientista de dados deve ser capaz de descobrir e propor regularmente novas iniciativas de dados para ajudar a empresa a atingir seus objetivos e maximizar seus KPIs.

O Processo De Ciência De Dados

Os cientistas de dados geralmente seguem um processo semelhante a este, especialmente ao criar modelos usando aprendizado de máquina e técnicas relacionadas.

O Modelo de Processo GABDO consiste em cinco fases iterativas – objetivos, adquirir, construir, entregar, otimizar – portanto, representado pela sigla GABDO. Cada fase é iterativa porque qualquer fase pode retornar a uma ou mais fases anteriores. Sinta-se à vontade para verificar o livro se quiser saber mais sobre o processo e seus detalhes.

O Modelo de Processo GABDO
O Modelo de Processo GABDO

Esse é o processo em poucas palavras. Então, como esses pilares entram em jogo aqui?

Pilares, Habilidades E Educação Do Cientista De Dados Em Profundidade

Já discutimos o domínio de negócios e os pilares de comunicação, que representam visão de negócios e habilidades de comunicação de alto nível. Isso é muito importante para a fase de descoberta e objetivo. Também é muito útil porque os cientistas de dados normalmente precisam apresentar e comunicar os resultados às principais partes interessadas, incluindo executivos.

Portanto, habilidades sociais fortes, particularmente comunicação (escrita e verbal) e habilidade de falar em público são fundamentais. Na fase em que os resultados são comunicados e entregues, a mágica está na capacidade do cientista de dados de entregar os resultados de forma compreensível, atraente e perspicaz, usando linguagem e nível de jargão apropriados para seu público. Além disso, os resultados devem sempre estar relacionados às metas de negócios que originaram o projeto em primeiro lugar.

Para todas as outras fases listadas, os cientistas de dados devem recorrer a fortes habilidades de programação de computadores, bem como conhecimento sobre estatísticas, probabilidades e matemática, a fim de compreender os dados, escolher a abordagem de solução correta, implementar a solução e melhorá-la também.

Uma coisa importante a discutir são as plataformas e APIs de ciência de dados disponíveis no mercado. Pode-se ficar tentado a pensar que eles podem ser usados ​​com relativa facilidade e, portanto, não requerem especialização significativa em determinados campos e, portanto, não requerem um cientista de dados forte e experiente.

É verdade que muitos desses produtos de prateleira podem ser usados ​​com relativa facilidade, e provavelmente se pode obter resultados bastante decentes dependendo do problema que está sendo resolvido, mas há muitos aspectos da ciência de dados em que a experiência e os recursos são extremamente importantes.

Alguns deles incluem a capacidade de:

  • Personalize a abordagem e a solução para o problema específico em questão para maximizar os resultados, incluindo a capacidade de escrever novos algoritmos e / ou modificar significativamente os existentes, conforme necessário
  • Acesse e consulte muitos bancos de dados e fontes de dados diferentes (RDBMS, NoSQL, NewSQL), bem como integre os dados em uma fonte de dados orientada por analítica (por exemplo, OLAP, warehouse, data lake, …)
  • Encontre e escolha as fontes de dados e recursos de dados (variáveis) ideais, incluindo a criação de novos conforme necessário (engenharia de recursos)
  • Compreenda todas as opções estatísticas, de programação e de biblioteca / pacote disponíveis e selecione a melhor
  • Garantir que os dados tenham alta integridade (bons dados), qualidade (os dados corretos) e estejam na forma e condições ideais para garantir resultados precisos, confiáveis ​​e estatisticamente significativos
  • Evite os problemas associados ao lixo do mesmo modo que o lixo sai
  • Selecione e implemente as melhores ferramentas, algoritmos, estruturas, linguagens e tecnologias para maximizar os resultados e dimensionar conforme necessário
  • Escolha as métricas de desempenho corretas e aplique as técnicas apropriadas para maximizar o desempenho
  • Descubra maneiras de aproveitar os dados para atingir as metas de negócios sem orientação e / ou resultados sendo ditados de cima para baixo, ou seja, o cientista de dados como o idealizador
  • Trabalhe multifuncionalmente, de forma eficaz e em colaboração com todos os departamentos e grupos da empresa
  • Distinguir bons de maus resultados e, assim, mitigar os riscos potenciais e perdas financeiras que podem vir de conclusões errôneas e decisões subsequentes
  • Entenda os clientes e / ou usuários do produto (ou serviço) e crie ideias e soluções com eles em mente

Em termos de educação, não há um caminho único para se tornar um cientista de dados. Muitas universidades criaram programas específicos de ciência de dados e análise, principalmente em nível de mestrado. Algumas universidades e outras organizações também oferecem programas de certificação.

Além dos programas tradicionais de graduação e certificação, são oferecidos bootcamps que variam de alguns dias ou meses até a conclusão do aprendizado autoguiado on-line e cursos MOOC focados em ciência de dados e campos relacionados, além do aprendizado prático autodirigido.

Não importa qual caminho seja seguido para aprender, o cientista de dados deve ter conhecimento quantitativo avançado e habilidades altamente técnicas, principalmente em estatística, matemática e ciência da computação.

A “Ciência” Em Ciência De Dados

O termo ciência é geralmente sinônimo de método científico, e alguns de vocês devem ter notado que o processo delineado acima é muito semelhante ao processo caracterizado pela expressão método científico.

Aqui está uma imagem que visualiza o método científico como um processo contínuo.

Por ArchonMagnus (Trabalho próprio) [CC BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0)], via Wikimedia Commons
Por ArchonMagnus (Trabalho próprio) [CC BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0)], via Wikimedia Commons

De um modo geral, tanto os cientistas tradicionais quanto os cientistas de dados fazem perguntas e / ou definem um problema, coletam e aproveitam dados para chegar a respostas ou soluções, testam a solução para ver se o problema foi resolvido e repetem conforme necessário para melhorar, ou finalizar a solução.

Cientistas De Dados X Analistas De Dados X Engenheiros De Dados

Conforme mencionado, muitas vezes a função do cientista de dados é confundida com outras funções semelhantes. Os dois principais são analistas e engenheiros de dados, ambos bastante diferentes um do outro, e também da ciência de dados.

Vamos explorar essas duas funções com mais detalhes.

Analista de informações

Os analistas de dados compartilham muitas das mesmas habilidades e responsabilidades de um cientista de dados e, às vezes, também têm uma formação educacional semelhante. Algumas dessas habilidades compartilhadas incluem a capacidade de:

  • Acesse e consulte (por exemplo, SQL) diferentes fontes de dados
  • Processar e limpar dados
  • Resuma os dados
  • Compreenda e use algumas estatísticas e técnicas matemáticas
  • Prepare visualizações de dados e relatórios

Algumas das principais diferenças, entretanto, são que os analistas de dados geralmente não são programadores de computador, nem responsáveis ​​pela modelagem estatística, aprendizado de máquina e muitas das outras etapas descritas no processo de ciência de dados acima.

As ferramentas usadas geralmente também são diferentes. Os analistas de dados costumam usar ferramentas de análise e inteligência de negócios, como Microsoft Excel (visualização, tabelas dinâmicas, …), Tableau, SAS, SAP e Qlik.

Os analistas às vezes realizam mineração de dados e tarefas de modelagem, mas tendem a usar plataformas visuais como IBM SPSS Modeler, Rapid Miner, SAS e KNIME. Os cientistas de dados, por outro lado, realizam essas mesmas tarefas geralmente com ferramentas como R e Python, combinadas com bibliotecas relevantes para a (s) linguagem (s) em uso.

Por último, os analistas de dados tendem a diferir significativamente em suas interações com os principais gerentes e executivos de negócios. Os analistas de dados geralmente recebem perguntas e metas de cima para baixo, realizam a análise e relatam suas descobertas.

Os cientistas de dados, entretanto, tendem a gerar as próprias perguntas, guiados por saber quais objetivos de negócios são mais importantes e como os dados podem ser usados ​​para atingir certos objetivos. Além disso, os cientistas de dados normalmente aproveitam a programação com pacotes de software especializados e empregam estatísticas, análises e técnicas de modelagem muito mais avançadas.

Engenheiro de dados

Os engenheiros de dados estão se tornando mais importantes na era do big data e podem ser considerados um tipo de arquiteto de dados. Eles estão menos preocupados com estatísticas, análises e modelagem do que seus colegas cientistas / analistas de dados e estão muito mais preocupados com arquitetura de dados, infraestrutura de computação e armazenamento de dados, fluxo de dados e assim por diante.

Os dados usados ​​por cientistas de dados e aplicativos de big data geralmente vêm de várias fontes e devem ser extraídos, movidos, transformados, integrados e armazenados (por exemplo, ETL / ELT) de forma otimizada para análise, inteligência de negócios e modelagem.

Os engenheiros de dados são, portanto, responsáveis ​​pela arquitetura de dados e por configurar a infraestrutura necessária. Como tal, eles precisam ser programadores competentes com habilidades muito semelhantes a alguém em uma função de DevOps, e também com fortes habilidades de redação de consultas de dados.

Outro aspecto importante dessa função é o design do banco de dados (RDBMS, NoSQL e NewSQL), armazenamento de dados e configuração de um data lake. Isso significa que eles devem estar muito familiarizados com muitas das tecnologias de banco de dados e sistemas de gerenciamento disponíveis, incluindo aqueles associados a big data (por exemplo, Hadoop e HBase).

Por último, os engenheiros de dados também costumam atender aos requisitos de infraestrutura não funcionais, como escalabilidade, confiabilidade, durabilidade, disponibilidade, backups e assim por diante.

A Caixa De Ferramentas Do Cientista De Dados

Concluiremos com uma visão geral de algumas das ferramentas típicas da proverbial caixa de ferramentas do cientista de dados.

Como a programação de computadores é um grande componente, os cientistas de dados devem ser proficientes com linguagens de programação como R, Python, SQL, Scala, Julia, Java e assim por diante. Normalmente não é necessário ser um programador especialista em tudo isso, mas R, Python e SQL são definitivamente fundamentais, e outros como Scala para big data estão se tornando mais proeminentes também.

Para estatísticas, matemática, algoritmos, modelagem e visualização de dados, os cientistas de dados geralmente usam pacotes e bibliotecas pré-existentes sempre que possível. Alguns dos mais populares incluem Scikit-learn, e1071, Pandas, Numpy, TensorFlow, Matplotlib, D3, Shiny e ggplot2.

Para pesquisas e relatórios reproduzíveis, os cientistas de dados costumam usar notebooks e estruturas como Jupyter, iPython, Knitr e R markdown. Eles são muito poderosos, pois o código e os dados podem ser fornecidos junto com os principais resultados para que qualquer pessoa possa realizar a mesma análise e desenvolver a partir dela, se desejar.

Cada vez mais, os cientistas de dados também devem ser capazes de utilizar ferramentas e tecnologias associadas a big data. Os exemplos mais populares incluem Hadoop, Spark, Hive, Pig, Drill, Presto, Mahout e assim por diante.

Por fim, os cientistas de dados devem saber como acessar e consultar muitos dos principais sistemas de gerenciamento de banco de dados RDBMS, NoSQL e NewSQL. Alguns dos mais comuns são MySQL, PostgreSQL, Redshift, MongoDB, Redis, Hadoop e HBase.

Resumo

Harvard estava certo sobre os cientistas de dados. É uma função extremamente importante e de alta demanda que pode ter um impacto significativo na capacidade de uma empresa de atingir seus objetivos, sejam eles financeiros, operacionais, estratégicos e assim por diante.

A empresa coleta uma tonelada de dados e, na maior parte do tempo, eles são negligenciados ou subutilizados. Esses dados, por meio da extração de informações significativas e da descoberta de insights acionáveis, podem ser usados ​​para tomar decisões de negócios críticas e gerar mudanças significativas nos negócios. Ele também pode ser usado para otimizar o sucesso do cliente e subsequente aquisição, retenção e crescimento.

Conforme mencionado, os cientistas de dados podem ter um grande impacto positivo no sucesso de uma empresa e, às vezes, causar perdas financeiras inadvertidamente, que é um dos muitos motivos pelos quais a contratação de um cientista de dados de primeira linha é crítica.

Esperançosamente, este artigo ajudou a desmistificar a função do cientista de dados e outras funções relacionadas.

Créditos: datasciencedegree

Felicidades!

🙂

Compartilhe!