top of page
Prancheta 7-8.png

Introdução aos Dados

O que é Ciência de Dados?

Ciência de Dados é uma área interdisciplinar voltada para o estudo e a análise de dados que visa a extração de conhecimento, detecção de padrões e a obtenção de ideias para possíveis tomadas de decisão. Toda essa definição parece complexa, não é? Mesmo os profissionais que trabalham neste campo possuem dificuldades em definir, “Mas o que é ciência de dados? ” Então vamos por partes:

  • “Ciência de Dados é uma área interdisciplinar ...” – Aqui o termo interdisciplinar se refere ao uso de diversos campos da ciência em prol de um mesmo objetivo. E isso não é à toa: Matemática, História, Português, Geografia, Computação e Biologia podem ser abordadas a depender do tema do projeto. No geral, Ciência de Dados depende sempre de mais de um conceito sendo a Matemática o elemento vital, pois é a partir dela que conclusões serão tomadas funcionando assim como fundação desta área

  •  “ ... voltada para o estudo e a análise de dados ...” – Este ponto se refere a característica fundamental deste campo: não existe análise sem informações. Ou seja, ao se discutir Ciência de Dados o fator dados (informações) é vital (inclusive, não se chama de ciência de dados à toa).

A detecção de padrões é a mais crucial, pois eles estão por toda a parte seja na natureza ou na sociedade. Um padrão interessante que a maioria dos soteropolitanos conhecem é o aumento de turistas na cidade de Salvador durante os meses de fevereiro e março. Diversos fatores podem ser relacionados a este fato, porém um dos mais relevantes: o acontecimento do carnaval, a maior festa de rua do mundo. Essa relação pode ser interessante, para um gestor público que pode se preparar para este aumento de turistas a partir do conhecimento de que o carnaval está próximo. Padrões assim são o que os cientistas de dados buscam para facilitar as diversas tomadas de decisão.

10.png

Figura 01 – A esquerda, o farol da barra em dias normais e a direita durante o carnaval.

A Ciência de dados como campo científico existe há 30 anos, o que pode ser considerado um bebê em comparação a outros como a Física que possui pelo menos 400 anos. Atualmente, a ciência de dados se tornou tão popular devido a dois motivos principais: aperfeiçoamento de modelos matemáticos para a detecção de padrões e a enorme quantidade de dados a cada dia.

Para termos uma ideia, em 2015 foi estimado que 90% dos dados gerados pela raça humana foram gerados em 2013/2014, logo os 10% restantes são referentes a todo e qualquer tipo de material criado em 2012 até o início de nossa espécie! E essa tendência só vem crescendo, aumentando a necessidade de pessoas capacitadas para extrair e gerar resultados com as informações: os cientistas de dados (inclusive isso por si só é um padrão: aumentando a quantidade de dados gerados, aumentamos a necessidade de profissionais capacitados em compreendê-los).

O que são os dados? De onde vem os dados?

Dados são observações armazenadas. Desde imagens salvas em seu celular até os vídeos presentes no Youtube podem ser considerados dados. Porém sua existência não implica em significado ou sentido logo, não tem valor algum para embasar conclusões, muito menos respaldar decisões. Por outro lado, ao organizar esse conjunto de dados com o intuito de transmitir significado, conseguimos gerar informações. Em resumo, dados podem ser considerados informações não processadas.

Estrutura dos dados: Como organizá-los?

Mas como nós podemos organizar os dados? Bom, as formas mais conhecidas são a estruturada e não estruturada. A tabela é considerada uma representante de dados estruturados, pois é composta por linha s e colunas. Linha, também chamada de amostra, representa um indivíduo ou medição. Já a coluna identifica um atributo referente ao indivíduo.

11.png

Tabela 01 – Exemplo de tabela.

O formato não estruturado é aquele em seu padrão de organização não é claro. Esses são representados por coleções de textos, áudios, imagens ou filmes.

12.png

Figura 02 – Exemplos de serviços online que podem armazenar dados não estruturados

 

Quais são os tipos de variáveis?

Antes de entender quais são os tipos de variáveis, vamos compreender: O que de fato é uma variável? Variável pode ser compreendida como um atributo que pertence a algum objeto de estudo. Para melhorar a compreensão vamos usar um exemplo: Digamos que você deseja compreender como Salvador se torna um grande foco turístico.

Você acabou de definir seu objeto de estudo e agora precisa se perguntar “Quais são os tipos de informações que eu poderia levantar sobre essas cidades? ”. Essa pergunta não tem uma resposta única: você pode escolher a quantidade de praias que existem naquela cidade, tamanho populacional, se existe museus na região, quantidade de hotéis, quantidade de praças entre outros. Esses tipos de informações são os atributos levantados e, portanto, suas variáveis. Vale lembrar que nem toda variável precisa ser importante para o que você quer descobrir e acaba sendo o trabalho de um cientista avaliar se de fato ela tem relevância através do uso da matemática ou conhecimento teórico.

Agora que sabemos o que é uma variável vamos avaliar os dois principais tipos: numérica e categórica. As numéricas são aquelas em que a ordem e a magnitude são relevantes. Já as categóricas são aquelas opostas a essa definição, além de só poder assumir uma quantidade finita de valores

Usando como base o exemplo anterior, podemos considerar que o tamanho populacional é uma variável numérica e existe museus na cidade uma variável categórica. Note que para a variável tamanho populacional a magnitude e ordem importam: cidades mais populosas são aquelas que possuem uma população maior (ordem), além disso existe uma diferença clara entre populações com mil habitantes e milhares de habitantes (magnitude).

Veja a tabela abaixo por exemplo, onde é mostrada a população de vários municípios da Região Metropolitana de Salvador. A cidade de Salvador é a mais populosa da região, seguida por Camaçari:

13.png

Tabela 02 – Representação da variável numérica tamanho populacional. Em vermelho destaca-se a cidade de Salvador.

Já o atributo “existe museus na cidade” é classificado como categórico, pois ele pode ter apenas duas respostas (quantidade finita): sim ou não. Além disso essas respostas não possuem magnitude ou ordem. A imagem abaixo mostra uma série de museus de Salvador, que nos leva a notar que a resposta para este atributo será “sim”.

14.png

Figura 03 – Representação da variável categórica de museus na cidade.

Indo além...

Por tantas possibilidades de análises em Ciência de Dados, seus conceitos se aplicam à problemas diversos e por isso é utilizada amplamente na solução de problemas sociais. Por exemplo, cientistas de dados do Bayes Impact ajudam ONGs a solucionar problemas. Um caso interessante desenvolvido é a melhoria de serviços de respostas a emergências na cidade de San Francisco, por meio da Ciência de Dados.

No setor de negócios e finanças a Ciência de Dados também é aplicada pra melhorar a análise de resultados, prever lucros e, com isso, auxiliar a tomar melhores decisões. Além disso, esta ciência permite maior transparência em serviços, pois pode ser utilizada na detecção ou prevenção à erros e fraudes em sistemas bancários ou mesmo em pesquisas.

No caso do nosso exemplo do carnaval, poderíamos investigar como evitar engarrafamentos a partir dos dias de chegada de turistas e fazer melhores planejamentos de rotas nos dias de grande movimento. Ou ainda, traçar estratégias para melhorar a coleta de resíduos nos pontos da cidade que estarão mais suscetíveis à poluição.

Agora você: reconhece alguma situação na sua comunidade onde podemos utilizar a Ciência de Dados para solucionar?

Referências:

WIKIPÉDIA. Ciência de Dados. Disponível em: <https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados>. Acesso em 04 de Agosto de 2020.

CIO From IDG, Redação. Tome nota: 2,5 quintilhões de bytes são criados todos os dias. Disponível em:  <https://cio.com.br/tome-nota-2-5-quintilhoes-de-bytes-sao-criados-todos-os-dias/>. Acesso em 04 de Agosto de 2020.

Sugestões de Leitura

Por Mastertech Blog: 3 exemplos do uso da Data Science (Ciência de dados) para resolver problemas. Disponível em: https://blog.mastertech.com.br/tecnologia/3-exemplos-do-uso-da-data-science-para-resolver-problemas/.

Por Alejandro Couce em CIO From IDG: Ciência de dados: interconectar tudo para melhorar as decisões do negócio. Disponível em: https://cio.com.br/ciencia-de-dados-interconectar-tudo-para-melhorar-as-decisoes-do-negocio/.

Por David Matos em Ciência e Dados Blog: Usando Data Science (Ciência de dados) no combate a fraudes. Disponível em: http://www.cienciaedados.com/usando-data-science-no-combate-a-fraudes/.

Por Rita Loiola em Revista VEJA: Ciência à prova de erros e fraudes. Disponível em: https://veja.abril.com.br/ciencia/ciencia-a-prova-de-erros-e-fraudes/.

Prancheta 7-8.png
Prancheta 3 cópia 2-8.png
bottom of page