Categorias
Big Data Ciência de Dados Machine Learning

Pesquisadores desenvolvem detector de fake news para notícias sobre o Covid-19

Por tratar-se de uma nova ameaça, sabe-se muito pouco sobre o coronavírus (Sars-CoV-2). Esse fator dá grande abertura para disseminação de fake news (como ficou popularmente conhecido o compartilhamento de informações falsas), que podem ir desde supostos métodos de prevenção, tratamentos caseiros, cura do vírus e até mesmo tratamentos controversos recomendados por médicos, mesmo que não haja comprovação ou evidência científica para tais. Tudo isso pode dificultar o trabalho de órgãos de saúde, prejudicar a adoção de medidas de distanciamento social pela população e acarretar aumentos dos números de infectados e de morte pelo vírus.

Para diminuir os impactos dessa desinformação, diversos sites de checagem de fatos têm ferramentas que identificam e classificam (manualmente) tais notícias. Em geral, essas ferramentas poderiam fazer uso de algoritmos de aprendizagem de máquina para classificação de notícias. Diante dessa problemática, é evidente a necessidade de elaborar mecanismos e ferramentas que possam combater eficientemente o caos das fakes news.

Por isso, durante as disciplinas de Aprendizagem de Máquina e Mineração de Dados (Programa de Pós-graduação em Ciência da Computação da Universidade Federal do Ceará (MDCC-UFC)), nós (Andreza Fernandes, Felipe Marcel, Flávio Carneiro e Marianna Ferreira) propusemos um detector de fake news para analisar notícias sobre o COVID-19 divulgadas em redes sociais. Nosso objetivo é ajudar a população quanto ao esclarecimento da veracidade dessas informações.

Agora, detalharemos o processo de desenvolvimento desse detector de fake news.

 

Objetivos do projeto

  • Formar uma base dados de textos com notícias falsas e verdadeiras acerca do COVID-19;
  • Diminuir enviesamento das notícias;
  • Experimentar diferentes representações textuais;
  • Experimentar diferentes abordagens clássicas de aprendizagem de máquina e deep learning;
  • Construir um BOT no Telegram que ajude na detecção de notícias falsas relacionadas ao COVID-19.

 

Entendendo as terminologias usadas

Para o entendimento dos experimentos realizadas, vamos conceituar alguns pontos chaves e técnicas de Processamento de Linguagem Natural.

Tokenização: Esse processo transforma todas as palavras de um texto, dado como entrada, em elementos (conhecidos como tokens) de um vetor.

Remoção de Stopwords: Consiste na remoção de palavras de parada, como “a”, “de”, “o”, “da”, “que”, “e”, “do”, dentre outras, pois na maioria das vezes não são informações relevantes para a construção do modelo.

Bag of words: É uma representação simplificada e esparsa dos dados textuais. Consiste em gerar uma bolsa de palavras do vocabulário existente no dado, que constituirá as features do dataset. Para cada sentença é assinalado um “1” nas colunas que apresentam as palavras que ocorrem na sentença e “0” nas demais.

Term Frequency – Inverse Document Frequency (TF-IDF): Indica a importância de uma palavra em um documento. Enquanto TF está relacionada à frequência do termo, IDF busca balancear a frequência de termos mais comuns/frequentes que outros.

Word embeddings: É uma forma utilizada para representar textos, onde palavras que possuem o mesmo sentido têm uma representação muito parecida. Essa técnica aprende automaticamente, a partir de um corpus de dados, a correlação entre as palavras e o contexto, possibilitando que palavras que frequentemente ocorrem em contextos similares possuam uma representação vetorial próxima. Essa representação possui a vantagem de ter um grande poder de generalização e apresentar baixo custo computacional, uma vez que utiliza representações densas e com poucas dimensões, em oposição a técnicas esparsas, como Bag of Words. Para gerar o mapeamento entre dados textuais e os vetores densos mencionados, existem diversos algoritmos disponíveis, como Word2Vec e FastText, os quais são utilizados neste trabalho.

Out-of-vocabulary (OOV): Consiste nas palavras presentes no dataset que não estão presentes no vocabulário da word embedding, logo, elas não possuem representação vetorial.

Edit Distance: Métrica que quantifica a diferença entre duas palavras, contando o número mínimo de operações necessárias para transformar uma palavra na outra.

 

Metodologia

Agora iremos descrever os passos necessários para a obtenção dos resultados, geração dos modelos e escolha daquele com melhor performance para a efetivação do nosso objetivo.

 

Obtenção dos Dados

Os dados utilizados para a elaboração dos modelos foram adquiridos das notícias falsas brasileiras sobre o COVID-19, dispostos no Chequeado, e de um web crawler dos links das notícias, utilizadas para comprovar que a notícia é falsa no Chequeado, para formar uma base de notícias verdadeiras. Além disso também foi realizado um web crawler para obtenção de notícias do Fato Ou Fake do G1.

Originalmente, os dados obtidos do Chequeado possuíam as classificações “Falso”, “Enganoso”, “Parcialmente falso”, “Dúbio”, “Distorcido”, “Exagerado” e “Verdadeiro mas”, que foram mapeadas todas para “Falso”. Com isso, transformamos nosso problema em classificação binária.

No final, obtivemos um dataset com 1.753 notícias, sendo 808 fakes, simbolizada como classe 0, e 945 verdadeiras, classe 1, com um vocabulário de tamanho 3.698. Com isso, dividimos o nosso dado em conjunto de treino e teste, com tamanhos de 80% e 20%, respectivamente.

 

Pré-processamento

Diminuição do viés. Ao trabalhar e visualizar os dados, notamos que algumas notícias verdadeiras vinham com palavras e sentenças que enviesavam e deixavam bastante claro para os algoritmos o que é fake e o que é verdadeiro, como: “É falso que”, “#Checamos”, “Verificamos que” e etc. Com isso, removemos essas sentenças e palavras, a fim de diminuir o enviesamento das notícias.

Limpeza textual. Após a etapa anterior, realizamos a limpeza do texto, consistindo em remoção de caracteres estranhos e sinais de pontuação e uso do texto em caixa baixa.

Tokenização. A partir do texto limpo, inicializamos o processo de tokenização das sentenças.

Remoção das Stopwords. A partir das sentenças tokenizadas, removemos as stopwords.

 

Representação textual

Análise exploratória

A partir do pré-processamento dos dados brutos, inicializamos o processo de análise exploratória dos dados. Verificamos o tamanho do vocabulário do nosso dataset, que totaliza 3.698 palavras. 

 

Análise do Out-of-vocabulary. Com isso, verificamos o tamanho do nosso out-of-vocabulary em relação às word embeddings pré-treinadas utilizadas, totalizando 32 palavras. Um fato curioso é que palavras chaves do nosso contexto encontram-se no out-of-vocabulary e acabam sendo mapeadas para palavras que não tem muita conexão com o seu significado. Abaixo é possível ver algumas dessas palavras mais à esquerda, e a palavra a qual foram mapeadas mais à direita.

Mapeamento de palavras

 

Análise da frequência das fake news por rede social. O dado bruto original advindo do Chequeado possui uma coluna que diz sobre a mídia social em que a fake news foi divulgada. Após uma análise visual superficial, apenas plotando a contagem dos valores dessa coluna (que acarreta até na repetição de redes sociais), notamos que os maiores veículos de propagação de fake news são o Facebook e Whatsapp.

 

 

Frequência de fake news por rede social

 

Análise da quantidade de fake news ao longo dos meses. O dado bruto original advindo do Chequeado também possui uma coluna que informava a data de publicação da fake news. Após realizar uma análise visual da distribuição da quantidade de fake news ao longo dos meses, notamos que o maior número de fake news ocorreu em abril, mês em que a doença começou a se espalhar com maior velocidade no território brasileiro. De acordo com o G1, em 28 de abril, o Brasil possuía 73.235 casos do novo coronavírus (Sars-CoV-2), com 5.083 mortes. Além disso, foi nesse mês que começaram a surgir os boatos de combate do Coronavírus via Cloroquina, além de remédios caseiros.

Volume de fake news relacionadas ao COVID-19 ao longo dos meses

 

Análise da Word Cloud. Com as sentenças tokenizadas, também realizamos uma visualização usando a técnica de Word Cloud, que apresenta as palavras do vocabulário em um tamanho proporcional ao seu número de ocorrência no todo. Com essa técnica, realizamos duas visualizações, uma para as notícias verdadeiras e outra para as fake news.

Nuvem de palavras nas notícias falsas

 

Nuvem de palavras nas notícias verdadeiras

 

Divisão treino e teste

A divisão dos conjuntos de dados entre treino e teste foi feita com uma distribuição de 80% e 20% dos dados, respectivamente. Os dados de treino foram ainda divididos em um novo conjunto de treino e um de validação, com uma distribuição de 80% e 20% respectivamente.

 

Aplicação dos modelos

Para gerar os modelos, escolhemos algoritmos e técnicas clássicas  de aprendizagem de máquina, tais como técnicas atuais e bastante utilizadas em competições, sendo eles: 

  • Regressão Logística (*): exemplo de classificador linear;
  • K-NN (*): exemplo de modelo não-paramétrico;
  • Análise Discriminante Gaussiano (*): exemplo de modelo que não possui hiperparâmetros;
  • Árvore de Decisão: exemplo de modelo que utiliza abordagem da heurística gulosa;
  • Random Forest: exemplo de ensemble de bagging de Árvores de Decisão;
  • SVM: exemplo de modelo que encontra um ótimo global;
  • XGBoost: também um ensemble amplamente utilizado em competições do Kaggle;
  • LSTM-Dense: exemplo de arquitetura que utiliza deep learning.

Os algoritmos foram utilizados por meio de implementações próprias (aqueles demarcados com *) e uso da biblioteca scikit-learn e keras.  Para todos os algoritmos, com exceção daqueles que não possuem hiperparâmetros e LSTM-Dense, realizamos Grid Search em busca dos melhores hiperparâmetros e realizamos técnicas de Cross Validation para aqueles utilizados por meio do Scikit-Learn, com k fold igual a 5.

 

Obtenção das métricas

As métricas utilizadas para medir a performance dos modelos foram acurácia, Precision, Recall, F1-score e ROC.

 

                Tabela 1. Resultados das melhores representações por algoritmo

MODELOS PRECISION RECALL F1-SCORE ACCURACY ROC
XGBoost BOW e TF-IDF* 1 1 1 1 1
SVM BOW E TF-IDF* 1 1 1 1 1
Regressão Logística BOW 0.7560 0.7549 0.7539 0.7549 0.7521
LSTM FASTTEXT 0.7496 0.7492 0.7493 0.7492 0.7492
Random Forest TF-IDF 0.7407 0.7407 0.7402 0.7407 0.7388
Árvore de Decisão TF-IDF 0.7120 0.7122 0.7121 0.7122 0.7111
Análise Discriminante Gaussiano Word2Vec 0.7132 0.7122 0.7106 0.7122 0.7089
k-NN FastText 0.6831 0.6809 0.6775 0.6638 0.6550

 

 

                Tabela 2. Resultados das piores representações por algoritmo

MODELOS PRECISION RECALL F1-SCORE ACCURACY ROC
XGBoost Word2Vec  0.7238 0.7236 0.7227 0.7236 0.7211
SVM Word2Vec 0.7211 0.7179 0.7151 0.7179 0.7135
Árvore de Decisão Word2Vec 0.6391 0.6353 0.6351 0.6353 0.6372
Random Forest Word2Vec 0.6231 0.6210 0.6212 0.6210 0.62198
Regressão Logística FastText 0.6158 0.5982 0.5688 0.59829 0.5858
Análise Discriminante Gaussiano TF-IDF 0.5802 0.5811 0.5801 0.5811 0.5786
k-NN BOW 0.5140 0.5099 0.5087 0.5042 0.5127
LSTM WORD2VEC (*) 0.4660 0.4615 0.4367 0.4615 0.4717

 

Resultados

Com os resultados apresentados percebemos que os modelos SVM e XGBoost com as representações TF-IDF e BOW atingiram as métricas igual a 100%. Isso pode ser um grande indicativo de sobreajuste do modelo aos dados. Abaixo podemos visualizar a matriz de confusão e a curva ROC dos mesmos.

Logo após vem a Regressão Logística com métricas em torno de ~75.49%! Abaixo podemos visualizar sua matriz de confusão e a curva ROC.

 

Exemplos de classificações da Regressão Logística

  • True Positive (corretamente classificada)
    • Texto que diz que vitamina C e limão combatem o coronavírus
  • True Negative (corretamente classificada)
    • Notícia divulgada em 2015 pela TV italiana RAI comprova que o novo coronavírus foi criado em laboratório pelo governo chinês.
  • False Positive (erroneamente classificada)
    • Vitamina C com zinco previne e trata a infecção por coronavírus
  • False Negative (erroneamente classificada)
    • Que neurocientista britânico publicou estudo mostrando que 80% da população é imune ao novo coronavírus

Intrigados com os resultados, resolvemos visualizar as diferentes representações de dados em 2 componentes principais (visto a alta dimensionalidade do dado, o que prejudica a análise do que está acontecendo de fato) por meio das técnicas de PCA e T-SNE, separando por cor de acordo com sua classificação. 

É interessante notar que as representações de word embeddings utilizadas possui uma representação bastante confusa e misturada. Já as representações TF-IDF e Bag of Words são facilmente separáveis.

 

 

                            FastText PCA (Semelhante ao Word2Vec)

 

                                       FastText T-SNE

 

 

                                         Word2Vec T-SNE

 

 

                                   BOW PCA (Semelhante ao TF-IDF)

 

 

                                              BOW T-SNE

 

 

                                             TF-IDF T-SNE

 

Conclusão

A base de dados utilizada para obtenção dos modelos foi obtida por meio do site Chequeado, e, posteriormente, houve o enriquecimento dessa base por meio do  web crawler, totalizando 1.383 registros, sendo 701 fake news e 682 notícias verdadeiras. 

Para representação textual foram utilizadas as técnicas Bag of Words, TF-IDF e Word embeddings Word2Vec e FastText de 300 dimensões com pesos pré-treinados obtidas por meio da técnica CBOW com dimensões, disponibilizadas pelo Núcleo Interinstitucional de Linguística Computacional (NILC).  Para gerar os modelos foram utilizados os algoritmos Regressão Logística, kNN, Análise Discriminante Gaussiano, Árvore de Decisão, Random Forest, Gradient Boosting, SVM e LSTM-Dense. Para avaliação dos modelos foi utilizado as métricas Acurácia, Precision, Recall, F1-score, AUC-ROC e matriz de confusão.

Considerando os experimentos e os resultados, conclui-se que o objetivo principal deste trabalho, gerar modelos capazes de classificar notícias extraídas de redes sociais relacionadas ao COVID-19 como falsas e verdadeiras, foi alcançado com êxito. Como resultados, vimos que os modelos SVM e XGBoost com TF-IDF e BOW atingiram 100% nas métricas, com grandes chances de terem se sobreajustado aos dados. Com isso, consideramos como melhor modelo a Regressão Logística com a representação BOW, atingindo as métricas com valores próximos a 75.49%. 

O pior classificador foi o kNN com o BOW e LSTM-Dense com Word2Vec, porém é importante ressaltar que este último não contou com Grid Search e foi treinado com poucas épocas. No geral, as melhores representações foram a TF-IDF e BOW e a pior o Word2Vec.

Para este projeto houveram algumas dificuldades, sendo a principal delas a formação da base de dados, visto que o contexto pandêmico do COVID-19 é algo novo e devido à limitação da API do Twitter em relação ao tempo para extrair os tweets, que era originalmente a ideia da base de dados para esse projeto. Além disso, também houve a dificuldade de remoção do viés dos dados.

 

Como trabalhos futuros, visamos:

  • Ampliar a base de dados;
  • Investigar o que levou ao desempenho do SVM, XGBOOST com as representações TF-IDF e BOW.
  • Analisar performance dos modelos utilizando outras word embeddings pré-treinadas, como o BERT, Glove e Wang2vec.
  • Investigar o uso do modelo pré-treinado do BERT e com fine-tuned.
  • Aplicar PCA Probabilístico
  • Utilizar arquiteturas de deep learning mais difundidas na comunidade científica.

 

                                    

Categorias
Big Data Ciência de Dados Inteligência Artificial

A Ciência de Dados no mercado: 7 casos de sucesso

A ciência de dados tem revolucionado praticamente todas as áreas. Na educação, utilizando modelos para uma melhor avaliação de estudantes, na medicina, identificando e prevendo doenças, no futebol, obtendo o máximo valor das escalações de um time.

Neste artigo, apresentaremos 7 exemplos onde a ciência de dados é utilizada como uma poderosa ferramenta, com modelos e algoritmos que ajudam a analisar, prever e, consequentemente, obter melhores resultados em cada uma dessas áreas.

1- Segurança Pública

Em uma ação criminosa existem diversos elementos envolvidos. Informações colhidas anteriormente sobre os suspeitos (a exemplo, a ficha criminal) e sobre a região na qual um crime foi cometido (como entorno e vias de acesso) são fatores importantes na elucidação de delitos.

No entanto, muitas vezes esses dados coletados em diferentes regiões e por diferentes órgãos não estão integradas em uma mesma base de dados, o que prejudica o trabalho dos agentes policiais.

O Ceará tem sido um exemplo do uso inteligente da ciência de dados na segurança pública. Em 2019, o estado ganhou interesse nacional pela grande redução de seus índices criminais. Entre as diversas ações tomadas para atingir esse resultado, um dos maiores destaques é o uso de soluções tecnológicas baseadas em ciência de dados.

Em parceria com a Secretaria da Segurança Pública e Defesa Social (SSPDS), o Insight Lab desenvolveu ferramentas que têm ajudado a entender e combater práticas criminosas.

Conheça algumas dessas ferramentas:

Sistema Policial Indicativo de Abordagem (SPIA)

O Spia tem sido usado no enfraquecimento da mobilidade de criminosos, pois ajuda na identificação de veículos roubados. É um sistema de inteligência artificial que integra as bases de dados de órgãos federais, estaduais e municipais aos dados captados por mais 3.300 câmeras espalhadas pelo Ceará.

Big Data “Odin”

Como apresentado no portal do Governo do Estado do Ceará, o sistema de big data Odin “armazena e cruza dados obtidos por mais de 50 sistemas dos órgãos de segurança e de entidades parceiras. Todas as informações podem ser vistas em tempo real dentro de um painel que simplifica os processos de investigação e de tomadas de decisão, o Cerebrum.”

Portal do Comando Avançado (PCA)

Exclusivo para profissionais da segurança pública do Ceará, é um aplicativo para celular que reúne informações civil e criminal da população cearense, dados de veículos e motoristas, biometria e o reconhecimento facial.

 

2 – Evasão fiscal e detecção de fraude

Um grande desafio dentro de empresas e organizações é a detecção de fraudes e a evasão fiscal. Uma pequena porcentagem dessas atividades pode representar perdas bilionárias para as instituições.

Entretanto, os avanços na análise de fraudes, com o uso de ciência de dados e o Big Data, são uma perfeita ferramenta para prevenir tais atividades.  Além da redução de informações, com essas ferramentas pode-se diferenciar entre contribuinte legítimo e fraudador, utilizando classificação de dados, clustering e reconhecimento de padrão, por exemplo. Diferentes fontes de dados são usadas para a análise, sejam dados estruturados ou não estruturados.

Diversos estudiosos estão empenhados em desvanecer esse problema. Veja um exemplo disso: a partir de dados reais da Secretaria da Fazenda do Estado do Ceará (Sefaz-CE), sete pesquisadores (entre eles o coordenador do Insight Lab, José Macêdo) aplicaram um novo método,  ALICIA, para detectar potenciais fraudadores fiscais. Esse método de seleção de recursos é baseado em regras de associação e lógica proposicional.

Os autores explicam que ALICIA é estruturado em três fases:

  1. Ele gera um conjunto de regras de associação relevantes a partir de um conjunto de indicadores de fraude (recursos).
  2. A partir de tais regras de associação, ALICIA constrói um gráfico, cuja estrutura é então usada para determinar as características mais relevantes.
  3. Para conseguir isso, ALICIA aplica uma nova medida de centralidade chamada de Importância Topológica do Recurso.

Os teste feitos com ALICIA em quatro diferentes conjuntos de dados do mundo real mostram sua eficiência superior a outros oito métodos de seleção de recursos. Os resultados mostram que Alicia atinge pontuações de medida F de até 76,88% e supera de forma consistente seus concorrentes.

 

3 –  Saúde 

Uma das principais aplicações da ciência de dados é na área da saúde. Esse setor utiliza intensamente data science para descoberta de novas drogas, na prevenção, diagnóstico e tratamento de doenças e no monitoramento da saúde de pacientes.

E durante a pandemia de Covid-19, a ciência de dados foi um dos primeiros auxílios buscados para que se pudesse entender o comportando do vírus na população mundial, criar modelos preditivos sobre seus impactos e divulgar ao público, especialmente através da visualização de dados, estatísticas relacionadas à doença.

Como exemplo de transparência dos dados durante a pandemia, destacamos a plataforma cearense IntegraSUS Analytics.

Como descrito pela Secretaria da Saúde do Ceará, o IntegraSUS Analytics é uma ferramenta com a qual “pesquisadores, profissionais e estudantes de ciência de dados ou de tecnologia da informação poderão ter acesso ao cenário atual da saúde no Estado. Tudo por meio dos códigos e modelos utilizados na construção do IntegraSUS. A plataforma também oferece datasets sobre diferentes áreas da saúde para aprendizado e treinamento.”

Além do IntegraSUS Analytics, o Governo do Estado esteve em parceria com o Insight Lab para desenvolver outras ações de enfrentamento ao Covid-19. Nossos pesquisadores produziram Mapas de Kernel para observar como está acontecendo o espalhamento da doença no Ceará. Junto a isso, a professora Ticiana Linhares comandou o desenvolvimento de um algoritmo de IA para entender a evolução dos sintomas do Covid-19.

Como isso acontece? Através dos textos trocados via chat (Plantão Coronavírus) entre os cidadãos e a Secretaria de Saúde, o algoritmo extrai dessas conversas os sintomas mais frequentes e avalia sua evolução.

 

4 – Games

Uma das indústrias em maior expansão é a de games. Contabiliza-se atualmente mais de 2 bilhões de jogadores no mundo todo, com estimativas para que esse número passe de 3 bilhões até 2023, segundo o site Statista.

Com esse super número de jogadores e a criação diária de novos jogos, uma enorme quantidade de dados são coletados, tais como o tempo de jogo do usuário, pontos de início e parada e pontuação. Essa coletânea de dados representa uma rica fonte para que especialistas estudem, aprendam e possam otimizar e melhorar os jogos.

Com a ciência de dados aplicada no mercado de jogos, é possível realizar o desenvolvimento, a monetização e o design de games, e ainda melhorar efeitos visuais, por exemplo. Com modelos que permitem a identificação de objetos, jogos tornam-se mais realistas tornando possível diferenciar jogadores pertencentes a equipes diferentes e dar comandos ao personagem específico dentro de um grupo.

A King, empresa criadora do famoso Candy Crush, tem, segundo seu diretor de produtos de serviços, Jonathan Palmer, uma cultura baseada em dados. Na King, depois que um jogo é lançado, ele continua sendo monitorado e os ajustes necessários são feitos. Eles analisam, por exemplo, se um jogo é muito difícil, então eles podem perder jogadores, e se muito fácil, os usuários ficam entediados e abandonam o jogo.

Palmer cita o nível 65 do Candy Crush Saga: “É um nível incrivelmente difícil, tinha seu próprio culto em torno dele. Percebemos que isso estava causando a agitação de muitas pessoas. Usando dados, pudemos dizer: ‘precisamos diminuir um pouco a dificuldade desse nível’.”

 

5 – Vida Social

O surgimento das redes sociais alterou completamente a forma como nos relacionamos, sejam relacionamentos amorosos, amizades ou relações de trabalho. Nos conectamos diariamente com inúmeras pessoas que jamais vimos. E todas as relações e ações nessas redes deixam extensos rastros de dados que influenciam, entre outras coisas, em quem você conhecerá a seguir.

Não é impressionante como o Facebook sempre acerta nas recomendações de novas amizades? Em artigo do Washington Post é dito que ele se baseia em “really good math”, mais especificamente, o Facebook utiliza um tipo de ciência de dados conhecido como network science, que basicamente busca prever o crescimento da rede social de um usuário baseado no crescimento das redes de usuários semelhantes.

Um outro exemplo é o Tinder. Ele utiliza um algoritmo que visa aumentar a probabilidade de correspondência. Esse algoritmo  prioriza correspondências entre usuários ativos, usuários em uma mesma região e usuários que parecem os “tipos” uns dos outros com base em seu histórico de deslize.

 

6 – Esportes

A indústria do esporte é uma das mais rentáveis do mundo, gerando lucros bilionários todos os anos e, é claro, cheia de dados e estatísticas. Cada esporte está repleto de variáveis a serem estudadas, que vão desde o clima, a fisiologia de cada jogador, as decisões dos árbitros, até as escolhas feitas pelos jogadores durante uma partida. Assim, a ciência de dados vem para “decifrar” o que fazer com esses dados, revelando insights preditivos para a melhor tomada de decisão dentro de cada modalidade de esporte.

Um caso interessante para analisarmos é o da liga de basquete americana. A NBA usa o sistema de análise de arremesso da RSPCT, no qual uma câmera rastreia quando e onde a bola bate em cada tentativa de cesta. Os dados são canalizados para um dispositivo que exibe detalhes da tomada em tempo real e gera insights preditivos.

Leo Moravtchik, CEO da RSPCT, disse à SGV News que “com base em nossos dados … Podemos dizer [a um jogador]: ‘Se você está prestes a dar o último arremesso para ganhar o jogo, não tente do topo da chave, porque sua melhor localização é, na verdade, o canto direito ”

7 –  Comércio eletrônico (e-commerce) 

O comércio eletrônico (ou e-Commerce) é um tipo de negócio em que empresas e indivíduos compram e vendem coisas pela internet.  Nesse tipo de comércio, a interação com os clientes passa por vários pontos, desde o clique em um anúncio e em produtos de interesse, até a compra e avaliação do produto.

Os dados obtidos nas plataformas de e-commerce ajudam os vendedores a construir uma imagem dos consumidores, seus hábitos de compra, quais as estratégias para “transformá-los” em clientes e ainda o tempo que isso leva.

Nesse sentido, a aplicação da ciência de dados permite a previsão da rotatividade de clientes, a segmentação destes, o impulsionamento das vendas com recomendações inteligentes de produtos, a extração de informações úteis das avaliações dos compradores, a previsão de demanda, a otimização de preços e tantas outras possibilidades.

No caso do Airbnb, a ciência de dados ajudou a renovar completamente sua função de pesquisa, destacando áreas mais requisitadas. O algoritmo do Airbnb hoje, nos rankings de busca, dá prioridade a aluguéis que estiverem em uma área com alta densidade de reservas. Antes, entretanto, os melhores aluguéis estavam localizados a uma certa distância dos centros da cidade. Isso implicava que, apesar de encontrar aluguéis legais, os locais não eram tão bons.

 

 

Referências

How data science and big data analytics leads to better tax fraud prevention

Top 8 Data Science Use Cases in Gaming

Number of active video gamers worldwide from 2015 to 2023 (in billions)

How King is crushing games data

How Facebook knows who all your friends are, even better than you do

Data Science in the Sports Industry

Applying Data Science tools and techniques to eCommerce

 

Categorias
Ciência de Dados Destaque Pesquisa Webinar

Webinar: Aplicação de Ciência de Dados em projetos reais

No dia 09 de novembro acontecerá a próxima edição do webinar do Insight Lab: Aplicação de Ciência de Dados em projetos reais. Nesse encontro você conhecerá trabalhos desenvolvidos na disciplina de Ciência de Dados, que faz parte do currículo do Programa de Pós-graduação em Ciência da Computação da Universidade Federal do Ceará (MDCC-UFC). O objetivo dos projetos foi aplicar conceitos de Data Science aprendidos ao longo do semestre na resolução de problemas reais.

 

Veja os três projetos selecionados para o webinar:

Projeto 1: Detecção de fake news sobre COVID-19 em redes sociais

A sociedade atual enfrenta uma infodemia de fake news sem precedentes. Na maioria das vezes, usuários de redes sociais e leitores de portais de notıcias não conseguem distinguir  quais notícias são verdadeiras e quais são falsas. 

Neste trabalho é apresentada uma abordagem para detecção de  fake  news usando técnicas de representação textuais como Word Embeddings, TF-IDF, FastText e Bert, com aplicação de modelos de aprendizagem de máquina clássicos e do estado da arte, como SVM, por exemplo. A partir de experimentos realizados, o modelo que mais se destacou em desempenho foi usado para criação de um bot classificador de fake news sobre COVID-19.

 

Apresentação: Felipe Marcel

Bacharel em Ciência da Computação pelo IFCE. Mestrando em Ciência da Computação (UFC). Desenvolvedor full stack no Insight Data Science Lab.

 

 

Projeto 2: Classificação automática de documentos jurídicos da SEFAZ.

A Secretaria da Fazenda do Estado do Ceará (SEFAZ) armazena diversos documentos jurídicos do governo estadual, entre leis, atos declaratórios, normas explicativas e outros. Este trabalho tem como objetivo automatizar o processo de classificação desses documentos, o que hoje é feito de forma manual, e assim economizar tempo e recursos do Estado.

 

Apresentação: Lucas Fernandes

Bacharel em Ciência da Computação (UFC). Mestrando em Ciência da Computação (UFC).

 

 

Projeto 3: Detecção automática de defeitos em pavimentos asfálticos com a utilização de Redes Neurais Convolucionais

Uma das etapas mais importantes do Gerenciamento da Infraestrutura Viária se refere à avaliação da qualidade funcional dos pavimentos. Além da sua função imprescindível para viabilização do transporte de cargas e de pessoas, o sistema viário precisa ser capaz de oferecer boas condições de trafegabilidade, conforto e segurança. Para isso, comumente é realizado o monitoramento da quantidade e da severidade de defeitos do tipo buracos, trincas, remendos, entre outros, por meio do levantamento visual contínuo, em que são tiradas fotos do pavimento para posterior análise manual.

Este trabalho se propõe a gerar um melhoramento em cadeia nas etapas do gerenciamento de pavimentos, com a implementação de Redes Neurais Convolucionais para detectação e classificação de vários tipos de defeitos, com imagens coletadas com smartphone a bordo de um veículo. Fato que tende a gerar significativa redução nos custos de monitoramento e grande benefício para o usuário final, a sociedade como um todo.

 

Apresentação: Klayver Paz

Graduando em Engenharia Civil pela UFC.

 

O evento acontecerá em nosso canal no Youtube com mediação de José Macêdo, coordenador do Insight Lab, e Lucas Peres, desenvolvedor full stack no Insight Lab.

 

Agenda:

Dia: 09 de novembro

Horário: 15h

Acesse a transmissão aqui.

 

Categorias
Ciência de Dados Pesquisa Vagas Abertas

Edital 2020: 2º Processo Seletivo para Pesquisador da Universidade Federal do Ceará (UFC)

O Insight Lab divulga mais um processo seletivo para pesquisadores. O objetivo é apoiar pesquisas de ponta em Ciência da Computação, Estatística e áreas relacionadas, em particular, cujo tema envolvam uso de inteligência computacional em Big Data para Segurança Pública. 

 

Vagas para:

Pesquisadores doutores na área de Ciência da Computação ou correlatas;

Modalidade: Bolsa de pesquisa ASTEF

Valor: R$ 2.000,00 mensais

Período: 12 meses 

 

Propostas de pesquisa:

Cada pesquisador poderá submeter candidatura para apenas 1 (um) problema de pesquisa:

  1. Análise de Redes Complexas.
  2. Geração e Manutenção semi-automática das documentações dos artefatos produzidos no projeto.

Abaixo de cada problema, são listados alguns subproblemas a fim de auxiliar os candidatos na sua escolha.

 

Análise de Redes Complexas.

1.Geração de Redes Temporais de Relacionamento a partir de trajetórias de criminosos. 

2.Análise de Redes Temporais de Relacionamento para identificação de comportamento delitivo.

3.Geração de medidas de centralidade para identificação de nós influentes na rede. 

 

Geração e Manutenção semi-automática das documentações dos artefatos produzidos no projeto.

  1. A partir dos artefatos produzidos no projeto, criar modelos de aprendizagem que gerem (semi) automaticamente textos de documentação.
  2. Estratégias de atualização (semi) automática dos modelos de aprendizagem.

 

Etapas da seleção

Período de envio de propostas: 03/11/2020 – 06/11/2020

Divulgação dos pesquisadores selecionados através de e-mail: 09/11/2020

Início da pesquisa: 11/11/2020

 

Formulário

A inscrição deve ser realizada por meio do preenchimento de formulário no Google Forms. Os candidatos serão avaliados pela qualidade das suas publicações no problema de pesquisa escolhido. 

Leia o edital completo aqui.

 

Acompanhe mais atualizações nas nossas redes sociais.

Categorias
Ciência de Dados Cursos Destaque

Curso: Imersão em Ciência de Dados

Apresentamos hoje o curso “Imersão em Ciência de Dados”, totalmente gratuito e disponível em nosso canal no YouTube. Essa é uma nova contribuição do Insight Lab para a formação de novos cientistas de dados brasileiros. O curso tem o propósito de ambientar você no campo de Data Science ao apresentar áreas de conhecimento, metodologias e ferramentas que compõem esta ciência. 

 

Veja o conteúdo de cada módulo:

Introdução (Disponível)

Webinar: Por onde começar e o que você deve saber antes de iniciar sua carreira em Ciência de Dados

 

 Getting ready! (Disponível)

Google Colab

Básico da linguagem Python

Estruturas de dados – Parte 1

Estruturas de dados – Parte 2

 

Estatística (Disponível)

O que é estatística?

Ideias centrais em estatística

Probabilidade e variáveis

Coleta de dados

Coleta de dados – Dados observacionais

Coleta de dados – Erros de coleta

Coleta de dados – Exemplos

– Coleta de dados – Erros não amostrais

 

Numpy, Pandas e pré-processamento de dados (Disponível)

Introdução ao Numpy

Fatiando arrays

Introdução ao Pandas

Pré-processamento de Dados

 

Fundamentos de Aprendizado de Máquina (Disponível)

O que é aprendizagem de máquinas?

Aprendizagem Supervisionada x Não Supervisionada

Introdução à aprendizagem supervisionada – Knn

 

Modelos lineares (Disponível)

Modelos Lineares – Introdução

Modelos Lineares – Regressão Linear

Modelos Lineares – Regressão Logística

Modelos Lineares – Naive Bayes

Modelos Lineares – SVM

 

Métricas de avaliação e técnicas para melhoria dos resultados (Disponível)

Simplificando fluxos de trabalho com pipelines

Validação cruzada

 

Árvores de Decisão (Disponível)

Árvores de Decisão: conceitos básico

Árvores de Decisão: como uma árvore de decisão é construída

Árvores de Decisão: exemplo prático de construção

Árvores de Decisão: com linguagem Python e biblioteca Scikit-Learn

 

Aprendizado não-supervisionado (Disponível)

Introdução a aprendizado não-supervisionado e clusterização

K-Means (Algoritmo)

K-Means (Hands-On)

DBSCAN (parte 1)

DBSCAN (parte 2)

PCA (parte 1)

PCA (parte 2)

PCA (parte 3)

Regras de Associação (parte 1)

Regras de Associação (parte 2)

 

 Redes neurais e aprendizado profundo (Disponível)

Introdução às redes neurais (parte 1)

Introdução às redes neurais (parte 2)

Redes neurais convolucionais 

Redes neurais recorrentes (parte 1)

Redes neurais recorrentes (parte 2)

Redes neurais recorrentes (parte 3)

LSTM

 

Conheça os professores que irão te acompanhar neste curso:

Gustavo Coutinho: Professor no Instituto Federal de Educação, Ciência e Tecnologia do Ceará (IFCE), doutorando em Ciência da Computação na Universidade Federal do Ceará (UFC) e pesquisador do Insight Lab.

Regis Pires: Doutor em Ciência da Computação (UFC), professor na Universidade Federal do Ceará (UFC) e coordenador de capacitação e pesquisador do Insight Lab.

José Florêncio: Doutor em Ciência da Computação (UFC) e coordenador negocial e pesquisador do Insight Lab.

Lucas Peres: Doutorando em Ciência da Computação (UFC) e desenvolvedor full stack do Insight Lab.

Lívia Almada: Professora na Universidade Federal do Ceará (UFC), doutoranda em Ciência da Computação (UFC) e pesquisadora do Insight Lab.

Carlos Júnior: Mestre em Ciência da Computação, doutorando em Ciência da Computação (UFC) e pesquisador do Insight Lab.

José Macêdo: Doutor em Ciência da Computação (UFC), professor da UFC e coordenador do Insight Lab.

Ticiana Linhares: Doutora em Ciência da Computação (UFC), professora da UFC e coordenadora de pesquisa do Insight Lab.

 

Durante as próximas semanas, esta página será atualizada com os links dos novos módulos disponíveis. Então, continue nos acompanhando para receber todas essas informações. Bons estudos!

 

 

Categorias
Ciência de Dados Destaque Webinar

Webinar: Por onde começar e o que você deve saber antes de iniciar sua carreira em Ciência de Dados

A nova edição do nosso webinar já está programada. Agora, o tema debatido será “Por onde começar e o que você deve saber antes de iniciar sua carreira em Ciência de Dados”.

Nesta conversa, cinco profissionais compartilharão suas experiências no mercado de Data Science sobre a perspectiva da evolução da Ciência de Dados e a caracterização atual do mercado, destacando as pesquisas em alta, o perfil do profissional almejado na área e também como acontece o fluxo produtivo entre os setores acadêmico e privado. 

Durante o webinar, também será apresentado o curso gratuito e online de Ciência de Dados produzido pelo Insight Lab.

 

Participantes

José Macêdo: Coordenador do Insight Lab, Cientista-chefe de Dados do Governo do CE e professor da UFC

Regis Pires: Coordenador de Capacitação do Insight Lab, cientista de dados do Íris e professor da UFC

Lívia Almada: Pesquisadora no Insight Lab e professora da UFC

Lucas Peres: Desenvolvedor Full Stack no Insight Lab

André Meireles: Pesquisador no Virtus UFCG e professor na UFC

 

Agenda

Dia: 16 de setembro

Horário: 16h

A transmissão acontecerá no canal do Insight Lab no Youtube, aqui.

 

Este evento é feito para você, então se sinta à vontade para enviar suas perguntas através do chat no YouTube, elas serão respondidas no último bloco do webinar.

Até lá!

 

Categorias
Ciência de Dados Portifólio

6 etapas para a construção do seu portfólio de Data Science

Você já possui ou está iniciando um portfólio de projetos em Data Science? Com um portfólio, o profissional se mostra presente e atuante na comunidade global de cientista de dados e também faz uso de mais uma ferramenta que mostra ao mercado suas habilidades na área.

Muitas vezes na construção do portfólio, surgem dúvidas sobre como organizar o processo de desenvolvimento dos projetos. Essas dúvidas são bem vindas, mostram o seu planejamento e a busca para tornar seu trabalho mais consistente e coerente, um trabalho com sentido e direção. 

Para te ajudar, hoje vamos apresentar e esclarecer 6 etapas para fortalecer seu portfólio de Ciência de Dados

Antes do tópico 1, precisamos relembrar de uma característica que todo cientista de dados deve ter: paixão pela área! Sim, a Ciência de Dados é uma área fascinante, com estudos de impacto inquestionável nos mais diferentes âmbitos e com profissionais muito valorizados, mas, sendo a conjunção entre Matemática, Estatística e Computação, é uma ciência complexa e que exige dedicação e estudo constantes. Se o amor pela área você já tem, pode seguir a leitura.

 

1. Definição do Problema

O passo inicial do seu projeto deve ser a  boa definição do problema a ser resolvido e, assim, traçar a melhor estratégia para solucioná-lo. Você deve esquadrinhar o problema selecionado para definir as técnicas estatísticas e de machine learning que serão empregadas, sempre guiando seu processo pela questão: qual o valor e impacto do que eu estou fazendo?

A escolha do conjunto de dados a ser usado é também um ponto da fase de definição do problema. No Kaggle, por exemplo, existem diversos projetos e datasets que podem ser utilizados como base para seu projeto. Veja a lista de sites para baixar dados gratuitamente que nós criamos:

 

Entretanto, na indústria, muitas vezes um dos grandes desafios do cientista de dados é exatamente converter um problema de negócios em um problema de ciência de dados. Nesse sentido, algo interessante a se fazer é, em vez de utilizar algum problema ou dataset já existentes, definir seu próprio problema e, consequentemente, construir seu próprio banco de dados. Apesar de gastar algum tempo coletando os dados, essa etapa te ajudará a pensar na melhor maneira de coletar e reunir informações, e você estará aprendendo uma parte que nem sempre é ensinada na escola.

Claro que este último ponto não é obrigatório, mas é interessante realizá-lo porque te ajudará a explicar melhor aos outros seu pensamento estratégico ao enfrentar um problema.

 

2. Limpeza dos Dados 

O segundo passo deve ser a limpeza dos dados. Essa é uma parte que toma um tempo substancial do processo. Nessa etapa, datasets são unidos, são detectadas anomalias (por exemplo, “1”, “2”, “sol”), valores faltantes são identificados e imputados. A limpeza dos dados remove os principais erros e inconsistências no conjunto de dados e garante que os dados estejam prontos para análise.

 

3. Análise Exploratória dos Dados

Com a limpeza dos dados feita, o próximo passo é analisar. Essa é uma etapa extremamente importante porque lhe permite entender seus dados e fazer descobertas. Frequentemente, uma boa análise descritiva permite formular hipóteses e questões relevantes, utilizando medidas estatísticas (média, variância, correlação) e visualização (histogramas, box plots, gráficos de dispersão). Nesta parte, você:

(a) saberá a natureza de cada variável (qualitativa ou quantitativa);

(b) saberá qual a distribuição de cada uma;

(c) descobrirá se existem e quem são os outliers;

(d) identificará a relação entre as variáveis.

Muito mais pode ser feito durante este momento do processo. O essencial é mostrar sua capacidade em buscar e identificar nos dados coisas que outras pessoas podem não ter percebido, e tornar os modelos ajustados posteriormente ainda melhores.

4. Visualização Interativa dos Dados

Use gráficos apropriados para cada tipo de variável. Tente apresentar gráficos que capturem os olhos, mas que sejam simples e compreensíveis.  Visualizações interativas incluem ferramentas como dashboards, que são uma maneira rápida e fácil de interagir com os dados.  Uma boa visualização permite comunicar de forma clara o que há nos dados e o leva a ter insights adicionais.

Neste ponto você irá literalmente desenhar o que há nos dados.

 

5. Machine Learning

A aplicação de modelos estatísticos e machine learning é um ponto imprescindível na criação do seu portfólio. Inicialmente, não precisa ser algo muito complexo. Você pode escolher um modelo mais simples, como regressão linear e logística que são mais fáceis de ajustar e interpretar. Eles podem servir como uma base para avaliar seus próximos modelos.

Em seguida, crie um modelo baseado em machine learning, descreva como foi a escolha, compare com aqueles mais simples, ajustados anteriormente, e veja quais os problemas com seu último ajuste. Construa um segundo modelo de machine learning. Explique, nesta etapa, por que ele é melhor do que o anterior. O primeiro  não estava bem ajustado, você precisava de um modelo menos complexo ou necessitava adicionar algo, como regularização. 

Utilize métodos para seleção de modelos, avalie, por exemplo, a acurácia e a capacidade de previsão do seu ajuste. Repita a última etapa até se sentir confortável com os resultados obtidos. No final, seu portfólio terá além de um bom modelo, uma linha do tempo lógica explicando o processo de pensamento e como chegou ao modelo final.

6. Comunicação

A parte final do seu projeto, e que faz toda a diferença, é a comunicação. Você pode construir ótimos modelos, mas se você não for capaz de explicá-los de forma clara e objetiva para os demais, boa parte do seu trabalho pode ser perdida. Com os passos anteriores feitos, você contará uma história.

Great data scientists are great storytellers”.

Em primeiro lugar, saiba quem é o seu público, explique o que fez de forma clara e em termos simples. Escreva sobre o objetivo do projeto, apresente as principais análises exploratórias, elucide os resultados e impactos da modelagem, e diga o porquê seu projeto tem valor. Você não precisa incluir seu código, mas indiscutivelmente vincule-o ao GitHub.

 

Aprofunde-se

Essas foram as etapas selecionadas para te ajudar no direcionamento e construção do seu portfólio. E para que você se sinta ainda mais inspirado, conheça estes dois excelentes projetos em Ciência de Dados:

  1. Os projetos criados pelos estudantes de Stanford na turma de Machine Learning. Aqui, você encontra projetos de caráter acadêmico, mas com excelentes explicações sobre as soluções aplicadas ao problemas de Machine Learning
  2. Classificador de Lego usando TensorFlow no Raspberry Pi. Aqui, o autor do projeto explica detalhadamente o processo de criação do seu classificador de lego.

 

Aproveita a sessão de comentários e conte como tem sido seu processo de desenvolvimento de projetos para o portfólio.

Até mais!

 

 

 

Categorias
Ciência de Dados Programação trabalho Vagas Vagas Encerradas

Trabalhe como Desenvolvedor Full Stack no Insight Lab

Olá! Iniciamos hoje o processo de seleção para a vaga de Desenvolvedor Full Stack Pleno, que será responsável por atuar no desenvolvimento de aplicações web e desenvolver soluções inovadoras.

 

Competências obrigatórias: Python,  Docker, Shell Script, Jupyter Notebook, PostgreSQL, Conda, Git,  Javascript, HTML, CSS, Linux e Inglês.

Competências desejáveis: Kubernetes, Data Lake, Big Data, Django, Scala, Java, Spring Boot, MongoDB, Redis, Play Framework e Lagom Framework.

 

Carga Horária 

40 horas semanais.

 

Modalidade de contratação

CLT 

 

Local de exercício das atividades

O candidato atuará em nossa sede em Fortaleza-CE. No entanto, pela necessidade de distanciamento social imposta pela pandemia de Covid-19, durante o período inicial o candidato desenvolverá suas atividades remotamente.

 

Etapas da seleção

– Envio das respostas do desafio e preenchimento do formulário de inscrição: 14/08 a 28/08

– Entrevistas: 01/09 a 04/09

– Divulgação do Resultado: 07/09

 

Desafio e Formulário

Deseja preencher esta vaga? Então, solucione o desafio e depois acesse o formulário para registrar seus dados e enviar seu currículo. 

 

Clique aqui para acessar o documento com mais especificações e esclarecimentos sobre a vaga de Desenvolvedor Full Stack.

Boa sorte e continue acompanhando o Insight Lab para receber todas as nossas novas publicações.

 

Categorias
Big Data Ciência de Dados Webinar

Próximo webinar Insight Lab “O Eixo de Desenvolvimento em Projetos de P&D: Modelo Insight Lab”

Nesta semana, o Insight Lab continua sua série de webinars discutindo Projetos de Pesquisa, desta vez, com foco no desenvolvimento.

Nesta edição, vamos saber mais sobre como o Insight Lab lida com o desenvolvimento em um projeto de P&D, a nossa equipe multidisciplinar, a produtificação de uma pesquisa, as ferramentas de tecnologia, a influência do modelo de desenvolvimento nos nossos principais parceiros e também as ações de marketing aplicadas ao laboratório.

Venha conhecer e interagir com alguns dos profissionais que estão à frente do nosso laboratório de pesquisa em Ciência de Dados.

 

Palestrantes:

David Araújo – coordenador de Produtos

Emanuel Oliveira – líder Técnico

Flávio Carneiro – coordenador de Marketing

Igo Brilhante – coordenador Técnico

José Florêncio – coordenador Negocial

 

Anote!

23/07, quinta-feira 

Às 16h

Transmissão pelo Canal Insight Lab no youtube.

O evento é aberto e você poderá fazer perguntas e comentários aos palestrantes através do chat.

 

Acesse o link e ative a notificação.

Categorias
Ciência de Dados Destaque

Os 11 melhores canais de Data Science no Telegram

No Telegram, você encontra milhares de canais sobre os temas mais variados, entre eles, o de Ciência de Dados.

Nessa imensidão de conteúdos, é sempre bom ter uma dica para encontrar os melhores. Hoje, nós reunimos uma lista com 11 canais de Ciência de Dados no Telegram que todo cientista de dados precisa participar.

 

Confira:

1- (Canal) Insight Lab

Grupo de discussão do Insight Lab sobre Ciência de Dados, Inteligência Artificial e áreas correlatas.

 

2 – (Grupo) [DS & R] Ciência de Dados & R

Grupo destinado a estudantes e programadores da linguagem R ou de Ciência de Dados

 

3- (Grupo) Dados Abertos .BR

Discussões sobre tudo relacionado ao tema dados abertos no Brasil e no mundo. 

 

4- (Canal) Pizza de Dados

Notícias do Pizza de Dados,  podcast brasileiro sobre Ciência de Dados. Eles também divulgam notícias, eventos e dicas da área.

 

5 – (Canal) Data Science by ODS.ai

Muito popular no Telegram, o canal cobre conteúdos de IA, Big Data, Machine Learning, Estatística e Matemática em geral.

 

6 – (Canal) Artificial Intelligence && Deep Learning

Canal para quem é apaixonado por IA, Machine Learning, Deep Learning, Visão Computacional e Processamento de Imagem.

 

7 – (Canal) Artificial Intelligence

Focado em oferecer dicas de tutoriais, artigos, cursos e livros da área de Ciência de Dados.

 

8 – (Canal) Machine Learning

Divulgação de artigos de pesquisa, cursos e tutoriais em Data Science, IA e Machine Learning.

 

9 – (Grupo) bitgrit Data Science Community 

Com uma plataforma online de competições em IA, a bitgrit, seu grupo no telegram é voltado para cientistas de dados compartilharem seus conhecimentos e dúvidas na área.

 

10- (Canal) Data Learning 

Canal dedicado à Ciência de Dados, Machine Learning, Deep Learning e Redes Neurais. Aqui você vai encontrar livros, dicas de cursos, exemplos de aplicações e outros materiais. 

 

11- (Canal) Computer Science and Programing 

O canal traz um universo de conteúdos para você aprender Visão Computacional, Machine Learning, Deep Learning, IA e programação em Python.

 

Esse foi o último item da nossa lista, mas você também deve ter seus canais de Data Science preferidos, compartilha eles aqui nos comentários e ajude essa lista a crescer.

 

 

 

 

 

Sair da versão mobile