Autor: Sandra Lemos

Marketing Digital | Graduanda em Publicidade e Propaganda na Universidade Federal do Ceará

As superpotências de inteligência artificial sob o olhar de Kai-Fuu Lee

Autor do post Por Sandra Lemos
Data de publicação 19 de fevereiro de 2021
Nenhum comentário em As superpotências de inteligência artificial sob o olhar de Kai-Fuu Lee

“Hoje, o Insight indica o livro “Inteligência Artificial” (AI Superpowers – China, Silicon Valley, and the New World Order), escrito por uma das maiores autoridade de IA, Kai-Fuu Lee.

Esse livro nos ajuda a entender as grandes transformações positivas que a inteligência artificial pode trazer e como as maiores potências do mundo, EUA e China, estão desenvolvendo essa ciência dentro de realidades e posições específicas.

As posições de liderança ocupadas por China e Estados Unidos em muitos momentos ganham o contorno de confronto. E isso se reflete nas palavras usadas pelo autor quando afirma que a grande quantidade de engenheiros de IA consistentes será tão importante quanto a qualidade de pesquisadores de elite, e “a China está treinando exatamente esse exército“.

Também é destacado que, apesar dos Estados Unidos serem pioneiros na IA, hoje a China já é um superpotência na área. Isso é resultado, afirma Lee, de aspectos específicos do país asiático, como “dados abundantes, empreendedores tenazes, cientistas de IA bem treinados e um ambiente político favorável”.

No entanto, como alertado em artigo do The Washington Post, “alguns leriam ‘dados abundantes’ como ‘vigilância` e ‘um ambiente de política favorável’ como ‘tomada de decisão de cima para baixo que não é impedida pela opinião pública.’”

Kai-Fuu Lee compartilha conosco uma reflexão sobre o processo desta corrida desenvolvimentista entre Estado Unidos e China e suas implicações. Uma das preocupações destacadas é que o domínio dessas duas potências gere desigualdade global também no campo de IA. Os dois países já são lideranças massivas no resto do mundo, e isso pode se aprofundar se esse poder tecnológico permanecer tão concentrado.

Além disso, o livro trata da antiga e a cada dia renovada preocupação sobre o papel que a IA ocupará no mundo. E isso significa pensar qual lugar nós ocuparemos num mundo tão automatizado por essas máquinas, muito mais adequadas que os seres humanos para certas tarefas, mas frutos da criatividade e inteligência humana.

O autor*

Imagem: vídeo – Como a IA pode salvar nossa humanidade (TED)

Kai-Fu Lee tem uma perspectiva única na indústria de tecnologia global, tendo trabalhado extensivamente entre os Estados Unidos e a China pesquisando, desenvolvendo e investindo em inteligência artificial há mais de 30 anos. Ele é um dos maiores investidores em tecnologia da China, realizando um trabalho pioneiro no campo da IA e trabalhando com vários gigantes da tecnologia dos EUA.

Lee já foi presidente do Google China e ocupou cargos executivos na Microsoft, SGI e Apple, e fundou a Microsoft Research China. Mais tarde renomeado “Microsoft Research Asia”, este instituto treinou a maioria dos líderes de IA na China, incluindo chefes de IA da Baidu, Tencent, Alibaba, Lenovo, Huawei e Haier. Enquanto estava na Apple, Lee liderou projetos de IA em fala e linguagem natural que foram destaques na mídia americana.

Atualmente, Kai-Fuu Lee é o presidente e CEO da Sinovation Ventures, empresa líder de investimentos em tecnologia com foco no desenvolvimento de companhias chinesas de alta tecnologia.

*Informações retiradas do perfil de Kai-Fu Lee no site TED.

Ceará Ciência de Dados Redes Neurais

Conheça o modelo computacional cearense que rastreia sintomas da COVID-19

Autor do post Por Sandra Lemos
Data de publicação 8 de fevereiro de 2021
Nenhum comentário em Conheça o modelo computacional cearense que rastreia sintomas da COVID-19

A pandemia de Covid-19 exigiu dos governos medidas eficientes e aceleradas para o enfrentamento da doença. Nesse contexto, a Ciência de Dados trouxe contribuições fundamentais no entendimento do comportamento do vírus e nas tomadas de decisões de combate.

Uma das soluções desenvolvidas e disponibilizadas para a população no Estado do Ceará foi o Plantão Coronavírus, uma plataforma com mecanismos de triagem que, no primeiro momento, utiliza um chatbot para interagir com o paciente a fim de classificar seu estado de saúde em uma das três categorias: verde, amarelo e vermelho, sendo o nível de criticidade da saúde do paciente leve, moderada ou grave, respectivamente.

Trecho da conversa entre o paciente e o chatbot

As interações entre os pacientes e os profissionais de saúde por meio do Plantão Coronavírus geraram muitos dados que precisavam ser minerados, analisados e transformados em informação de valor.

Com esse objetivo, pesquisadores do Insight Lab e do Laboratório Íris desenvolveram o Sintomatic, um modelo computacional criado para auxiliar a Secretaria da Saúde do Ceará no acompanhamento dos pacientes que buscavam algum tipo de serviço de saúde. Além disso, ele contribuiu na descoberta de novos sintomas presentes em vítimas do coronavírus, sejam estes mais frequentes ou raros, e na identificação de comportamentos psicológicos alterados, como ansiedade, angústia e tristeza em pacientes positivos ou não para COVID19.

Conheça neste artigo a metodologia usada pelos pesquisadores para desenvolver esse modelo computacional.

Sintomatic

No serviço de Tele Atendimento gratuito oferecido pelo Governo do Ceará, o paciente inicialmente trocava mensagens com um robô. A partir daí, era triado de acordo com seus sintomas e, posteriormente, encaminhado para uma consulta com um profissional de saúde.

Todo o ciclo de integração com o paciente registrado por meio de textos é passado ao modelo Sintomatic para que este possa detectar sintomas em todas as etapas do atendimento.

No projeto, foi mapeada a identificação de sintomas em texto como um problema de reconhecimento de entidade (em inglês, Named Entity Recognition – NER). NER corresponde à capacidade de identificar as entidades nomeadas nos documentos e rotulá-las em classes definidas de acordo com o tipo de entidade. De forma geral, o robô de captura de sintomas possui uma rede neural que é capaz de reconhecer entidades. Neste caso, uma entidade é um sintoma.

O Sintomatic é uma rede neural que processa textos em Linguagem Natural, capaz de identificar sintomas a partir de mensagens trocadas entre o chatbot e o paciente. Por meio desse processo, o modelo reconhece novos padrões da doença anteriormente inexistentes ou despercebidos, proporcionando grandes ganhos no entendimento da doença.

Aprendizado por transferência (Transfer Learning)

A detecção de sintomas no idioma português foi um desafio, pois, até o momento, não havia de forma pública nenhum modelo capaz de realizar essa tarefa, de acordo com o conhecimento dos cientistas envolvidos. O robô desenvolvido foi treinado através de um processo de aprendizado conhecido como Transfer Learning, ou em português, aprendizado por transferência.

A técnica de aprendizagem por transferência utiliza o conhecimento adquirido ao resolver um problema e aplicá-lo em outro problema diferente, porém relacionado, permitindo progresso rápido e desempenho aprimorado ao modelar a segunda tarefa. Em outras palavras, a transferência de aprendizado é a melhoria do aprendizado em uma nova tarefa através da transferência de conhecimento de uma tarefa relacionada que já foi aprendida.

A inovação tecnológica promovida pelo Sintomatic é um modelo neural pioneiro no reconhecimento de sintomas em português, principalmente porque a língua portuguesa carece de modelos NER.

Etapas de treinamento

Para treinar o Sintomatic foi utilizado o scispaCy, um pacote Python que contém modelos de spaCy para processar textos biomédicos, científicos ou clínicos.

Em particular, há um tokenizador personalizado que adiciona regras de tokenização baseando-se em regras do spaCy, um etiquetador POS e analisador sintático treinado em dados biomédicos e um modelo de detecção de extensão de entidade. Separadamente, também existem modelos NER para tarefas mais específicas.

Para este trabalho, o modelo utilizado foi o en ner bc5cdr md do SciSpacy, em um processo de transfer learning para treinar um novo modelo de reconhecimento e captura de sintomas em português.

A primeira etapa do processo de treino do rastreador foi traduzir os textos que inicialmente estavam em língua portuguesa para o idioma inglês. Em seguida, inserir como parâmetro de entrada cada texto (em inglês) ao modelo do scispacy, analisar o resultado gerado por este modelo e, logo após, traduzir os sintomas capturados pelo modelo do scispacy em inglês para português.

O conjunto de treinamento para o Sintomatic (novo modelo em português), é composto do texto original e os sintomas capturados pelo modelo do scispacy em português. Esse processo foi executado de forma contínua até que a função de erro da rede se estabilizasse.

Ao final, foi possível atingir para o Sintomatic, F1-score de 85.66, o que é competitivo se comparado ao modelo em inglês, que tem F1-score igual a 85.02.

Etapas do processo:

Nas etapas de translação dos textos foi utilizada a rede de tradução do Google. Atualmente, essas redes de tradução apresentam resultados muito fiéis ao esperado, tornando os ruídos insignificantes quando analisados no contexto deste trabalho.

Um diferencial do Sintomatic é a não necessidade de classificação manual realizada por um humano para reconhecimento de entidades. Em um cenário onde havia vasta quantidade de dados e pouco tempo para processar essas informações, o ganho com a otimização dessa etapa de treino foi crucial no apoio à tomada de decisão.

Boletim Digital

Para o acompanhamento dos dados capturados pelo robô Sintomatic e monitoramento das demais informações sobre a pandemia, foi desenvolvido o Boletim Digital COVID-19 do Ceará. Essa é uma solução tecnológica construída por cientistas de dados onde é feito todo o processo de mineração do dado bruto até sua exposição em painéis gráficos acompanhados de textos explicativos a respeito de cada uma das análises abaixo:

número de pacientes atendidos;
sintomas mais frequentes e raros;
evolução dos sintomas por semana epidemiológica;
sintomas ao longo do tempo.

Veja no vídeoabaixo uma demonstração do funcionamento do Sintomatic:

Atualmente, o Sintomatic é utilizado na plataforma de Tele Atendimento do Estado do Ceará, onde desempenha papel pioneiro na área da saúde.

Fonte: Rastreador de sintomas da COVID19

Não categorizado

O Insight Indica: Natural Language Processing with Python

Autor do post Por Sandra Lemos
Data de publicação 21 de janeiro de 2021
Nenhum comentário em O Insight Indica: Natural Language Processing with Python

Você está buscando um ótimo livro sobre processamento de linguagem natural? Então conheça o Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit, dos autores Steven Bird, Ewan Klein e Edward Loper.

O livro é baseado na linguagem de programação Python juntamente com a biblioteca de código aberto Natural Language Toolkit (NLTK) e é uma introdução prática ao importante, e sempre em expansão, campo do Processamento de Linguagem Natural (PLN). Com Natural Language Processing with Python, você aprenderá a escrever programas reais e compreenderá o valor de ser capaz de testar uma ideia por meio da implementação.

Os autores destacam a busca pelo equilíbrio entre teoria e aplicação, assim, a abordagem adotada cobre os fundamentos teóricos e faz uma análise linguística e computacional cuidadosa. É um material que oferece conjuntos de dados ricamente anotados usando uma gama abrangente de estruturas de dados linguísticos e ajuda a compreender os principais algoritmos para analisar o conteúdo e a estrutura da comunicação escrita.

Este livro:

• Extrai informações de texto não estruturado, seja para indicar o tópico ou identificar “entidades nomeadas”.

• Analisa a estrutura linguística no texto, incluindo análise e análise semântica.

• Integra técnicas extraídas de campos tão diversos como linguística e inteligência artificial.

E te ajudará a:

• Entender como os conceitos-chave da PLN e linguística são usados para descrever e analisar a linguagem.

• Compreender como as estruturas de dados e algoritmos são usados em PLN.

• Desvendar como os dados da linguagem são armazenados em formatos padrão e como os dados podem ser usados para avaliar o desempenho das técnicas de PLN.

Estrutura

Capítulos 1-3: Os primeiros capítulos são organizados em ordem de dificuldade conceitual, começando com uma introdução prática ao processamento de linguagem que mostra como explorar textos de interesse usando Python.

Capítulo 4: Neste capítulo sobre programação estruturada consolidam-se os tópicos de programação espalhados pelos capítulos anteriores.

Capítulos 5-7: A partir daqui, o ritmo aumenta e passa-se para a cobertura de tópicos fundamentais no processamento de linguagem: marcação, classificação e extração de informações.

Capítulos 8-10: Examinam-se maneiras de analisar uma frase, reconhecer sua estrutura sintática e construir representações de significado.

Capítulo 11: O capítulo final é dedicado a dados linguísticos e como eles podem ser gerenciados de forma eficaz.

Cada capítulo termina com uma série de exercícios, que são fundamentais para consolidar o conteúdo.

AUTORES

Steven Bird: Atualmente, professor da Charles Darwin University e Pesquisador Associado Sênior no Linguistic Data Consortium da Universidade da Pensilvânia, foi professor associado do Department of Computer Science and Software Engineering da Universidade de Melbourne. Ele concluiu seu doutorado em fonologia computacional pela Universidade de Edimburgo sob a supervisão de Ewan Klein, também autor de Natural Language Processing with Python. Além disso, Bird passou vários anos como diretor associado do Linguistic Data Consortium, onde liderou uma equipe de P&D para criar modelos e ferramentas para grandes bancos de dados de texto anotado.

Ewan Klein: Professor de Tecnologia da Linguagem na School of Informatics da Universidade de Edimburgo, concluiu seu doutorado em semântica formal na Universidade de Cambridge. Também foi Gerente de Pesquisa do Natural Language Research Group, atuando como responsável pelo processamento de diálogo falado.

Edward Loper: Doutor em aprendizado de máquina para processamento de linguagem natural na Universidade da Pensilvânia. Edward foi aluno de Steven Bird em linguística computacional e se tornou professor assistente, passando a contribuir com o desenvolvimento da NLTK. Além da NLTK, ele ajudou a desenvolver dois pacotes para documentar e testar o software Python: epydoc e doctest.

Acesse aqui o preview de Natural Language Processing with Python

Gostou da nossa indicação? Então compartilhe sua opinião aqui nos comentários.

Fonte: Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit – (Steven Bird, Ewan Klein e Edward Loper).

Big Data Ciência de Dados Machine Learning

Pesquisadores desenvolvem detector de fake news para notícias sobre o Covid-19

Autor do post Por Sandra Lemos
Data de publicação 27 de novembro de 2020
Nenhum comentário em Pesquisadores desenvolvem detector de fake news para notícias sobre o Covid-19

Por tratar-se de uma nova ameaça, sabe-se muito pouco sobre o coronavírus (Sars-CoV-2). Esse fator dá grande abertura para disseminação de fake news (como ficou popularmente conhecido o compartilhamento de informações falsas), que podem ir desde supostos métodos de prevenção, tratamentos caseiros, cura do vírus e até mesmo tratamentos controversos recomendados por médicos, mesmo que não haja comprovação ou evidência científica para tais. Tudo isso pode dificultar o trabalho de órgãos de saúde, prejudicar a adoção de medidas de distanciamento social pela população e acarretar aumentos dos números de infectados e de morte pelo vírus.

Para diminuir os impactos dessa desinformação, diversos sites de checagem de fatos têm ferramentas que identificam e classificam (manualmente) tais notícias. Em geral, essas ferramentas poderiam fazer uso de algoritmos de aprendizagem de máquina para classificação de notícias. Diante dessa problemática, é evidente a necessidade de elaborar mecanismos e ferramentas que possam combater eficientemente o caos das fakes news.

Por isso, durante as disciplinas de Aprendizagem de Máquina e Mineração de Dados (Programa de Pós-graduação em Ciência da Computação da Universidade Federal do Ceará (MDCC-UFC)), nós (Andreza Fernandes, Felipe Marcel, Flávio Carneiro e Marianna Ferreira) propusemos um detector de fake news para analisar notícias sobre o COVID-19 divulgadas em redes sociais. Nosso objetivo é ajudar a população quanto ao esclarecimento da veracidade dessas informações.

Agora, detalharemos o processo de desenvolvimento desse detector de fake news.

Objetivos do projeto

Formar uma base dados de textos com notícias falsas e verdadeiras acerca do COVID-19;
Diminuir enviesamento das notícias;
Experimentar diferentes representações textuais;
Experimentar diferentes abordagens clássicas de aprendizagem de máquina e deep learning;
Construir um BOT no Telegram que ajude na detecção de notícias falsas relacionadas ao COVID-19.

Entendendo as terminologias usadas

Para o entendimento dos experimentos realizadas, vamos conceituar alguns pontos chaves e técnicas de Processamento de Linguagem Natural.

Tokenização: Esse processo transforma todas as palavras de um texto, dado como entrada, em elementos (conhecidos como tokens) de um vetor.

Remoção de Stopwords: Consiste na remoção de palavras de parada, como “a”, “de”, “o”, “da”, “que”, “e”, “do”, dentre outras, pois na maioria das vezes não são informações relevantes para a construção do modelo.

Bag of words: É uma representação simplificada e esparsa dos dados textuais. Consiste em gerar uma bolsa de palavras do vocabulário existente no dado, que constituirá as features do dataset. Para cada sentença é assinalado um “1” nas colunas que apresentam as palavras que ocorrem na sentença e “0” nas demais.

Term Frequency – Inverse Document Frequency (TF-IDF): Indica a importância de uma palavra em um documento. Enquanto TF está relacionada à frequência do termo, IDF busca balancear a frequência de termos mais comuns/frequentes que outros.

Word embeddings: É uma forma utilizada para representar textos, onde palavras que possuem o mesmo sentido têm uma representação muito parecida. Essa técnica aprende automaticamente, a partir de um corpus de dados, a correlação entre as palavras e o contexto, possibilitando que palavras que frequentemente ocorrem em contextos similares possuam uma representação vetorial próxima. Essa representação possui a vantagem de ter um grande poder de generalização e apresentar baixo custo computacional, uma vez que utiliza representações densas e com poucas dimensões, em oposição a técnicas esparsas, como Bag of Words. Para gerar o mapeamento entre dados textuais e os vetores densos mencionados, existem diversos algoritmos disponíveis, como Word2Vec e FastText, os quais são utilizados neste trabalho.

Out-of-vocabulary (OOV): Consiste nas palavras presentes no dataset que não estão presentes no vocabulário da word embedding, logo, elas não possuem representação vetorial.

Edit Distance: Métrica que quantifica a diferença entre duas palavras, contando o número mínimo de operações necessárias para transformar uma palavra na outra.

Metodologia

Agora iremos descrever os passos necessários para a obtenção dos resultados, geração dos modelos e escolha daquele com melhor performance para a efetivação do nosso objetivo.

Obtenção dos Dados

Os dados utilizados para a elaboração dos modelos foram adquiridos das notícias falsas brasileiras sobre o COVID-19, dispostos no Chequeado, e de um web crawler dos links das notícias, utilizadas para comprovar que a notícia é falsa no Chequeado, para formar uma base de notícias verdadeiras. Além disso também foi realizado um web crawler para obtenção de notícias do Fato Ou Fake do G1.

Originalmente, os dados obtidos do Chequeado possuíam as classificações “Falso”, “Enganoso”, “Parcialmente falso”, “Dúbio”, “Distorcido”, “Exagerado” e “Verdadeiro mas”, que foram mapeadas todas para “Falso”. Com isso, transformamos nosso problema em classificação binária.

No final, obtivemos um dataset com 1.753 notícias, sendo 808 fakes, simbolizada como classe 0, e 945 verdadeiras, classe 1, com um vocabulário de tamanho 3.698. Com isso, dividimos o nosso dado em conjunto de treino e teste, com tamanhos de 80% e 20%, respectivamente.

Pré-processamento

Diminuição do viés. Ao trabalhar e visualizar os dados, notamos que algumas notícias verdadeiras vinham com palavras e sentenças que enviesavam e deixavam bastante claro para os algoritmos o que é fake e o que é verdadeiro, como: “É falso que”, “#Checamos”, “Verificamos que” e etc. Com isso, removemos essas sentenças e palavras, a fim de diminuir o enviesamento das notícias.

Limpeza textual. Após a etapa anterior, realizamos a limpeza do texto, consistindo em remoção de caracteres estranhos e sinais de pontuação e uso do texto em caixa baixa.

Tokenização. A partir do texto limpo, inicializamos o processo de tokenização das sentenças.

Remoção das Stopwords. A partir das sentenças tokenizadas, removemos as stopwords.

Representação textual

Análise exploratória

A partir do pré-processamento dos dados brutos, inicializamos o processo de análise exploratória dos dados. Verificamos o tamanho do vocabulário do nosso dataset, que totaliza 3.698 palavras.

Análise do Out-of-vocabulary. Com isso, verificamos o tamanho do nosso out-of-vocabulary em relação às word embeddings pré-treinadas utilizadas, totalizando 32 palavras. Um fato curioso é que palavras chaves do nosso contexto encontram-se no out-of-vocabulary e acabam sendo mapeadas para palavras que não tem muita conexão com o seu significado. Abaixo é possível ver algumas dessas palavras mais à esquerda, e a palavra a qual foram mapeadas mais à direita.

Análise da frequência das fake news por rede social. O dado bruto original advindo do Chequeado possui uma coluna que diz sobre a mídia social em que a fake news foi divulgada. Após uma análise visual superficial, apenas plotando a contagem dos valores dessa coluna (que acarreta até na repetição de redes sociais), notamos que os maiores veículos de propagação de fake news são o Facebook e Whatsapp.

Análise da quantidade de fake news ao longo dos meses. O dado bruto original advindo do Chequeado também possui uma coluna que informava a data de publicação da fake news. Após realizar uma análise visual da distribuição da quantidade de fake news ao longo dos meses, notamos que o maior número de fake news ocorreu em abril, mês em que a doença começou a se espalhar com maior velocidade no território brasileiro. De acordo com o G1, em 28 de abril, o Brasil possuía 73.235 casos do novo coronavírus (Sars-CoV-2), com 5.083 mortes. Além disso, foi nesse mês que começaram a surgir os boatos de combate do Coronavírus via Cloroquina, além de remédios caseiros.

Volume de fake news relacionadas ao COVID-19 ao longo dos meses

Análise da Word Cloud. Com as sentenças tokenizadas, também realizamos uma visualização usando a técnica de Word Cloud, que apresenta as palavras do vocabulário em um tamanho proporcional ao seu número de ocorrência no todo. Com essa técnica, realizamos duas visualizações, uma para as notícias verdadeiras e outra para as fake news.

Nuvem de palavras nas notícias verdadeiras

Divisão treino e teste

A divisão dos conjuntos de dados entre treino e teste foi feita com uma distribuição de 80% e 20% dos dados, respectivamente. Os dados de treino foram ainda divididos em um novo conjunto de treino e um de validação, com uma distribuição de 80% e 20% respectivamente.

Aplicação dos modelos

Para gerar os modelos, escolhemos algoritmos e técnicas clássicas de aprendizagem de máquina, tais como técnicas atuais e bastante utilizadas em competições, sendo eles:

Regressão Logística (*): exemplo de classificador linear;
K-NN (*): exemplo de modelo não-paramétrico;
Análise Discriminante Gaussiano (*): exemplo de modelo que não possui hiperparâmetros;
Árvore de Decisão: exemplo de modelo que utiliza abordagem da heurística gulosa;
Random Forest: exemplo de ensemble de bagging de Árvores de Decisão;
SVM: exemplo de modelo que encontra um ótimo global;
XGBoost: também um ensemble amplamente utilizado em competições do Kaggle;
LSTM-Dense: exemplo de arquitetura que utiliza deep learning.

Os algoritmos foram utilizados por meio de implementações próprias (aqueles demarcados com *) e uso da biblioteca scikit-learn e keras. Para todos os algoritmos, com exceção daqueles que não possuem hiperparâmetros e LSTM-Dense, realizamos Grid Search em busca dos melhores hiperparâmetros e realizamos técnicas de Cross Validation para aqueles utilizados por meio do Scikit-Learn, com k fold igual a 5.

Obtenção das métricas

As métricas utilizadas para medir a performance dos modelos foram acurácia, Precision, Recall, F1-score e ROC.

Tabela 1. Resultados das melhores representações por algoritmo

MODELOS	PRECISION	RECALL	F1-SCORE	ACCURACY	ROC
XGBoost BOW e TF-IDF*	1	1	1	1	1
SVM BOW E TF-IDF*	1	1	1	1	1
Regressão Logística BOW	0.7560	0.7549	0.7539	0.7549	0.7521
LSTM FASTTEXT	0.7496	0.7492	0.7493	0.7492	0.7492
Random Forest TF-IDF	0.7407	0.7407	0.7402	0.7407	0.7388
Árvore de Decisão TF-IDF	0.7120	0.7122	0.7121	0.7122	0.7111
Análise Discriminante Gaussiano Word2Vec	0.7132	0.7122	0.7106	0.7122	0.7089
k-NN FastText	0.6831	0.6809	0.6775	0.6638	0.6550

Tabela 2. Resultados das piores representações por algoritmo

MODELOS	PRECISION	RECALL	F1-SCORE	ACCURACY	ROC
XGBoost Word2Vec	0.7238	0.7236	0.7227	0.7236	0.7211
SVM Word2Vec	0.7211	0.7179	0.7151	0.7179	0.7135
Árvore de Decisão Word2Vec	0.6391	0.6353	0.6351	0.6353	0.6372
Random Forest Word2Vec	0.6231	0.6210	0.6212	0.6210	0.62198
Regressão Logística FastText	0.6158	0.5982	0.5688	0.59829	0.5858
Análise Discriminante Gaussiano TF-IDF	0.5802	0.5811	0.5801	0.5811	0.5786
k-NN BOW	0.5140	0.5099	0.5087	0.5042	0.5127
*LSTM WORD2VEC ()**	0.4660	0.4615	0.4367	0.4615	0.4717

Resultados

Com os resultados apresentados percebemos que os modelos SVM e XGBoost com as representações TF-IDF e BOW atingiram as métricas igual a 100%. Isso pode ser um grande indicativo de sobreajuste do modelo aos dados. Abaixo podemos visualizar a matriz de confusão e a curva ROC dos mesmos.

Logo após vem a Regressão Logística com métricas em torno de ~75.49%! Abaixo podemos visualizar sua matriz de confusão e a curva ROC.

Exemplos de classificações da Regressão Logística

True Positive (corretamente classificada)
- Texto que diz que vitamina C e limão combatem o coronavírus

True Negative (corretamente classificada)
- Notícia divulgada em 2015 pela TV italiana RAI comprova que o novo coronavírus foi criado em laboratório pelo governo chinês.
False Positive (erroneamente classificada)
- Vitamina C com zinco previne e trata a infecção por coronavírus
False Negative (erroneamente classificada)
- Que neurocientista britânico publicou estudo mostrando que 80% da população é imune ao novo coronavírus

Intrigados com os resultados, resolvemos visualizar as diferentes representações de dados em 2 componentes principais (visto a alta dimensionalidade do dado, o que prejudica a análise do que está acontecendo de fato) por meio das técnicas de PCA e T-SNE, separando por cor de acordo com sua classificação.

É interessante notar que as representações de word embeddings utilizadas possui uma representação bastante confusa e misturada. Já as representações TF-IDF e Bag of Words são facilmente separáveis.

**FastText PCA** (Semelhante ao Word2Vec)

BOW T-SNE

Conclusão

A base de dados utilizada para obtenção dos modelos foi obtida por meio do site Chequeado, e, posteriormente, houve o enriquecimento dessa base por meio do web crawler, totalizando 1.383 registros, sendo 701 fake news e 682 notícias verdadeiras.

Para representação textual foram utilizadas as técnicas Bag of Words, TF-IDF e Word embeddings Word2Vec e FastText de 300 dimensões com pesos pré-treinados obtidas por meio da técnica CBOW com dimensões, disponibilizadas pelo Núcleo Interinstitucional de Linguística Computacional (NILC). Para gerar os modelos foram utilizados os algoritmos Regressão Logística, kNN, Análise Discriminante Gaussiano, Árvore de Decisão, Random Forest, Gradient Boosting, SVM e LSTM-Dense. Para avaliação dos modelos foi utilizado as métricas Acurácia, Precision, Recall, F1-score, AUC-ROC e matriz de confusão.

Considerando os experimentos e os resultados, conclui-se que o objetivo principal deste trabalho, gerar modelos capazes de classificar notícias extraídas de redes sociais relacionadas ao COVID-19 como falsas e verdadeiras, foi alcançado com êxito. Como resultados, vimos que os modelos SVM e XGBoost com TF-IDF e BOW atingiram 100% nas métricas, com grandes chances de terem se sobreajustado aos dados. Com isso, consideramos como melhor modelo a Regressão Logística com a representação BOW, atingindo as métricas com valores próximos a 75.49%.

O pior classificador foi o kNN com o BOW e LSTM-Dense com Word2Vec, porém é importante ressaltar que este último não contou com Grid Search e foi treinado com poucas épocas. No geral, as melhores representações foram a TF-IDF e BOW e a pior o Word2Vec.

Para este projeto houveram algumas dificuldades, sendo a principal delas a formação da base de dados, visto que o contexto pandêmico do COVID-19 é algo novo e devido à limitação da API do Twitter em relação ao tempo para extrair os tweets, que era originalmente a ideia da base de dados para esse projeto. Além disso, também houve a dificuldade de remoção do viés dos dados.

Como trabalhos futuros, visamos:

Ampliar a base de dados;
Investigar o que levou ao desempenho do SVM, XGBOOST com as representações TF-IDF e BOW.
Analisar performance dos modelos utilizando outras word embeddings pré-treinadas, como o BERT, Glove e Wang2vec.
Investigar o uso do modelo pré-treinado do BERT e com fine-tuned.
Aplicar PCA Probabilístico
Utilizar arquiteturas de deep learning mais difundidas na comunidade científica.

Vagas Vagas Abertas

Vagas para profissionais de TI no Insight Lab

Autor do post Por Sandra Lemos
Data de publicação 23 de novembro de 2020
Nenhum comentário em Vagas para profissionais de TI no Insight Lab

Se você quer fazer parte de um time com pessoas criativas, curiosas, comunicativas e com paixão por criar, aprender e testar novas tecnologias, então esta é a sua oportunidade! O Insight está buscando novos profissionais, veja aqui as seis funções disponíveis e não se esqueça de acessar o link com a descrição completa de cada vaga.

1- [JOB30] Analista SRE

Conhecimentos desejáveis em

banco de dados;
controle de versão com Git;
experiência em Linux;
experiência em Docker;
desenvolvimento em ambientes e times ágeis;

Para concorrer a essa vaga envie seu currículo em anexo para o email jobs@insightlab.ufc.br com o assunto “[JOB30] Analista SRE“.

Acesse aqui a descrição completa da vaga.