Categorias
Algoritmo Kaggle Machine Learning

10 melhores projetos do Kaggle para aprender Machine Learning

Atualmente, grandes organizações estão investindo em análise preditiva e testando opções que sejam capazes de gerar eficiência de negócios e novas maneiras de lidar com seu público.

Partindo da ideia de que os dados são a nova riqueza mundial, saber refiná-los e transformá-los em informação será a chave para alavancar seu potencial.

Se você quer entender o que Machine Learning faz, o melhor é aprender na prática através de uma série de projetos já disponíveis. Veja aqui, 9 projetos de ML que o Insight selecionou no Kaggle para você aprender e se inspirar.

 

01  Previsão de Preço de Imóvel

Diariamente, pessoas no mundo todo compram e vendem imóveis. Mas como saber qual o melhor preço para esta categoria de produto? Como saber se o valor oferecido é justo? Neste projeto, é proposto um modelo de Machine Learning para prever o preço de uma casa baseado em dados como tamanho, ano de construção, entre outros. Durante o desenvolvimento e avaliação desse modelo, você verá o código usado para cada etapa seguido de sua saída. Este estudo utilizou a linguagem de programação Python.

 

02 Reconhecimento de gênero por voz

O reconhecimento de gênero permite a uma empresa fazer sugestões de produtos ou serviços de maneira mais personalizada aos seus usuários. Neste projeto o banco de dados foi criado para identificar uma voz como masculina ou feminina, com base nas propriedades acústicas da voz e da fala. 

O conjunto de dados consiste em 3.168 amostras de voz gravadas, coletadas de homens e mulheres. As amostras de voz são pré-processadas por análise acústica em R usando os pacotes seewave e tuneR, com uma faixa de frequência analisada de 0hz-280hz (faixa vocal humana).

 

03 Detecção de email spam

Com o crescimento da internet, o meio digital incentivou diversas práticas ruins como o email spam. Aparentemente, ele é uma parte inseparável da experiência na web, algo que aceitamos como normal, mas que é preciso combater e para isso surgiu a detecção de emails spam.

Neste projeto você irá encontrar um arquivo CSV contendo informações relacionadas de 5172 arquivos de email escolhidos aleatoriamente e seus respectivos rótulos para classificação de spam ou não spam. As informações sobre todos os 5172 emails estão armazenadas em um dataframe compacto, em vez de arquivos de texto separados.

 

04 Análise de Dados da Uber

Neste projeto de análise de dados do aplicativo Uber, o conjunto de dados são de viagens de passageiros que partem de um ponto A para um ponto B. O valor da viagem é calculado no momento da solicitação de forma automática pelo aplicativo, considerando distância, tempo estimado de viagem e disponibilidade atual do carro.

Terminada a viagem, é cobrado no cartão de crédito do passageiro e transferido uma porcentagem desse valor para a conta do motorista. Finalmente, antes de iniciar uma corrida, a viagem pode ser cancelada pelo motorista ou pelo passageiro.

A análise descritiva dos dados irá responder perguntas relacionadas a quantidade de passageiros e motoristas, quanto será o custo de uma viagem, quem são os melhores passageiros e os piores motoristas, entre outros questionamentos.

 

05 Detecção de Fraude com Cartão de Crédito

Em contrapartida ao surgimento do e-commerce e a facilidade de meios de pagamento e transações bancárias totalmente online, houve um aumento significativo nas fraudes com cartão de crédito. As operadoras de cartão passaram a dar mais importância a sistemas que possam detectar transações fraudulentas, para preservar seus clientes.

Este projeto contém transações realizadas com cartões de crédito em setembro de 2013 por portadores de cartões europeus, com intuito de analisar as transações fraudulentas.

 

06 Sistemas de Recomendação de Filme

Os sistemas de recomendação fazem com que o processo de recomendação natural do ser humano ganhe uma maior versatilidade, de modo que venha a atender digitalmente as demandas e necessidades das pessoas que procuram por algo.

O projeto analisa dados de filmes e sistemas de recomendação. Nele você verá algumas implementações de algoritmos de recomendação (baseado em conteúdo, popularidade e filtragem colaborativa) e também a construção de um conjunto desses modelos para chegar ao sistema de recomendação final. 

 

07 Análise de Sentimento no Twitter

A análise de sentimentos é uma mineração contextual de um texto que identifica e extrai informações subjetivas no material de origem. Ela ajuda as empresas a entenderem o sentimento social de sua marca, produto ou serviço. 

Segundo os criadores deste conjunto de dados, sua abordagem foi única porque os dados de treinamento foram criados automaticamente, ao invés de anotações humanos. Nesta abordagem, foi presumido que qualquer tuíte com emotions positivos, era positivo, e tuítes com emotions negativos, foram negativos. 

 

08 Predição de Câncer de Mama

Em um processo de extração de informações dos dados, existe a técnica de Mineração de Dados, que visa explorar grandes quantidades de dados com o intuito de encontrar padrões relevantes e consistentes no relacionamento entre os atributos (basicamente, colunas de tabelas) dessas bases de dados.

Uma das primeiras técnicas desenvolvidas nesse sentido foi o KDD (Knowledge Discovery in Database), desenvolvido durante o final da década de 1980. A extração de conhecimento a partir de uma base de dados é dividida em: coleta de dados, tratamento dos dados e resultado final (transformação dos dados em informações e posteriormente em conhecimento).

Neste projeto, pode-se entender as fases do KDD (Knowledge Discovery in Database) para uma base de dados na qual existe uma série de atributos de análise de imagens de células na região do câncer feitos com ultrassonografia para prever se um câncer de mama é benigno ou maligno.

Após a extração dos dados da plataforma Kaggle, foi realizado um pré-processamento para garantir que os dados lidos e interpretados sejam relevantes para o processo de extração de conhecimento. 

Em seguida, foi implementada a transformação dos dados, através do algoritmo KNN (K-Nearest Neighbors). Por fim, foram feitas as previsões a partir de novos dados, isto é, após o aprendizado realizado pelo algoritmo KNN sobre a base de dados, novas entradas de dados buscaram classificar se uma nova entrada de fotos de células seria um câncer benigno ou maligno, baseado no aprendizado anterior.

 

09 Análise estatística e fluxo de trabalho

Este projeto é para todos os aspirantes a cientistas de dados aprenderem e revisarem seus conhecimentos através de uma análise estatística detalhada do conjunto de dados do Titanic com a implementação do modelo ML.

Os objetivos principais deste trabalho são:

  • fazer uma análise estatística de como alguns grupos de pessoas sobreviveram mais do que outros;
  • fazer uma análise exploratória de dados (EDA) do titanic com visualizações e contação de histórias;
  • prever com o uso de ML as chances de sobrevivência dos passageiros.

 

 10 Previsão de preços de ações

Se você gosta de trabalhar com dados financeiros, este projeto  pode ser interessante para você. O objetivo deste projeto é prever os preços futuros das ações aprendendo com o desempenho de uma empresa.

Neste projeto serão explorados dados do mercado de ações, em particular ações de tecnologia. Ele apresenta como usar o Pandas para obter informações sobre ações, visualizar seus diferentes aspectos e, por fim, algumas maneiras de analisar o risco de uma ação com base em seu histórico de desempenho anterior. Além disso tudo, será abordado a previsão dos preços futuros de ações por meio do método Long Short Term Memory (LSTM).

 


 

No kaggle, você também encontra outros excelentes projetos como estes, disponíveis para aprendizagem e competições com outros cientistas de dados, engenheiros de Machine Learning e curiosos da área. Aprender com profissionais e ter acesso à base de dados para treinar suas habilidades, além de participar de competições, trará a você cada vez mais segurança em sua formação. 

Gostou da nossa seleção? Se você tem o seu próprio projeto ou quer indicar outro, compartilha aqui conosco!

 

Categorias
Bolsas UFC Vagas

Bolsas de graduação para Desenvolvedores Full Stack e Frontend nos campi Fortaleza e Quixadá

Procurando uma vaga de bolsista?

Sua oportunidade pode estar aqui. O Insight está selecionando alunos de graduação da UFC (Universidade Federal do Ceará) para vagas de bolsistas como Desenvolvedor Full Stack e Frontend. Os selecionados realizarão suas atividades de forma híbrida entre o home office e atividades presenciais nos campi de Fortaleza ou Quixadá.

 

? Vagas: Bolsista de Graduação – Desenvolvedor Full Stack

Responsável por

  • atuar no desenvolvimento de aplicações web;
  • desenvolver soluções inovadoras.

Conhecimentos desejáveis em

  • Javascript;
  • HTML;
  • CSS;
  • Java;
  • Spring Boot;
  • Git;
  • Gitlab;
  • Python;
  • PostgreSQL;
  • MongoDB.

Você irá se destacar se tiver conhecimento em: 

  • Django; 
  • Docker; 
  • Redis;
  • Scala; 
  • Play Framework;
  • Lagom Framework.
?Vagas: Bolsista de Graduação – Desenvolvedor Frontend

Responsável por

  • atuar no desenvolvimento de aplicações web;
  • desenvolver soluções inovadoras.

Conhecimentos desejáveis em:

  • Javascript;
  • Typescript;
  • HTML;
  • CSS;
  • React Js;
  • Git, Gitlab.

Você irá se destacar se tiver conhecimento em: 

  • Node Js;
  • MongoDB;
  • Firebase;
  • Spring Boot.

 

Modalidade de Contratação

Bolsa FUNCAP 

 

Etapas da seleção

Resposta do desafio e envio do formulário: 22/02 a 28/02 

Data das Entrevistas: 01/03

Data do Resultado: 02/03

 

Interessado? Acesse aqui o link do formulário para registrar seus dados, enviar seu currículo e solucionar o desafio. Você será desclassificado se não resolver o desafio ou fugir do tema.

 

Compartilhe esta notícia com mais pessoas!

 

Categorias
Deep Learning Dica de Leitura Inteligência Artificial

As superpotências de inteligência artificial sob o olhar de Kai-Fuu Lee

“Hoje, o Insight indica o livro “Inteligência Artificial” (AI Superpowers – China, Silicon Valley, and the New World Order), escrito por uma das maiores autoridade de IA, Kai-Fuu Lee.


Esse livro nos ajuda a entender as grandes transformações positivas que a inteligência artificial pode trazer e como as maiores potências do mundo, EUA e China, estão desenvolvendo essa ciência dentro de realidades e posições específicas.

 

As posições de liderança ocupadas por China e Estados Unidos em muitos momentos ganham o contorno de confronto. E isso se reflete nas palavras usadas pelo autor quando afirma que a grande quantidade de engenheiros de IA consistentes será tão importante quanto a qualidade de pesquisadores de elite, e “a China está treinando exatamente esse exército“.


Também é destacado que, apesar dos Estados Unidos serem pioneiros na IA, hoje a China já é um superpotência na área. Isso é resultado, afirma Lee, de aspectos específicos do país asiático, como “dados abundantes, empreendedores tenazes, cientistas de IA bem treinados e um ambiente político favorável”.


No entanto, como alertado em artigo do The Washington Post, “alguns leriam ‘dados abundantes’ como ‘vigilância` e ‘um ambiente de política favorável’ como ‘tomada de decisão de cima para baixo que não é impedida pela opinião pública.’”


Kai-Fuu Lee compartilha conosco uma reflexão sobre o processo desta corrida desenvolvimentista entre Estado Unidos e China e suas implicações. Uma das preocupações destacadas é que o domínio dessas duas potências gere desigualdade global também no campo de IA. Os dois países já são lideranças massivas no resto do mundo, e isso pode se aprofundar se esse poder tecnológico permanecer tão concentrado.


Além disso, o livro trata da antiga e a cada dia renovada preocupação sobre o papel que a IA ocupará no mundo. E isso significa pensar qual lugar nós ocuparemos num mundo tão automatizado por essas máquinas, muito mais adequadas que os seres humanos para certas tarefas, mas frutos da criatividade e inteligência humana. 

 

O autor*

Imagem: vídeo – Como a IA pode salvar nossa humanidade (TED)

 

 

 

 

 

 

 

 

 

 

 

Kai-Fu Lee tem uma perspectiva única na indústria de tecnologia global, tendo trabalhado extensivamente entre os Estados Unidos e a China pesquisando, desenvolvendo e investindo em inteligência artificial há mais de 30 anos. Ele é um dos maiores investidores em tecnologia da China, realizando um trabalho pioneiro no campo da IA e trabalhando com vários gigantes da tecnologia dos EUA.

 

Lee já foi presidente do Google China e ocupou cargos executivos na Microsoft, SGI e Apple, e fundou a Microsoft Research China. Mais tarde renomeado “Microsoft Research Asia”, este instituto treinou a maioria dos líderes de IA na China, incluindo chefes de IA da Baidu, Tencent, Alibaba, Lenovo, Huawei e Haier. Enquanto estava na Apple, Lee liderou projetos de IA em fala e linguagem natural que foram destaques na mídia americana.

 

Atualmente, Kai-Fuu Lee é o presidente e CEO da Sinovation Ventures, empresa líder de investimentos em tecnologia com foco no desenvolvimento de companhias chinesas de alta tecnologia.

 

*Informações retiradas do perfil de Kai-Fu Lee no site TED.

 

Categorias
Ceará Ciência de Dados Redes Neurais

Conheça o modelo computacional cearense que rastreia sintomas da COVID-19

A pandemia de Covid-19 exigiu dos governos medidas eficientes e aceleradas para o enfrentamento da doença. Nesse contexto, a Ciência de Dados trouxe contribuições fundamentais no entendimento do comportamento do vírus e nas tomadas de decisões de combate.

Uma das soluções desenvolvidas e disponibilizadas para a população no Estado do Ceará foi o Plantão Coronavírus, uma plataforma com mecanismos de triagem que, no primeiro momento, utiliza um chatbot para interagir com o paciente a fim de classificar seu estado de saúde em uma das três categorias: verde, amarelo e vermelho, sendo o nível de criticidade da saúde do paciente leve, moderada ou grave, respectivamente.

 

Trecho da conversa entre o paciente e o chatbot

 

As interações entre os pacientes e os profissionais de saúde por meio do Plantão Coronavírus geraram muitos dados que precisavam ser minerados, analisados e transformados em informação de valor.

Com esse objetivo, pesquisadores do Insight Lab e do Laboratório Íris desenvolveram o Sintomatic, um modelo computacional criado para auxiliar a Secretaria da Saúde do Ceará no acompanhamento dos pacientes que buscavam algum tipo de serviço de saúde. Além disso, ele contribuiu na descoberta de novos sintomas presentes em vítimas do coronavírus, sejam estes mais frequentes ou raros, e na identificação de comportamentos psicológicos alterados, como ansiedade, angústia e tristeza em pacientes positivos ou não para COVID19.

Conheça neste artigo a metodologia usada pelos pesquisadores para desenvolver esse modelo computacional.

 

Sintomatic

No serviço de Tele Atendimento gratuito oferecido pelo Governo do Ceará, o paciente inicialmente trocava mensagens com um robô. A partir daí, era triado de acordo com seus sintomas e, posteriormente, encaminhado para uma consulta com um profissional de saúde.

Todo o ciclo de integração com o paciente registrado por meio de textos é passado ao modelo Sintomatic para que este possa detectar sintomas em todas as etapas do atendimento.

No projeto, foi mapeada a identificação de sintomas em texto como um problema de reconhecimento de entidade (em inglês, Named Entity Recognition – NER). NER corresponde à capacidade de identificar as entidades nomeadas nos documentos e rotulá-las em classes definidas de acordo com o tipo de entidade. De forma geral, o robô de captura de sintomas possui uma rede neural que é capaz de reconhecer entidades. Neste caso, uma entidade é um sintoma.

O Sintomatic é uma rede neural que processa textos em Linguagem Natural, capaz de identificar sintomas a partir de mensagens trocadas entre o chatbot e o paciente. Por meio desse processo, o modelo reconhece novos padrões da doença anteriormente inexistentes ou despercebidos, proporcionando grandes ganhos no entendimento da doença.

Aprendizado por transferência (Transfer Learning) 

A detecção de sintomas no idioma português foi um desafio, pois, até o momento, não havia de forma pública nenhum modelo capaz de realizar essa tarefa, de acordo com o conhecimento dos cientistas envolvidos. O robô desenvolvido foi treinado através de um processo de aprendizado conhecido como Transfer Learning, ou em português, aprendizado por transferência.

A técnica de aprendizagem por transferência utiliza o conhecimento adquirido ao resolver um problema e aplicá-lo em outro problema diferente, porém relacionado, permitindo progresso rápido e desempenho aprimorado ao modelar a segunda tarefa. Em outras palavras, a transferência de aprendizado é a melhoria do aprendizado em uma nova tarefa através da transferência de conhecimento de uma tarefa relacionada que já foi aprendida.

A inovação tecnológica promovida pelo Sintomatic é um modelo neural pioneiro no reconhecimento de sintomas em português, principalmente porque a língua portuguesa carece de modelos NER.

 

Etapas de treinamento

Para treinar o Sintomatic foi utilizado o scispaCy, um pacote Python que contém modelos de spaCy para processar textos biomédicos, científicos ou clínicos.

Em particular, há um tokenizador personalizado que adiciona regras de tokenização baseando-se em regras do spaCy, um etiquetador POS e analisador sintático treinado em dados biomédicos e um modelo de detecção de extensão de entidade. Separadamente, também existem modelos NER para tarefas mais específicas.

Para este trabalho, o modelo utilizado foi o en ner bc5cdr md do SciSpacy, em um processo de transfer learning para treinar um novo modelo de reconhecimento e captura de sintomas em português.

A primeira etapa do processo de treino do rastreador foi traduzir os textos que inicialmente estavam em língua portuguesa para o idioma inglês. Em seguida, inserir como parâmetro de entrada cada texto (em inglês) ao modelo do scispacy, analisar o resultado gerado por este modelo e, logo após, traduzir os sintomas capturados pelo modelo do scispacy em inglês para português.

O conjunto de treinamento para o Sintomatic (novo modelo em português), é composto do texto original e os sintomas capturados pelo modelo do scispacy em português. Esse processo foi executado de forma contínua até que a função de erro da rede se estabilizasse.

Ao final, foi possível atingir para o Sintomatic, F1-score de 85.66, o que é competitivo se comparado ao modelo em inglês, que tem F1-score igual a 85.02.

Etapas do processo:

Fluxo dos dados

 

Nas etapas de translação dos textos foi utilizada a rede de tradução do Google. Atualmente, essas redes de tradução apresentam resultados muito fiéis ao esperado, tornando os ruídos insignificantes quando analisados no contexto deste trabalho.

Um diferencial do Sintomatic é a não necessidade de classificação manual realizada por um humano para reconhecimento de entidades. Em um cenário onde havia vasta quantidade de dados e pouco tempo para processar essas informações, o ganho com a otimização dessa etapa de treino foi crucial no apoio à tomada de decisão.


Boletim Digital

Para o acompanhamento dos dados capturados pelo robô Sintomatic e monitoramento das demais informações sobre a pandemia, foi desenvolvido o Boletim Digital COVID-19 do Ceará. Essa é uma solução tecnológica construída por cientistas de dados onde é feito todo o processo de mineração do dado bruto até sua exposição em painéis gráficos acompanhados de textos explicativos a respeito de cada uma das análises abaixo:

  • número de pacientes atendidos;
  • sintomas mais frequentes e raros;
  • evolução dos sintomas por semana epidemiológica;
  • sintomas ao longo do tempo.

Veja no vídeoabaixo uma demonstração do funcionamento do Sintomatic:

 

Atualmente, o Sintomatic é utilizado na plataforma de Tele Atendimento do Estado do Ceará, onde desempenha papel pioneiro na área da saúde.


Fonte: Rastreador de sintomas da COVID19

 

 

 

Sair da versão mobile