Categorias
Ciência de Dados Cursos

Principais plataformas para estudo de Data Science

Ciência de Dados é uma das áreas do conhecimento que mais cresce atualmente, procurando agregar valor à grande quantidade de dados gerada por diversos tipos de dispositivos computacionais existentes.

Cada vez mais o mundo empresarial tenta gerar valor aos seus negócios utilizando técnicas de Data Science. Logo, profissionais habilitados a desenvolver projetos de Ciência de Dados que consigam dar uma vantagem competitiva às empresas estão sendo bastante valorizados.

A preparação dos profissionais para um mercado que precisa cada vez mais deles se fortaleceu no ambiente online. Diversas plataformas virtuais surgiram oferecendo cursos e outros recursos para a especialização, aperfeiçoamento e atualização de quem é ou busca ser um cientista de dados. O número de opções é extenso, isso significa que vamos encontrar conteúdos de grande qualidade, mas não todos.

Para te direcionar aos bons materiais da internet, a seguir, listamos algumas das melhores plataformas para o estudo de Ciência de Dados.

 

Cursos gratuitos

A Data Science Academy é um plataforma brasileira voltada para o ensino de Ciência de Dados, Big Data e outras áreas do conhecimento relacionadas. Eles dispõem de uma vasta gama de cursos online, tanto gratuitos quanto pagos.

Com relação à Ciência de Dados, a plataforma oferece um excelente curso gratuito chamado “Python Fundamentos para Análise de Dados“, com uma carga-horária total de 54 horas. Nesse curso você construirá, inicialmente, uma base sólida da linguagem Python. Assuntos como estruturas de dados, básicas, laços, Programação Orientada a Objetos, tratamento de arquivos e manipulação de banco de dados serão abordados. Em seguida, ferramentas da linguagem voltada para análise de dados são apresentadas, como o pacote Numpy e a biblioteca Pandas. A parte dedicada à Data Science mostra como realizar a análise exploratória dos dados e como conduzir um projeto de Ciência de Dados na prática. Além disso, o curso aborda conceitos de Machine Learning com Python, Deep Learning e a biblioteca TensorFlow . Como bônus no final do curso, uma introdução ao desenvolvimento web com Python é apresentada.

Com uma comunidade composta por mais de três milhões de usuários, o Kaggle é uma plataforma na qual os participantes aprendem muito ao participar das competições promovidas no site.

Companhias do mundo todo disponibilizam seus dados no canal para que analistas tentem desenvolver os melhores modelos para esses dados. Isso gera um excelente acervo de datasets gratuitos dentro da plataforma. Além disso, as soluções desenvolvidas nas competições são compartilhadas dentro dos fóruns de discussão, ou seja, mesmo os usuários que não participaram da competição poderão analisar e aprender com todo esse material produzido por praticantes de data science de todas as partes do mundo, acessando diferentes métodos de abordagem para o mesmo problema.

Dentro do Kaggle você também encontrará um espaço onde são oferecidos minicursos, como o de “Python” e “Advanced SQL“.

 

Cursos (quase) gratuitos

Nesta categoria, as plataformas indicadas, apesar de não gratuitas, oferecem cursos muito bem avaliados por um valor completamente acessível.

A Udemy conta com uma grande quantidade de cursos sobre Ciência de Dados.Um dos grandes destaques é o curso dos professores Fernando Amaral e Jones Granatyr chamado “Formação Cientista de Dados com Python e R“.

O curso aborda Fundamentos de Estatística para Ciência de Dados, Séries Temporais, Aprendizado de Máquina, Redes Neurais, Mineração de Textos e etc. Além das videoaulas, o curso também conta com diversos testes de fixação, provas práticas e questões diversas para você conferir se realmente solidificou seus conhecimentos.

Se a língua inglesa não é problema pra você, o curso “Machine Learning A-Z™: Hands-On Python & R In Data Science” é um dos grandes sucessos da plataforma. Com mais de meio milhão de estudantes inscritos, o curso explora a fundo conceitos de Aprendizado de Máquina como regressões, classificadores, técnicas de agrupamento (clusterização), regras de associação, aprendizado profundo (deep learning) e muito mais.

 

Outras formas de aprendizado

Se você não gosta de vídeo-aulas e prefere procurar conhecimento de forma mais independente, o site Analytics Vidhya criou um infográfico que mostra o caminho das pedras os assuntos mais importantes  para quem quiser se tornar um Cientista de Dados em 2020.

Bons estudos!

Se quiser continuar aprendendo sobre Data Science e Programação, siga acompanhando nossas matérias.

Não pare por aqui, leia “12 bibliotecas do Python para análise de dados espaço-temporais” (parte 1) e (parte 2)

 

 

Categorias
Deep Learning Inteligência Artificial Machine Learning

O futuro da IA mostrado na série “The Age of A.I.”

Buscando alguma série para assistir neste fim de semana? Nós temos uma dica: “The Age of A.I.”, série documental produzida pelo YouTube Originals.

Apresentada pelo ator Robert Downey Junior, a série mostra o trabalho de alguns dos pesquisadores mais influentes no desenvolvimento do potencial da inteligência artificial. Em quatro episódios, vamos acompanhar a quais níveis a IA já chegou e o que se espera que sejamos capazes de produzir com ela no futuro, como o aperfeiçoamento da computação afetiva, onde máquinas aprendem a sentir e reagir de uma forma cada vez mais humana.

Categorias
Dados

“Storytelling com Dados” e a visualização de dados eficiente

“Há uma história em seus dados”. Esse é um dos primeiros pontos que Cole Nussbaumer Knaflic aponta na introdução de seu livro “Storytelling com Dados”. Nesse livro, Knaflic nos ajuda a entender as etapas do processo de apresentação gráfica das informações.

A autora nos convoca a refletir sobre o que significa a organização dos dados em gráficos, qual história está sendo sintetizada. Ela também explica a necessidade de entender a quem essas informações visuais serão apresentadas, e dentro de qual contexto. Cole insiste na necessidade da clareza dos gráficos; a visualização dos dados é o ponto onde as informações devem estar mais sistematizadas, não podem se tornar um enigma para quem as observa.

O manual, também podemos chamar assim, é divido em seis capítulos:

  1. Entenda o contexto. 
  2. Escolha uma apresentação visual adequada. 
  3. Elimine a saturação. 
  4. Foque a atenção onde você deseja. 
  5. Pense como um designer. 
  6. Conte uma história. 

Nesses capítulos a autora nos mostra seu processo de concepção dos elementos para a visualização de dados. E vamos encontrar muitos exemplos de antes e depois, ou seja, exemplos de gráficos que não transmitem corretamente a mensagem e uma versão alternativa onde a informação foi apresentada de forma clara e eficiente.

Muitas pessoas vão pensar: “esse livro foi feito para mim”. Isso porque “Storytelling com Dados”, usando as palavras da autora, é voltado “para qualquer pessoa que precise comunicar qualquer coisa a qualquer um usando dados”.

Vai ler “Storytelling com Dados”? Então observe se você está adquirindo a versão colorida, existe uma edição em português que é em preto e branco, as informações gráficas são muito mais potentes na versão em cores.

Categorias
Ciência de Dados Inteligência Artificial UFC

Ministério da Justiça reconhece atuação da UFC no Projeto Big Data e Inteligência Artificial

A Universidade Federal do Ceará tem se destacado no Projeto SINESP Big Data e Inteligência Artificial, desenvolvido pela UFC em parceria com a Secretaria da Segurança Pública e Defesa Social do Ceará (SSPDS). Na última sexta-feira (20), o reitor da UFC, Prof. Cândido Albuquerque, recebeu ofício do Ministério da Justiça e Segurança Pública (MJSP) destacando os “excelentes resultados” dos trabalhos desenvolvidos pela Universidade no âmbito do projeto, vinculado ao Sistema Nacional de Informações de Segurança Pública (SINESP).

O documento, assinado pelo delegado federal Wellington Clay Porcino Silva, diretor de Gestão e Integração de Informações da Secretaria Nacional de Segurança Pública (SENASP), aponta como resultado positivo “a inovação científica dos produtos [desenvolvidos pela UFC], que apresentam recursos não presentes em nenhuma solução de mercado“.

A qualidade dos produtos e serviços, o nível de gestão e comprometimento da equipe, a antecipação das entregas de produtos e serviços, e a implantação das ferramentas do projeto nos estados participantes também são apresentados pelo delegado federal como aspectos que fundamentam a afirmação de que os trabalhos realizados pela Universidade “têm obtido excelentes resultados”.

Para o reitor Cândido Albuquerque, a mensagem do MJSP ressalta a importância de se criar na UFC uma unidade para integrar todas as ações desenvolvidas na área de inteligência artificial. “As instituições estão buscando a inteligência artificial como mecanismo de solução de seus problemas. E nós precisamos ter uma unidade que integre todas as ações de nossos diversos cursos na área de inteligência artificial. Já temos bons trabalhos, mas precisamos fortalecer nossa ação nesse campo”, considera.

Coordenado pelo Prof. José Macêdo, do Departamento de Computação da UFC, o Projeto SINESP Big Data e Inteligência Artificial desenvolveu ferramentas que possuem, entre outras funcionalidades, análise de manchas criminais, visualização de posicionamento de viaturas em tempo real, acionamento de câmeras, identificação de impressão digital e gestão de policiamentos.

O produto já está em funcionamento nos estados participantes do Programa Nacional de Enfrentamento à Criminalidade Violenta (Em Frente, Brasil), projeto-piloto implementado no fim de agosto pelo Ministério da Justiça e Segurança Pública com o objetivo de reduzir o número de crimes violentos no país por meio de articulação entre a União, os estados e os municípios.

De acordo com o Ministério da Justiça e Segurança Pública, nos últimos três meses, o número de homicídios caiu 44,7% nas cincos cidades participantes do programa: Ananindeua (Pará), Cariacica (Espírito Santo), Goiânia (Goiás), Paulista (Pernambuco) e São José dos Pinhais (Paraná).

Fonte: Coordenadoria de Comunicação Social e Marketing Institucional – fone: (85) 3366 7331

Fonte: UFC

Categorias
Ciência de Dados Python

12 bibliotecas do Python para análise de dados espaço-temporais (Parte 2)

Na semana passada, nós publicamos a primeira parte da lista de “12 bibliotecas Python para análise de dados espaço-temporais“. Você já leu? Hoje, vamos falar sobre mais seis bibliotecas desse tipo.

Acompanhe a segunda parte:

 

7. OSMnx

É uma biblioteca do Python voltada para análise de redes urbanas. Seus recursos principais incluem: o download automatizado de fronteiras políticas e a construção de pegadas, o download personalizado e automatizado, a construção de dados de rede de rua do OpenStreetMap, a correção algorítmica da topologia de rede, a capacidade de salvar redes de rua em disco como shapefiles, arquivos GraphML ou SVG, e a capacidade de analisar redes de rua, incluindo rotas de cálculo, projetando e visualizando redes, além de calcular medidas métricas e topológicas.

Se você quer saber mais sobre OSMnx, nós indicamos este artigo:

OSMnx: New Methods for Acquiring, Constructing, Analyzing, and Visualizing Complex Street Networks

 

8. Folium

É uma biblioteca código aberto do Python voltada para visualização de dados geoespaciais, em mapas interativos, utilizando a biblioteca Leaflet.js. O Folium possibilita uma fácil utilização dos elementos gráficos do Leaflet, permitindo uma grande flexibilidade para manipular os atributos de um mapa e de seus elementos. Além disso, ele possui diversas visualizações implementadas, tendo destaque para a facilidade de uso das visualizações em função do tempo, como o HeatMapWithTime. O Folium é uma ótima biblioteca quando deseja-se montar uma visualização final dos dados com uma maior riqueza de detalhes interativos.

 

9. Mplleaflet

 É uma biblioteca Python que converte um gráfico matplotlib em uma página da web contendo um mapa Leaflet. O objetivo do Mplleaflet é permitir o uso de Python e Matplotlib para visualizar dados geográficos em mapas deslizantes sem ter que escrever qualquer Javascript ou HTML. Além disso, ele automatiza a escolha do mapa base, o usuário não precisa se preocupar com o seu conteúdo, ou seja, estradas, linhas costeiras, etc.

 

10. Missingno

 É uma biblioteca Python para visualização de dados perdidos em datasets. Suas visualizações incluem diversos gráficos (matriz, barras, mapa de calor, dendrograma, dentre outros) para analisar lacuna de dados ausentes em séries temporais. 

 

11. SciPy

É uma coleção de algoritmos matemáticos e funções de conveniência construída sobre a extensão NumPy de Python e, portanto, com alto desempenho. SciPy fornece recursos para acessar classes de alto nível para manipulação e visualização de dados. Com o SciPy, uma sessão Python interativa torna-se um ambiente de processamento de dados e protótipos de sistemas concorrentes, como MATLAB, IDL, Octave, R-Lab e SciLab.

 

12. Fiona

Ela é uma biblioteca que foca em ler e escrever dados, em estilo Python IO padrão. Fiona pode ler e escrever dados usando formatos GIS multicamadas e sistemas de arquivos virtuais compactados. Em trabalhos de análise de trajetória, Fiona é uma ótima ferramenta, visto que ela é fácil de usar, flexível e confiável. 

 

 

 

Categorias
Ciência de Dados Dados Python

12 bibliotecas do Python para análise de dados espaço-temporais (Parte 1)

Dados espaço-temporais envolvem a união de duas áreas: séries temporais e Geoestatística. Com esses dados você observa o evento por duas frentes: do ponto de vista temporal e a partir do local em que isso acontece.

Uma linha de pesquisa desenvolvida aqui no Insight Lab é a análise de dados espaço-temporais. Nossos pesquisadores, Nicksson Arrais, Francisco Carlos Júnior e João Castelo Branco,  prepararam uma seleção com opções de bibliotecas para trabalhar com dados espaço-temporais no ambiente Python.

Acompanhe a primeira parte dessa lista:

1. GeoPandas

É um projeto open source para facilitar o trabalho com dados geoespaciais em Python. GeoPandas estende os tipos de dados do pandas fornecendo operações espaciais em tipos geométricos. O GeoPandas combina as capacidades do Pandas e da biblioteca Shapely, fornecendo operações geoespaciais do Pandas e uma interface de alto nível para múltiplas geometrias do Shapely. Ele permite que você faça facilmente operações em Python que de outra forma exigiria um banco de dados espacial como o PostGIS.

 

2. PySAL

É uma biblioteca multiplataforma de código aberto para ciência de dados geoespaciais, com ênfase em dados vetoriais geoespaciais escritos em Python. PySAL suporta o desenvolvimento de aplicações de alto nível para análise espacial, como a detecção de clusters espaciais e hot-spots, construção de outliers de gráficos de regressão de dados espaciais e modelagem estatística em redes geograficamente incorporados econometria espacial exploratória e análise de dados espaço-temporais. Os analistas espaciais que possam estar a realizar projetos de investigação que exijam um scripting personalizado, uma análise de simulação extensiva, ou aqueles que procuram fazer avançar o estado da arte na análise espacial devem também considerar o PySAL como uma base útil para o seu trabalho.

 

3. PyMove

É uma biblioteca de código aberto para análises de trajetória, desenvolvida pelo Insight Lab, que envolve tanto as visualizações de trajetórias, pontos de interesses e eventos, quanto o processamento de dados sobre múltiplas trajetórias de forma eficiente. O PyMove fornece ao usuário um ambiente único de análise e visualizações de dados de trajetória, sendo bastante fácil de usar, extensível e ágil.

 

4. Scikit-Mobility

É uma biblioteca para simulação e análise da mobilidade humana em Python. A biblioteca permite: gerir e manipular dados de mobilidade de vários formatos (registos de detalhes de chamadas, dados GPS, dados de redes sociais baseadas na localização, dados de inquéritos, etc.); extrair métricas e padrões de mobilidade humana de dados, tanto a nível individual como colectivo (por exemplo, comprimento dos deslocamentos, distância característica, matriz origem-destino, etc.). O Scikit-Mobility conta com diversos modelos para simular trajetórias e métricas para comparação de trajetórias como raio de rotação, motivos diários, entropia de mobilidade, matrizes origem-destino, além de uma implementação simples e eficiente baseada nas bibliotecas populares como Python NumPy, Pandas e Geopandas 

Confira também este artigo sobre o Scikit-Mobility:

Scikit-Mobility: an open-source Python library for human mobility analysis and simulation

 

5. Moving Pandas

É uma extensão da biblioteca Pandas e sua extensão espacial GeoPandas para adicionar funcionalidade quando se lida com dados de trajetória. No Moving Pandas, uma trajetória é uma série de geometrias ordenadas pelo tempo. Essas geometrias e atributos associados são armazenados em um GeoDataFrame, uma estrutura de dados fornecida pela biblioteca de GeoPandas. A principal vantagem do Moving Pandas é que, sendo baseado no GeoPandas, ele permite que o usuário execute várias operações em trajetórias, como recortá-las com polígonos e computar interseções com polígonos. No entanto, por estar focado no conceito de trajetória, o Moving Pandas não implementa nenhuma característica específica da análise de mobilidade, como leis estatísticas de mobilidade, modelos generativos, funções padrão de pré-processamento e métodos para avaliar o risco de privacidade em dados de mobilidade.

 

6. Shapely

Uma das principais bibliotecas em Python para manipulação e análise de objetos geométricos planares. Devido à sua construção ser baseada na biblioteca GEOS (mesma engine do PostGIS), a biblioteca Shapely possui as principais funções para operações de objetos geométricos. A partir das estruturas de dados principais de ponto, linha e polígonos você conseguirá visualizar objetos geométricas e realizar facilmente operações simples como: interseção e união. E também operações mais complexas como convex hull e construção de estrutura com múltiplos objetos geométricos. Para trabalhar com dados georreferenciados em Python, a nossa dica é que Shapely seja umas das primeiras bibliotecas estudadas.

Continue acompanhando nossas publicações. Em breve postaremos a segunda parte desta lista com mais 6 bibliotecas. Até logo!

Categorias
Ciência de Dados Programação

“Data Science do Zero: Primeiras Regras com o Python” é nossa nova dica de leitura

 Escrito por Joel Grus, o livro “Data Science do Zero: Primeiras Regras com o Python” é nossa nova dica de leitura para vocês.

Quais habilidades um cientista de dados deve ter? Essa foi a pergunta que guiou o autor na escrita deste livro. Grus oferece recursos para o desenvolvimento de dois centros de habilidade do cientista de dados: habilidades de hacker e conhecimento em Estatística e Matemática. Os tópicos de Estatística e Matemática são aqui desenvolvidos pensando-se na aplicação destes dentro do ambiente Python.

O Python é central nesta obra, e terá seu espaço para ser detalhado, mas, como o próprio autor indica, se você ainda não conhece esta linguagem de programação, é indicado que complemente a leitura da obra com materiais voltados para ensinar Python a iniciantes.

O livro apresenta muitos elementos essenciais para a área de Ciência de Dados, como diversos modelos de algoritmos e pontos básicos de Álgebra Linear, Estatística e Probabilidade. Com tantos temas vastos sendo trabalhados no mesmo volume, o livro não traz densas explicações, ele auxilia na construção de noções e dá direcionamentos. 

Se você está buscando uma obra que te auxilie no entendimento do cenário da Ciência de Dados, “Data Science do Zero” é uma grande opção. Além da clara importância do conteúdo tratado no livro, o autor Joel Gruz conduz o texto de maneira dinâmica e divertida.

Boa leitura!

Categorias
Ceará Segurança UFC

UFCTV destaca a participação da UFC nas novas estratégias de segurança do Ceará

A UFCTV nos convidou para falar sobre algumas das estratégias que estão sendo aplicadas na segurança pública do Ceará. O Insight Lab tem atuado em parceria com a Secretaria de Segurança Pública e Defesa Social (SSPDS) na aplicação de soluções da área de Ciências de Dados no combate ao crime. Para esse fim, ferramentas, como o aplicativo Portal de Comando Avançado (PCA), também estão sendo desenvolvidas.

Confira a reportagem:

 

Categorias
Big Data Ciência de Dados

Insight Lab presente em workshop internacional de predição da mobilidade

A professora Ticiana L. Coelho da Silva, pesquisadora do Insight Lab, está presente no workshop  internacional “PredictGIS 2019sobre Predição de Mobilidade (Prediction of Human Mobility) promovido pelo grupo ACM Special Interest Group on Spatial Information (ACM SIGSPATIAL).

 A conferência acontece em Chicago (EUA), entre os dias 5 e 9 de novembro, e reúne estudiosos de diversas áreas para apresentação e debate dos avanços nas técnicas e metodologias geoespaciais. 

O estudo de predição da mobilidade envolve prever a próxima localização, quanto tempo para chegar no próximo destino, entre outras análises. Isso contribui para o entendimento da dinâmica geográfica da população. 

O combate à criminalidade também é fortalecido por esse campo de conhecimento. Nós do Insight temos aplicado essa área nas estratégias de segurança pública desenvolvidas em nosso laboratório. Essas estratégias têm contribuído para a queda dos índices de violência no estado do Ceará. 

E a questão da segurança foi tema do nosso trabalho exposto neste workshop. Nossa pesquisadora apresentou “A Novel Approach to Approximate Crime Hotspots to the Road Network” (Uma Nova Abordagem para Pontos Críticos do Crime na Rede Rodoviária). O artigo foi produzido por Francisco Carlos Freire Nunes Junior, Ticiana L. Coelho da Silva, José Florêncio de Queiroz Neto, José Macedo e Wellington Silva.

Categorias
Ciência de Dados Segurança Pública

Pesquisador do Insight participa de evento em Brasília para discutir ações contra o crime organizado

Terça-feira, 22, tivemos uma reunião em Brasília para debater as ações contra o crime organizado coordenadas pela Secretaria Nacional de Segurança Pública (SENASP). Agrupando representantes de instituições como USP, UFRN, UFC, UNB, Instituto Igarapé e Instituto Sou da Paz, esse foi o terceiro encontro com o mesmo núcleo de estudiosos.

O Insight, que tem realizado estudos para a área de segurança pública junto ao Ministério da Justiça e Segurança Pública (MJSP), foi representado pelo pesquisador José Florêncio de Queiroz.

Sair da versão mobile