Autor: Insight Lab

Laboratório de Pesquisa em Ciência de Dados na Universidade Federal do Ceará

Como estimar a idade das pessoas usando redes neurais convolucionais

Autor do post Por Insight Lab
Data de publicação 24 de setembro de 2019

Nos últimos anos, os pesquisadores criaram um número crescente de técnicas de reconhecimento facial baseadas em aprendizado de máquina (ML), que podem ter inúmeras aplicações interessantes, por exemplo, aprimorando o monitoramento de vigilância, controle de segurança e arte potencialmente forense. Além do reconhecimento facial, os avanços no ML também permitiram o desenvolvimento de ferramentas para prever ou estimar qualidades específicas (por exemplo, sexo ou idade) de uma pessoa, analisando imagens de seus rostos.

Em um estudo recente, pesquisadores da Universidade de Kwazulu-Natal, na África do Sul, desenvolveram um modelo de machine learning para estimar a idade das pessoas analisando imagens de seus rostos tirados em ambientes aleatórios da vida real. Essa nova arquitetura foi introduzida em um artigo publicado no Springer e apresentado há alguns dias na Conferência Internacional sobre Inteligência Coletiva Computacional (ICCCI) 2019.

As abordagens mais tradicionais para classificação etária somente têm bom desempenho ao analisar imagens de rosto tiradas em ambientes controlados, por exemplo, no laboratório ou em estúdios de fotografia. Por outro lado, muito poucos deles são capazes de estimar a idade das pessoas em imagens tiradas em ambientes cotidianos reais.

“Os métodos de aprendizado profundo provaram ser eficazes na solução desse problema, especialmente com a disponibilidade de uma grande quantidade de dados para treinamento e máquinas de ponta”, escreveram os pesquisadores em seu artigo. “Em vista disso, propomos uma solução de aprendizado profundo para estimar a idade a partir de rostos da vida real”.

A equipe de pesquisadores da Universidade de Kwazulu-Natal desenvolveu uma arquitetura baseada em rede neural convolucional profunda (CNN) com seis camadas. Seu modelo foi treinado para estimar a idade dos indivíduos a partir de imagens de rostos tirados em ambientes não controlados. A arquitetura consegue isso aprendendo quais representações faciais são mais cruciais para a estimativa de idade e concentrando-se nesses recursos específicos.

A fase de pré-processamento da imagem. Crédito: Agbo-Ajala e Viriri.

Para melhorar o desempenho de seu modelo baseado na CNN, os pesquisadores o treinaram em um grande conjunto de dados chamado IMDB-WIKI, que contém mais de meio milhão de imagens de rostos tirados do IMDB e da Wikipedia, rotulados com a idade de cada sujeito. este treino inicial permitiu-lhes conformar sua arquitetura para enfrentar o conteúdo da imagem.

Posteriormente, os pesquisadores ajustaram o modelo usando imagens de outros dois bancos de dados, MORPH-II e OUI-Adience, treinando-o para captar peculiaridades e diferenças. O MORPH-II contém aproximadamente 70.000 imagens rotuladas de rostos, enquanto o OUI-Adience contém 26.580 imagens de rostos tiradas em ambientes ideais da vida real.

Quando eles avaliaram seu modelo em imagens tiradas em ambientes não controlados, os pesquisadores descobriram que esse extenso treinamento levou a um desempenho notável. Seu modelo alcançou resultados de última geração, superando vários outros métodos baseados na CNN para estimativa de idade.

“Nossas experiências demonstram a eficácia do nosso método para estimativa de idade na natureza quando avaliadas no benchmark OUI-Adience, que é conhecido por conter imagens de rostos adquiridos em condições ideais e sem restrições “, escreveram os pesquisadores.” O método de classificação etária proposto alcança novos resultados de última geração, com uma melhoria na precisão de 8,6% (exato) e 3,4% (pontual) em relação ao melhor resultado relatado no conjunto de dados OUI-Adience “.

No futuro, a nova arquitetura baseada na CNN desenvolvida por esses pesquisadores poderá permitir implementações de estimativa de idade mais eficazes em uma variedade de configurações da vida real. A equipe também planeja adicionar camadas ao modelo e treiná-lo em outros conjuntos de dados de imagens de rosto tiradas em ambientes não controlados assim que estiverem disponíveis, a fim de melhorar ainda mais seu desempenho.

Mais Informações:

Olatunbosun Agbo-Ajala et al. Age Estimation of Real-Time Faces Using Convolutional Neural Network, Computational Collective Intelligence (2019). DOI: 10.1007/978-3-030-28377-3_26

Fonte:

Tech Xplore

Machine Learning

Comparando Classificadores: Árvores de Decisão, K-NN e Naive Bayes

Autor do post Por Insight Lab
Data de publicação 24 de setembro de 2019

Existe uma infinidade de opções para classificação. Em geral, não existe uma única opção “melhor” para todas as situações. Dito isto, três métodos populares de classificação – Decision Trees, k-NN e Naive Bayes – podem ser aprimorados para praticamente todas as situações.

visão global

Naive Bayes e K-NN, são dois exemplos de aprendizado supervisionado (onde os dados já vêm rotulados). Árvores de decisão são fáceis de usar para pequenas quantidades de classes. Se você está tentando decidir entre os três, sua melhor opção é levar todos os três para um test drive em seus dados e ver qual produz os melhores resultados.

Se você é novo na classificação, uma árvore de decisão é provavelmente o seu melhor ponto de partida. Isso lhe dará um visual claro e é ideal para entender o que a classificação está realmente fazendo. K-NN vem em um segundo próximo; Embora a matemática por trás disso seja um pouco assustadora, você ainda pode criar um visual do processo do vizinho mais próximo para entender o processo. Finalmente, você vai querer cavar na Naive Bayes. A matemática é complexa, mas o resultado é um processo altamente preciso e rápido – especialmente quando você está lidando com Big Data.

Onde Bayes se destaca

1. Naive Bayes é um classificador linear enquanto K-NN não é; Tende a ser mais rápido quando aplicado a big data. Em comparação, k-nn geralmente é mais lento para grandes quantidades de dados, devido aos cálculos necessários para cada nova etapa do processo. Se a velocidade for importante, escolha Naive Bayes sobre K-NN.

2. Em geral, Naive Bayes é altamente acurado quando aplicado a big data. Não desconsidere o K-NN quando se trata de precisão; como o valor de k no K-NN aumenta, a taxa de erro diminui até atingir a do Bayes ideal (para k → ∞).

3. Naive Bayes oferece a você dois hiperparâmetros para ajustar para suavização: alfa e beta. Um hiperparâmetro é um parâmetro anterior que é ajustado no conjunto de treinamento para otimizá-lo. Em comparação, o K-NN tem apenas uma opção de ajuste: o “k”Ou número de vizinhos.

4. Este método não é afetado pelo maldição da dimensionalidade e euconjuntos de recursos arge, enquanto o K-NN tem problemas com ambos.

5. Para tarefas como robótica e visão computacional, Bayes supera árvores de decisão.

Onde K-NN se destaca

1. Se tiver independência condicional Se você tiver uma classificação de afeto altamente negativo, escolha K-NN em vez de Naive Bayes. Naive Bayes pode sofrer com a problema de probabilidade zero; quando a probabilidade condicional de um atributo específico for igual a zero, o Naive Bayes falhará completamente em produzir uma previsão válida. Isso poderia ser corrigido usando um estimador Laplaciano, mas o K-NN poderia acabar sendo a escolha mais fácil.

2. Naive Bayes só funcionará se o limite de decisão é linear, elíptico ou parabólico. Caso contrário, escolha K-NN.

3. Naive Bayes requer que você conheça o subjacente distribuições de probabilidade para categorias. O algoritmo compara todos os outros classificadores contra esse ideal. Portanto, a menos que você conheça probabilidades e pdfs, o uso do Bayes ideal não é realista. Em comparação, o K-NN não exige que você saiba nada sobre as distribuições de probabilidade subjacentes.

4. O K-NN não requer nenhum Treinamento– você apenas carrega o conjunto de dados e ele é executado. Por outro lado, Naive Bayes requer treinamento.

5. O K-NN (e Naive Bayes) superam as árvores de decisão quando se trata de ocorrências raras. Por exemplo, se você está classificando tipos de câncer na população em geral, muitos tipos de câncer são bastante raros. Uma árvore de decisão quase certamente removerá essas classes importantes do seu modelo. Se você tiver ocorrências raras, evite usar árvores de decisão.

Onde árvores de decisão se destacam

Imagem: Árvore de decisão para um credor hipotecário.

1. Dos três métodos, as árvores de decisão são as mais fácil de explicar e entender. A maioria das pessoas entende árvores hierárquicas, e a disponibilidade de um diagrama claro pode ajudá-lo a comunicar seus resultados. Por outro lado, a matemática subjacente ao Teorema de Bayes pode ser muito difícil de entender para o leigo. K-NN se encontra em algum lugar no meio; Teoricamente, você pode reduzir o processo K-NN a um gráfico intuitivo, mesmo que o mecanismo subjacente esteja provavelmente além do nível de entendimento de um leigo.

2. As árvores de decisão têm recursos fáceis de usar para identificar as dimensões mais significativas, lidar com valores ausentes e lidar com valores discrepantes.

3. Embora excessivo Como é um grande problema com as árvores de decisão, a questão poderia (pelo menos em teoria) ser evitada usando árvores reforçadas ou florestas aleatórias. Em muitas situações, o reforço ou florestas aleatórias podem resultar em árvores com desempenho superior a Bayes ou K-NN. A desvantagem desses complementos é que eles adicionam uma camada de complexidade à tarefa e diminuem a grande vantagem do método, que é sua simplicidade.

Mais galhos em uma árvore levam a uma chance maior de adaptação excessiva. Portanto, as árvores de decisão funcionam melhor para um pequeno número de aulas. Por exemplo, a imagem acima resulta apenas em duas classes: continue ou não prossiga.

4. Ao contrário de Bayes e K-NN, as árvores de decisão podem trabalhar diretamente de um tabela de dados, sem qualquer trabalho prévio de design.

5. Se você não conhece seus classificadores, uma árvore de decisão será escolha esses classificadores para você de uma tabela de dados. Naive Bayes requer que você conheça seus classificadores com antecedência.

Referências

Árvore de decisão vs. classificador Naive Bayes

Comparação entre o Naive Basian e o K-NN Classifier

Fazendo ciência de dados: conversa direta da linha de frente

Uma Introdução ao Aprendizado de Máquina

Classificadores de aprendizado de máquina

Fonte:

Data Science Central

Python

Python para iniciantes (e gratuito): Microsoft lança tutorial no YouTube

Autor do post Por Insight Lab
Data de publicação 23 de setembro de 2019

Considerada a 3ª linguagem “mais amada” pelos desenvolvedores segundo pesquisa do Stack Overflow, o Python está entre as 5 linguagens mais populares por exigir poucas linhas de código e não ter uma leitura complicada, se comparada com programas semelhantes. Até por isso, pode ser considerada uma boa opção para ser “porta de entrada” para quem deseja se aventurar por esse mundo.

Para quem possui esse interesse e domina o inglês, temos novidades: o canal da Microsoft para Desenvolvedores lançou um módulo básico de estudo da linguagem. De acordo com os profissionais responsáveis por desenvolver as aulas, a ideia é fornecer conceitos concretos o suficiente para que, ao final das aulas, o “aluno” consiga por conta própria desenvolver as habilidades adquiridas.

Os vídeos são curtos (com duração máxima de 14 minutos) e apresentam conceitos como Machine Learning para aplicativos, apps desenvolvidos para web e automação de processos em computadores. Nas últimas aulas, a equipe disponibiliza conteúdos como livros e tutoriais que podem ser usados como referência

Cursos de Python em português e com diferentes formatos

Apesar de prático, o curso tem como limitadores o idioma e ser intensamente focado em vídeos. Para quem deseja entender mais sobre a plataforma e gostaria de outras opções preparamos recentemente uma matéria com 5 cursos on-line gratuitos sobre Python.

Fonte: Computerworld

Cursos

Estão abertas as inscrições para curso de Introdução ao Docker

Autor do post Por Insight Lab
Data de publicação 20 de setembro de 2019

Estão abertas as inscrições para mais um curso do Insight Lab, desta vez sobre INTRODUÇÃO AO DOCKER.

O curso acontece no laboratório 2 do bloco acadêmico da UFC Virtual, sábado, 28 de setembro, de 8h às 12h e 14h às 18h.

Para participar você precisa:

✔️ Ser aluno ou servidor da UFC, mediante a comprovação de vínculo atual.

✔️ Preencher o formulário de inscrição.

✔️ Realizar uma doação mínima de R$10,00 ao projeto social Pirambu Digital.

⚠️ Não perca essa oportunidade, são apenas 30 vagas.

Deep Learning

Detecção de Objetos Usando Aprendizado Profundo: R-CNN, YOLO, SSD

Autor do post Por Insight Lab
Data de publicação 19 de setembro de 2019

Neste post, explicarei a detecção de objetos e vários algoritmos como Faster R-CNN, YOLO, SSD. Começaremos do nível dos iniciantes e avançaremos até o estado da arte na detecção de objetos, entendendo a intuição, a abordagem e as principais características de cada método.

O que é classificação de imagem?

A classificação da imagem obtém uma imagem e prevê o objeto em uma imagem.

O problema de identificar a localização de um objeto (dada a classe) em uma imagem é chamado de localização. No entanto, se a classe de objeto não for conhecida, precisamos não apenas determinar a localização, mas também prever a classe de cada objeto.

Prever a localização do objeto junto com a classe é chamado de detecção de objeto. Em vez de prever a classe de objeto a partir de uma imagem, agora precisamos prever a classe e também um retângulo (chamado caixa delimitadora) contendo esse objeto. São necessárias 4 variáveis para identificar exclusivamente um retângulo. Portanto, para cada instância do objeto na imagem, preveremos as seguintes variáveis:

class_name,
bounding_box_top_left_x_coordinate,
bounding_box_top_left_y_coordinate,
bounding_box_width,
bounding_box_height

Este artigo explica as seguintes técnicas:

Object Detection using Hog Features
Region-based Convolutional Neural Networks(R-CNN)
Spatial Pyramid Pooling(SPP-net)
Fast R-CNN
Faster R-CNN and Regression-based Detectors
YOLO(You only Look Once)
Single Shot Detector(SSD)

O artigo completo está disponível aqui.

Fonte:

Data Science Central

Aplicativo Biometria Ceará Segurança

Foragido de cadeia é identificado por meio de aplicativo desenvolvido pela SSPDS e UFC

Autor do post Por Insight Lab
Data de publicação 18 de setembro de 2019

Servidores do Laboratório de Identificação de Desconhecidos (LID) da Coordenadoria de Identificação Humana e Perícias Biométricas (CIHBP), da Perícia Forense do Estado do Ceará (Pefoce), realizaram a identificação de um homem suspeito de ser fugitivo da cadeia pública de Pacajus, nessa segunda-feira (16). A identificação foi realizada por meio do aplicativo do Portal de Comando Avançado (PCA), que foi desenvolvido pela Secretaria da Segurança Pública e Defesa Social (SSPDS) em parceria com a Universidade Federal do Ceará (UFC).

De acordo com o servidor da Pefoce, Humberto Quezado, do LID, a Pefoce foi acionada para realizar a identificação de um paciente, que deu entrada no hospital Universitário Walter Cantídio, localizado no bairro Rodolfo Teófilo. O homem foi deixado por uma pessoa, que também não se identificou. O acompanhante apenas deu um suposto nome, que seria do paciente, e foi embora.

Porém, ao realizarem uma busca no PCA, as impressões digitais do paciente foram verificadas junto ao banco de dados civil. Com isso, foi possível chegar ao nome do homem, sendo este identificado por Narcílio Cavalcante (23). Ainda de acordo com Humberto Quezado, a pesquisa apontou que o homem possui ficha criminal e passagem na Polícia Civil por roubo. Além disso, Narcílio é fugitivo da cadeia pública de Pacajus, onde estava preso aguardando julgamento. A fuga teria ocorrido no ano de 2016.

Aplicativo

O aplicativo Portal de Comando Avançado foi desenvolvido pela Secretaria da Segurança Pública e Defesa Social (SSPDS), em parceria com a Universidade Federal do Ceará (UFC), com o objetivo de fornecer informações gerenciais para a área operacional e administrativa da SSPDS. Desta forma, a ferramenta integra os serviços disponibilizados para os servidores da Policia Militar, Policia Civil, Corpo de Bombeiros e Perícia Forense.

Fonte:

Governo do Estado do Ceará

Ciência de Dados Python

Por que o Python é a Linguagem mais adotada na área de Data Science ?

Autor do post Por Insight Lab
Data de publicação 18 de setembro de 2019

Data Science ganhou muita popularidade nos últimos anos. O foco principal deste campo é converter dados significativos em valores para o negócio que ajudam as empresas a crescer.

Os dados são armazenados e pesquisados para entrar em uma solução lógica.

Anteriormente, apenas as principais empresas de TI estavam envolvidas nesse campo, mas, atualmente, organizações de vários setores e áreas, como comércio eletrônico, assistência médica, finanças e outras, estão usando Data Science para aumentar sua competitividade.

Existem várias ferramentas disponíveis para análise de dados, como Hadoop, programação R, SAS, SQL, entre outras.

No entanto, a técnologia mais popular e fácil de usar para análise de dados é a linguagem Python. Essa tecnologia é conhecida como um canivete suíço do mundo da programação porque suporta programação estruturada, codificação orientada a objetos, além ser de uma linguagem de programação funcional e ter outras funções.

De acordo com a pesquisa do StackOverflow, de 2018, Python é a linguagem de programação mais popular do mundo e também é a mais adequada para ferramentas e aplicativos de Data Science.

Por isso, preparei o artigo a seguir com os principais motivos pelos quais Python é a linguagem mais adotada pelos principais cientistas e centros da área de Data Science mundial.

Confira!

A importância da Data Science

Elaboramos um breve resumo sobre o que é Data Science na introdução deste artigo, mas precisamos nos aprofundar um pouco mais nos conceitos relacionados à análise de dados antes de prosseguir falando sobre as vantagens do Python sobre outras linguagens.

Durante toda a história da civilização, os dados que tínhamos eram, na maior parte, estruturados e pequenos em tamanho, podendo ser analisados com ferramentas simples. Ao contrário dos dados nos sistemas tradicionais, que eram na sua maioria estruturados, hoje a maioria dos dados é não estruturada ou semiestruturada.

Estimativas indicam que até 2020, mais de 80% dos dados serão desestruturados.

Esses dados são gerados de diferentes fontes, como registros financeiros, arquivos de texto, formulários, sensores e instrumentos.

Ferramentas simples não são capazes de processar esse enorme volume e variedade de dados. É por isso que precisamos de soluções mais complexas e algoritmos analíticos avançados para processar, analisar e extrair insights significativos.

No entanto, esta não é a única razão pela qual Data Science se tornou tão popular e relevante.

E se você pudesse entender exatamente o que os seus clientes precisam a partir dos dados existentes, como histórico de navegação, histórico de compras, idade e renda, sem dúvida, você já teria todos esses dados antes.

Mas agora é possível treinar modelos com mais eficácia e recomendar o produto aos seus clientes com mais precisão a partir da grande quantidade e variedade de informações disponíveis. Incrível, certo?

Vamos imaginar um cenário futurista para entender o papel da Ciência de Dados na tomada de decisões.

E se o seu carro tivesse inteligência para levá-lo para casa? Os carros autônomos coletam dados ao vivo de sensores, radares, câmeras e lasers, para criar um mapa dos arredores.

Com base nesses dados, ele toma decisões sobre quando acelerar, quando diminuir, quando ultrapassar e onde fazer uma curva, usando algoritmos avançados de Machine Learning.

Data Science também pode ser usada em modelos de análises preditivas. Vamos pegar a previsão do tempo como um exemplo.

Dados de navios, aeronaves, radares, satélites podem ser coletados e analisados para construir modelos. Esses modelos não apenas preveem o clima, mas também ajudam a prever a ocorrência de quaisquer calamidades naturais. Isso ajudará você a tomar as medidas apropriadas de antemão e a salvar vidas.

Agora que você entendeu a necessidade da Ciência de Dados, vamos entender o que é, de fato, Data Science.

Data Science é uma mistura de várias ferramentas, algoritmos e princípios de aprendizado de máquina com o objetivo de descobrir padrões ocultos a partir dos dados brutos. Como isso é diferente do que os estatísticos vêm fazendo há anos? A resposta está na diferença entre explicar e prever.

Um analista de dados geralmente explica o que está acontecendo ao processar o histórico dos dados. Por sua vez, um Data Scientist não só faz a análise exploratória para descobrir padrões relevantes a partir dela, mas também usa vários algoritmos avançados de Machine Learning para identificar a ocorrência de um evento particular no futuro.

Um cientista de dados examinará os dados de muitos ângulos — em muitos casos, abordagens que não eram possíveis anteriormente.

Portanto, a Data Science é usada principalmente para tomar decisões e prever cenários que usam a análise causativa preditiva, a análise prescritiva (ciência preditiva somada à decisão) e o aprendizado de máquina (Machine Learning).

Análise causativa preditiva

Se você quiser um modelo que possa prever as possibilidades de um determinado evento no futuro, será necessário aplicar a análise causativa preditiva.

Se uma empresa tem seu modelo de negócios estruturado em torno da concessão de empréstimos, então a probabilidade de os clientes fazerem pagamentos desse crédito em dia é motivo de preocupação constante para essa empresa.

Com a análise causativa preditiva, é possível criar um modelo que possa executar análises no histórico de pagamento dos clientes para prever se os pagamentos futuros serão pontuais ou não.

Análise prescritiva

Se você quiser um modelo que tenha a inteligência de tomar suas próprias decisões e a capacidade de modificar essas decisões com parâmetros dinâmicos, certamente precisará de uma análise prescritiva.

Esse campo relativamente novo está relacionado com a previsão e sugestão de uma gama de ações prescritas e resultados associados.

O melhor exemplo disso é o carro autônomo do Google. Os dados recolhidos pelos veículos podem ser usados para treinar outros carros autônomos. Além disso, você pode executar algoritmos nesses dados para adicionar inteligência a eles.

Isso permitirá que seu carro tome decisões como quando virar, qual caminho tomar, quando desacelerar ou estacionar.

Machine Learning

Se você tiver dados de uma empresa financeira e precisar criar um modelo para determinar as tendências para negociações futuras, os algoritmos de aprendizado de máquina serão a melhor opção.

Isso se enquadra no conceito de Machine Learning Supervisionado, porque você já tem os dados com base nos quais pode treinar suas máquinas.

Por exemplo, um modelo de detecção de fraude pode ser treinado, usando-se um registro do histórico de fraudes em um determinado período.

Se você não tiver os parâmetros com base nos quais pode fazer previsões, precisará descobrir os padrões ocultos no conjunto de dados para poder fazer previsões significativas.

Este é o modelo de Machine Learning Não Supervisionado, pois você não tem rótulos predefinidos para agrupamento.

Agora que você conhece as principais características e funções da Data Science, vamos abordar como a Python tem revolucionada o modo como as organizações e a academia têm aplicado a ciência de dados nos mais variados campos.

Python: perfeita para Data Science

A Python tem um atributo único entre outras linguagens de programação: é fácil de usar quando se trata de computação quantitativa e analítica. É a linguagem líder do setor há algum tempo e está sendo amplamente utilizada em vários campos, como petróleo e gás, processamento de sinal, finanças e outros.

Além disso, a Python foi usada para fortalecer a infraestrutura interna do Google e para criar aplicativos como o YouTube.

Python é amplamente utilizado por ser uma linguagem flexível e de código aberto.

Suas enormes bibliotecas são usadas para manipulação de dados e são muito fáceis de aprender, mesmo para um analista de dados iniciante.

Além de ser uma plataforma independente, também se integra facilmente a qualquer infraestrutura existente que possa ser usada para resolver os problemas mais complexos.

A maioria dos bancos e instituições financeiras usa Python para processar dados; instituições acadêmicas e centros de pesquisa usam a linguagem para visualização e processamento de informações; empresas de previsão do tempo, de construção de modelos financeiros e corretoras de seguros também a usam.

Mas, você deve estar se perguntando: afinal, por que a Python é a preferida em relação a outras ferramentas de ciência de dados?

Poderosa e fácil de usar

Python é considerada uma linguagem para iniciantes e qualquer aluno ou pesquisador com conhecimento básico pode começar a trabalhar com ela. O tempo gasto em códigos de depuração e em várias restrições de engenharia de software também é minimizado.

Em comparação com outras linguagens de programação, como C, Java e C #, o tempo para implementação de código é menor, o que ajuda desenvolvedores e engenheiros de software a dedicar mais tempo para trabalhar em seus algoritmos.

Opções de bibliotecas

Python fornece um banco de dados massivo de bibliotecas para inteligência artificial e aprendizado de máquina. Algumas das bibliotecas mais populares incluem Scikit Learn, TensorFlow, Seaborn, Pytorch, Matplotlib, Pandas e muito mais.

Muitos tutoriais e recursos de ciência de dados e aprendizado de máquina estão disponíveis on-line e podem ser acessados facilmente.

Escalabilidade

Em comparação a outras linguagens de programação, como R, Python se mostrou como uma linguagem altamente escalável e mais rápida. Ela fornece flexibilidade para resolver problemas que não podem ser resolvidos usando outras linguagens de programação.

Muitas empresas a utilizam para desenvolver aplicativos e ferramentas rápidas para os mais variados cenários.

Visualização e gráficos

Existem várias opções de visualização disponíveis utilizando Python. Sua biblioteca Matplotlib fornece uma base sólida em torno da qual outras bibliotecas como Plotly, Seaborn e outras são construídas.

Esses pacotes ajudam a criar tabelas, gráficos prontos para a web, layouts gráficos, entre outros tipos de visualização.

Como Python é usada em cada estágio da Data Science?

A primeira fase

Em primeiro lugar, precisamos saber e entender que tipo de formulário é um dado relevante. Se considerarmos os dados como uma enorme planilha de Excel, com milhares de linhas e colunas, você sabe o que fazer com ela?

Você precisa obter informações úteis executando algumas funções e procurando um tipo específico de dados em cada linha e coluna. Completar esse tipo de tarefa pode consumir muito tempo e trabalho duro, mas você pode usar as bibliotecas Python como Pandas e Numpy para executar rapidamente o trabalho usando o processamento paralelo.

A segunda fase

O próximo obstáculo é extrair os dados necessários. Como os dados nem sempre estão disponíveis imediatamente, precisamos coletar dados da Web. Aqui as bibliotecas Python Scrapy e do BeautifulSoup podem ajudar a extrair dados da internet de forma simples e rápida.

A terceira fase

Nesse estágio, precisamos obter a visualização ou representação gráfica dos dados, mas pode ser difícil extrair as informações de que você precisa com tantos números na tela.

A melhor maneira de fazer isso é representar os dados como gráficos. Para executar essa função, são utilizadas as bibliotecas Seaborn e Matplotlib.

A quarta fase

O próximo passo é o aprendizado de máquina, que é uma técnica computacional altamente complexa. Envolve ferramentas matemáticas como funções de probabilidade, cálculo e matrizes avançadas.

Tudo isso pode se tornar superfácil e eficiente usando a biblioteca de aprendizado de máquina Scikit-Learn.

Todas as etapas discutidas foram de dados na forma de texto, mas, e se estiverem na forma de imagens?

Python está bem equipada para lidar com esse tipo de operação também. Existe uma biblioteca open source chamada opencv que é dedicada apenas ao processamento de imagens e vídeos.

Explicando a popularidade do Python em grupos e comunidades de Data Science

A alta compatibilidade e sua sintaxe fácil de usar a tornam a linguagem mais popular nas comunidades e grupos de Data Science, e aqueles que não têm experiência em engenharia e ciências podem aprender a codificar em um curto espaço de tempo.

Python é mais adequada para prototipagem e aprendizado de máquina, e existem muitas opções de cursos on-line adequados para iniciantes. A versatilidade e facilidade de compreensão fazem do Python a ferramenta mais procurada pelas grandes organizações em um profissional de Data Science.

Os cientistas e engenheiros de Machine Learning também preferem Python para criar aplicativos e ferramentas, como análise de sentimento e o processamento de linguagem natural.

Gostou do nosso artigo? Então descubra outros interessantes no nosso blog!

E não perca a oportunidade de assinar a nossa lista de e-mail para continuar atualizado sobre as principais novidades do mundo da Data Science.

Me fale também o que achou do artigo nos comentários abaixo, será um prazer interagir com você!

Um forte abraço.

Fonte:

Minerando Dados

Ciência de Dados

Conheça esses 4 cursos on-line gratuitos sobre Ciência de Dados

Autor do post Por Insight Lab
Data de publicação 17 de setembro de 2019

O profissional que atua em Ciência de Dados tem sido cada vez mais demandado pela indústria de tecnologia, à medida que mais empresas realizam a chamada transformação digital.

Mas, afinal, o que um cientista de dados precisa saber? Além de conhecimentos em programação, ele precisa saber criar modelos estatístico e ter o conhecimento e domínio apropriado de negócios. Precisa ainda compreender as diferentes plataformas de Big Data e como elas funcionam.

Criatividade também é uma habilidade necessário ao cientista de dados, pois ele deverá construir gráficos bonitos e informativos, com boa visualização e que possam ser compreendidos pelos clientes. A formação em ciência de dados é multidisciplinar e nunca acaba. A boa notícia é que você pode se especializar sem sair de casa.

Confira abaixo algumas opções de qualificação gratuita na área indicadas pela gerente responsável pela Escola de Data Science e AI da Udacity, Ana Romeo.

1. Data Science: Visualização

O profissional aprenderá com um instrutor da Harvard University quais são os princípios de visualização de dados para comunicar resultados de forma precisa, motivar análises e detectar falhas.

Quem oferece: edX

Preço: gratuito ou $49,00 para adquirir o certificado

2. As ferramentas do Cientista de Dados

Ao longo de quatro semanas, o curso apresentará quais as principais ideias e ferramentas nas quais se baseiam essa área de atuação. Os exercícios práticos envolvem linguagens e frameworks como markdown, git, GitHub, R e RStudio

Quem oferece: Coursera

Preço: gratuito

3. Introdução à Ciência de Dados

O curso ensinará como manipular dados, trabalhar com big data e realizar uma comunicação clara a partir da visualização de informações, possibilitando que o aluno experimente e aplique as técnicas básicas da ciência de dados.

Quem oferece: Udacity

Preço: gratuito

4. Microsoft Power BI para Data Science

Esse conjunto de ferramentas de Business Analytics fornece insights para empresas e tomadores de decisão. O curso ensina a produzir relatórios profissionais e a publicá-los para consumo online (web e mobile), além de explicar como criar dashboards personalizados.

Quem oferece: Data Science Academy

Preço: gratuito

Fonte: Computerworld

Ciência de Dados Machine Learning Programação Python

Python: 10 motivos para aprender a linguagem em 2019

Autor do post Por Insight Lab
Data de publicação 16 de setembro de 2019
Nenhum comentário em Python: 10 motivos para aprender a linguagem em 2019

O Python é uma linguagem de programação de alto nível e muito versátil. Ela suporta tanto a programação orientada a objetos quanto a programação estruturada. Com Python, você pode acessar bibliotecas nativas que oferecem funcionalidades para desenvolvimento de projetos e implementação de aplicações complexas. A tecnologia está presente nos códigos do Instagram, Netflix, Spotify, Reddit, Facebook, Google e muitos outros.

Desenvolvida pelo matemático holandês Guido van Rossum, atualmente a linguagem faz parte de um modelo de desenvolvimento comunitário, gerenciado pela organização sem fins lucrativos Python Software Foundation.

Lançada no começo dos anos 1990, a linguagem tem ganhado crescente notoriedade nos últimos anos, tornando-se uma das mais populares entre programadores, principalmente pela sua funcionalidade com dados, big data e inteligência artificial.

Pensando em todo o seu potencial para a sua carreira, na lista abaixo, a redação do IT Trends separou 10 motivos para aprender Python em 2019.

1. Python é muito popular

O IEEE Spectrum 2018, ranking anual das principais linguagens de programação, definiu o Python como uma das linguagens mais usadas entre programadores e projetos.

2. Conhecimentos em Python são exigidos por muitas vagas

Embora Python seja uma linguagem extremamente popular, ainda faltam desenvolvedores com conhecimento da tecnologia no mercado de trabalho. Saber Python pode não só contar como critério de desempate, como também é um conhecimento muito valorizado por empresas, principalmente para posições de desenvolvedor full-stack.

3. Python tem muitas bibliotecas e estruturas

Há mais de 125.000 bibliotecas Python de terceiros que tornam a linguagem extremamente popular em diversos campos do desenvolvimento web, configuração de nuvem, análise de dados, machine learning e inteligência artificial. Sua versatilidade reforça a sua quase onipresença atual.

4. Python e a ciência de dados

Dentro do universo da ciência de dados, Python é a linguagem mais popular entre os cientistas, analistas e pesquisadores. Um dos principais motivos é que ela fornece muitas bibliotecas e estruturas para a análise de dados, como PyBrain, NumPy, SymPy, PyMySQL, Pandas e outros. Todas essas bibliotecas são dedicadas para o desenvolvimento de algoritmos, coleta e análise de dados.

5. Inteligência artificial e machine learning

Além de muito usada na ciência de dados, há também muitas bibliotecas eficientes na programação de inteligência artificial e machine learning. Theano, Scikit-learn, Tensorflow estão entre os módulos mais usados para algoritmos de machine learning. Já o Keras, é uma biblioteca de rede neural open source dedicada para aplicações de inteligência artificial.

6. Python é usado no desenvolvimento da Web

Mesmo com características muito técnicas, Python é bastante útil e popular entre desenvolvedores web, pois também possui bibliotecas e estruturas específicas para o desenvolvimento de páginas web, como Django, web2py, Flask, bottle.py, CherryPy, Pyramid e outros. As aplicações Mozilla, Reddit, Spotify, Yelp foram desenvolvidas com ajuda de bibliotecas em Python.

7. Python é universal

Sistemas como Windows, MacOs, distribuições Linux (incluindo Raspberry PI), Solaris, Unix e até FreeBSD conseguem operar programas em Python, se um sistema não roda Python de forma nativa é possível instalar a tecnologia. Veja as opções de sistemas alternativos que suportam a tecnologia aqui.

8. Uma grande comunidade

Há muito conteúdo sobre a linguagem criado por usuários como, documentação, Python Wiki, Fóruns, cursos gratuitos e tutoriais, sendo assim, é possível encontrar praticamente qualquer resposta para suas dúvidas relacionadas à tecnologia em canais oficiais da linguagem.

9. Python é usado para criar interfaces gráficas de usuário (GUI)

Python também é muito utilizado para criar interfaces gráficas de usuário (GUI). Tkinter é a interface de usuário (GUI) padrão da tecnologia, que foi usada na criação da GUI nativa do MaC OS X, distribuições Linux e Windows.

10. Python é usado para “Scripting and Automation”

Além de uma poderosa linguagem de programação, capaz de fazer uma variedade de programas complexos, Python também pode ser usado como uma linguagem de scripts. Um script feito em Python pode automatizar diferentes tarefas que reduzem o tempo de processos, economizando energia e em alguns casos até dinheiro.

Onde aprender Python?

Agora você já sabe os motivos para aprender Python. Mas por onde começar a aprender a linguagem? Reunimos em outra matéria, algumas opções para uma imersão inicial e, o melhor, você não precisa sair de casa para aprender. Acesse a lista aqui.

Fonte: Computerworld

Tags ciência de dados, inteligência artificial, machine learning, python

Big Data Ceará

Ministério da Justiça entrega plataforma de Big Data e Inteligência Artificial desenvolvida pela UFC

Autor do post Por Insight Lab
Data de publicação 22 de agosto de 2019
Nenhum comentário em Ministério da Justiça entrega plataforma de Big Data e Inteligência Artificial desenvolvida pela UFC

O Ministério da Justiça e Segurança Pública entregou, nesta terça-feira (20), durante o Seminário de Boas Práticas em Tecnologia da Informação Voltadas à Segurança Pública, as primeiras ferramentas do Projeto de Big Data e Inteligência Artificial aos cinco estados que participarão do “Em Frente Brasil”, projeto-piloto de enfrentamento à criminalidade violenta. O projeto será lançado pelo governo federal nos próximos dias.

Além do Espírito Santo, Goiás, Pará, Paraná e Pernambuco, Ceará também receberá a ferramenta, já que ela foi desenvolvida, a pedido do Ministério da Justiça e Segurança Pública, pela Universidade Federal do Ceará (UFC) com base em uma prática de sucesso adotada pelo Estado.

A ferramenta promove a integração de dados em larga escala para auxiliar na elaboração de políticas públicas contra a criminalidade, as organizações criminosas e a corrupção.

Na prática, agentes de segurança poderão acompanhar as ocorrências de todo o país, buscar informações e ficha criminal de suspeitos, monitorar veículos roubados, atuar no combate ao tráfico nas regiões de fronteiras, além de agir de prontidão na prevenção de assaltos e homicídios.

Até o final do ano, o projeto chega a outros oito estados: Acre, Alagoas, Amapá, Piauí, Rio Grande do Norte, Roraima, Sergipe, Tocantins.

Imagem: Ministério da Justiça e Segurança Pública

Boas práticas

O Big Data e Inteligência artificial, foi inspirado nas boas práticas adotadas na cidade de Fortaleza. A aplicabilidade da tecnologia do Big Data no estado cearense e o investimento no combate ao crime colaborou para a redução no número de roubos e furtos de veículos e no aumento nos índices de recuperação de carros e motocicletas. Há, ainda, registros na redução dos índices criminais.

Atualmente, Fortaleza segue no 14º mês de redução nos crimes violentos letais e intencionais (CVLI) – com 866 vidas salvas em 2019. Além dos crimes contra a vida, o estado tem obtido, nos últimos 23 meses, queda nos índices de crimes violentos contra o patrimônio (CVP).

A entrega também foi noticiada no programa A voz do Brasil, confira:

https://rapaduratech.com.br/wp-content/uploads/2019/08/insight-voz-brasil.mp3?_=1

Fonte: Ministério da Justiça e Segurança Pública