Você já possui ou está iniciando um portfólio de projetos em Data Science? Com um portfólio, o profissional se mostra presente e atuante na comunidade global de cientista de dados e também faz uso de mais uma ferramenta que mostra ao mercado suas habilidades na área.
Muitas vezes na construção do portfólio, surgem dúvidas sobre como organizar o processo de desenvolvimento dos projetos. Essas dúvidas são bem vindas, mostram o seu planejamento e a busca para tornar seu trabalho mais consistente e coerente, um trabalho com sentido e direção.
Para te ajudar, hoje vamos apresentar e esclarecer 6 etapas para fortalecer seu portfólio de Ciência de Dados.
Antes do tópico 1, precisamos relembrar de uma característica que todo cientista de dados deve ter: paixão pela área! Sim, a Ciência de Dados é uma área fascinante, com estudos de impacto inquestionável nos mais diferentes âmbitos e com profissionais muito valorizados, mas, sendo a conjunção entre Matemática, Estatística e Computação, é uma ciência complexa e que exige dedicação e estudo constantes. Se o amor pela área você já tem, pode seguir a leitura.
1. Definição do Problema
O passo inicial do seu projeto deve ser a boa definição do problema a ser resolvido e, assim, traçar a melhor estratégia para solucioná-lo. Você deve esquadrinhar o problema selecionado para definir as técnicas estatísticas e de machine learning que serão empregadas, sempre guiando seu processo pela questão: qual o valor e impacto do que eu estou fazendo?
A escolha do conjunto de dados a ser usado é também um ponto da fase de definição do problema. No Kaggle, por exemplo, existem diversos projetos e datasets que podem ser utilizados como base para seu projeto. Veja a lista de sites para baixar dados gratuitamente que nós criamos:
Entretanto, na indústria, muitas vezes um dos grandes desafios do cientista de dados é exatamente converter um problema de negócios em um problema de ciência de dados. Nesse sentido, algo interessante a se fazer é, em vez de utilizar algum problema ou dataset já existentes, definir seu próprio problema e, consequentemente, construir seu próprio banco de dados. Apesar de gastar algum tempo coletando os dados, essa etapa te ajudará a pensar na melhor maneira de coletar e reunir informações, e você estará aprendendo uma parte que nem sempre é ensinada na escola.
Claro que este último ponto não é obrigatório, mas é interessante realizá-lo porque te ajudará a explicar melhor aos outros seu pensamento estratégico ao enfrentar um problema.
2. Limpeza dos Dados
O segundo passo deve ser a limpeza dos dados. Essa é uma parte que toma um tempo substancial do processo. Nessa etapa, datasets são unidos, são detectadas anomalias (por exemplo, “1”, “2”, “sol”), valores faltantes são identificados e imputados. A limpeza dos dados remove os principais erros e inconsistências no conjunto de dados e garante que os dados estejam prontos para análise.
3. Análise Exploratória dos Dados
Com a limpeza dos dados feita, o próximo passo é analisar. Essa é uma etapa extremamente importante porque lhe permite entender seus dados e fazer descobertas. Frequentemente, uma boa análise descritiva permite formular hipóteses e questões relevantes, utilizando medidas estatísticas (média, variância, correlação) e visualização (histogramas, box plots, gráficos de dispersão). Nesta parte, você:
(a) saberá a natureza de cada variável (qualitativa ou quantitativa);
(b) saberá qual a distribuição de cada uma;
(c) descobrirá se existem e quem são os outliers;
(d) identificará a relação entre as variáveis.
Muito mais pode ser feito durante este momento do processo. O essencial é mostrar sua capacidade em buscar e identificar nos dados coisas que outras pessoas podem não ter percebido, e tornar os modelos ajustados posteriormente ainda melhores.
4. Visualização Interativa dos Dados
Use gráficos apropriados para cada tipo de variável. Tente apresentar gráficos que capturem os olhos, mas que sejam simples e compreensíveis. Visualizações interativas incluem ferramentas como dashboards, que são uma maneira rápida e fácil de interagir com os dados. Uma boa visualização permite comunicar de forma clara o que há nos dados e o leva a ter insights adicionais.
Neste ponto você irá literalmente desenhar o que há nos dados.
5. Machine Learning
A aplicação de modelos estatísticos e machine learning é um ponto imprescindível na criação do seu portfólio. Inicialmente, não precisa ser algo muito complexo. Você pode escolher um modelo mais simples, como regressão linear e logística que são mais fáceis de ajustar e interpretar. Eles podem servir como uma base para avaliar seus próximos modelos.
Em seguida, crie um modelo baseado em machine learning, descreva como foi a escolha, compare com aqueles mais simples, ajustados anteriormente, e veja quais os problemas com seu último ajuste. Construa um segundo modelo de machine learning. Explique, nesta etapa, por que ele é melhor do que o anterior. O primeiro não estava bem ajustado, você precisava de um modelo menos complexo ou necessitava adicionar algo, como regularização.
Utilize métodos para seleção de modelos, avalie, por exemplo, a acurácia e a capacidade de previsão do seu ajuste. Repita a última etapa até se sentir confortável com os resultados obtidos. No final, seu portfólio terá além de um bom modelo, uma linha do tempo lógica explicando o processo de pensamento e como chegou ao modelo final.
6. Comunicação
A parte final do seu projeto, e que faz toda a diferença, é a comunicação. Você pode construir ótimos modelos, mas se você não for capaz de explicá-los de forma clara e objetiva para os demais, boa parte do seu trabalho pode ser perdida. Com os passos anteriores feitos, você contará uma história.
“Great data scientists are great storytellers”.
Em primeiro lugar, saiba quem é o seu público, explique o que fez de forma clara e em termos simples. Escreva sobre o objetivo do projeto, apresente as principais análises exploratórias, elucide os resultados e impactos da modelagem, e diga o porquê seu projeto tem valor. Você não precisa incluir seu código, mas indiscutivelmente vincule-o ao GitHub.
Aprofunde-se
Essas foram as etapas selecionadas para te ajudar no direcionamento e construção do seu portfólio. E para que você se sinta ainda mais inspirado, conheça estes dois excelentes projetos em Ciência de Dados:
- Os projetos criados pelos estudantes de Stanford na turma de Machine Learning. Aqui, você encontra projetos de caráter acadêmico, mas com excelentes explicações sobre as soluções aplicadas ao problemas de Machine Learning
- Classificador de Lego usando TensorFlow no Raspberry Pi. Aqui, o autor do projeto explica detalhadamente o processo de criação do seu classificador de lego.
Aproveita a sessão de comentários e conte como tem sido seu processo de desenvolvimento de projetos para o portfólio.
Até mais!