Pesquisadores do Insight Lab apresentam seus estudos na BRACIS 2023 e SBBD
Entre os dias 25 a 29 de setembro de 2023 aconteceram dois grandiosos eventos: a Conferência Brasileira em Sistemas Inteligentes (BRACIS) e o Simpósio Brasileiro de Bancos de Dados (SBBD), ambos em Belo Horizonte (MG). E temos muito orgulho de noticiar que os pesquisadores do Insight Lab estiveram presentes entre os destacados cientistas desses eventos para apresentar seus trabalhos.
BRACIS 2023
Sediada neste ano no campus da Universidade Federal de Minas Gerais (UFMG) em Belo Horizonte (MG), o BRACIS é um dos eventos mais importantes do Brasil para pesquisadores interessados em publicar resultados significativos e inéditos em Inteligência Artificial e Computacional. Originou-se da combinação dos dois eventos científicos mais importantes do Brasil em Inteligência Artificial (IA) e Inteligência Computacional (CI): o Simpósio Brasileiro de Inteligência Artificial – SBIA (22 edições), e o Simpósio Brasileiro de Redes Neurais – SBRN (13 edições).
A conferência é um evento anual da Sociedade Brasileira de Computação (SBC), e conta com o apoio dos grupos de interesse especial em Inteligência Artificial (CEIA) e Inteligência Computacional (CEIC), e este ano está sendo organizada também pelo CIIA-Saúde. O evento promove aspectos teóricos e aplicações da Inteligência Artificial e Computacional, bem como incentiva a troca de ideias científicas entre pesquisadores, profissionais, cientistas e indústria.
Simpósio Brasileiro de Bancos de Dados (SBBD)
O Simpósio Brasileiro de Bancos de Dados (SBBD), sediado em 2023 na PUC-Minas (unidade Praça Liberdade), é o evento oficial da Sociedade Brasileira de Computação (SBC) sobre ciência e tecnologia na grande área de bancos de dados. É a principal conferência brasileira e a maior da América Latina sobre ciência de dados e Big Data. O SBBD é promovido anualmente pela Comissão Especial de Bancos de Dados (CEBD) da SBC e envolve as comunidades científica, acadêmica e industrial nacionais e internacionais. O evento abrange questões em gerenciamento de dados, pesquisa de banco de dados e sistemas de informação, ciência de dados, big data e outros tópicos relacionados, considerando os dados como uma pedra angular tecnológica de aplicativos emergentes.
Insight Lab presente!
Os pesquisadores do Insight Lab também compartilharam seus estudos no BRACIS e no SBBD neste ano.
Os insighters Ticiana Linhares Coelho da Silva, José Antonio Fernandes de Macêdo, Luis Gustavo Coutinho do Rêgo, Bárbara Stéphanie Neves Oliveira e Pedro Pereira tiveram seus artigos aceitos e publicados nos Anais do XIV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL). Assim, os pesquisadores estiveram em Belo Horizonte, na BRACIS 2023, para compartilhar e discutir com outros estudiosos e público interessado sobre o processo, resultados e futuros desenvolvimentos dos seus trabalhos.
A seguir, listamos os artigos apresentados pelos nossos colaboradores na BRACIS 2023:
Autores: Luis Gustavo Coutinho do Rêgo, José Antônio F. de Macêdo e Ticiana Linhares Coelho da Silva.
Resumo: A tarefa de compressão de sentenças é essencial no processo de sumarização de textos. Infelizmente, a falta de dados rotulados para domínios específicos restringe o treinamento de modelos de aprendizagem profunda para resolver este problema de forma eficaz. Neste artigo, é apresentada uma abordagem usando um algoritmo de meta-aprendizagem chamado MAML para resolver este problema e avaliar a viabilidade desta técnica para a tarefa dada, com particular ênfase na sua comparação com um modelo BERT ajustado. Os experimentos revelam que uma abordagem mais simples envolvendo o ajuste fino de um modelo de linguagem, como o BERT, pode de fato ser mais eficaz em cenários de poucos recursos, superando consistentemente as técnicas de meta-aprendizado para esta tarefa específica.
Studying the Dependence of Embedding Representations on the Target of NLP Tasks
Autores: Bárbara Stéphanie Neves Oliveira, Ticiana L. Coelho da Silva, José A. F. de Macêdo
Resumo: Em muitas línguas humanas, as unidades linguísticas representam a estrutura do texto. A semântica vetorial é usada na PLN para representar essas unidades, conhecidas como embeddings. Avaliar as representações aprendidas é crucial para identificar diferenças críticas entre os diversos modelos de incorporação existentes na seleção específica de tarefas. Contudo, o processo de avaliação é complexo, com duas abordagens: intrínseca e extrínseca. Embora úteis, as avaliações agregadas muitas vezes carecem de consistência devido ao desalinhamento dos resultados. Este trabalho investiga as dependências e correlações entre embeddings e tarefas de PLN. O objetivo é verificar inicialmente se as dimensões dos embeddings (ou seja, recursos) dependem da tarefa final. O estudo então explora duas questões de pesquisa e apresenta resultados de experimentos.
Uso de modelagem de tópicos para agrupamento de notícias: uma abordagem usando BERTopic
Autores: Pedro Pereira e Ticiana Linhares Coelho da Silva.
Resumo: Hoje há uma grande quantidade de notícias em circulação nas mídias e agrupá-las por assuntos ou tópicos demanda muito tempo. Neste trabalho foi utilizada a técnica de modelagem de tópicos, por meio do BERTopic, para agrupar um conjunto de notícias sob tópicos que reflitam os assuntos delas. Foram utilizadas as headlines de um conjunto de notícias em inglês, de janeiro a setembro de 2022. A partir da modelagem de tópicos foram feitas análises e percebeu-se que o BERTopic tanto consegue representar os tópicos mais noticiados ao longo do ano, como também capturar eventos pontuais em um dado período do ano. A modelagem também se mostrou sensível a variações de contexto das notícias.
Police Report Similarity Search: a case study
Autores: José Alan Firmiano, Ticiana Linhares Coelho da Silva, Atslands Rego da Rocha, Vinícius Monteiro de Lira
Resumo: Vários crimes ocorrem diariamente, e a investigação inicial começa com um boletim de ocorrência. Em cidades com altas taxas de criminalidade, é impraticável esperar que a polícia leia e analise todas as narrativas criminais. Alguns relatórios policiais podem envolver várias vítimas ou o mesmo crime pode ser denunciado mais de uma vez. Além disso, os relatórios policiais podem apresentar semelhanças devido a um \textit{modus operandi} compartilhado. Este estudo aborda o desafio de fornecer um boletim de ocorrência e buscar o boletim mais semelhante no banco de dados. Um boletim de ocorrência semelhante pode ser outro boletim com palavras sobrepostas ou um que compartilhe um \textit{modus operandi} semelhante. Uma solução possível é representar cada relatório policial como um vetor de características e comparar esses vetores usando uma função de similaridade. Diferentes métodos podem ser empregados para representar a narrativa, incluindo vetores incorporados e abordagens baseadas em contagem, como TF-IDF. Esta pesquisa explora o uso de representações de incorporação pré-treinadas tanto no nível de palavras quanto de frases, como Universal Sentence Encoder, Word2Vec, RoBERTa, Doc2Vec, entre outras. Determina-se a representação mais eficaz para capturar semelhanças semânticas e lexicais entre relatórios policiais, comparando diferentes modelos de incorporação. Além disso, compara-se a eficácia dos modelos de incorporação pré-treinados disponíveis com um modelo treinado especificamente em um corpus de relatórios policiais. Outra contribuição deste trabalho é o desenvolvimento de modelos de incorporação treinados especificamente para o domínio de boletins de ocorrência.
O bolsista do Insight Lab Ronildo Oliveira da Silva apresentou a pesquisa “Predição de Tempo Restante para Conclusão de Processos de Negócio Utilizando Aprendizado Profundo” no simpósio SBBD. Conheça alguns detalhes desse artigo publicado nos Anais do XXXVIII Simpósio Brasileiro de Bancos de Dados.
Predição de Tempo Restante para Conclusão de Processos de Negócio Utilizando Aprendizado Profundo
Autores: Ronildo Oliveira da Silva, Regis Pires Magalhães, Lívia Almada Cruz, Criston Pereira de Souza, Davi Romero de Vasconcelos e José Antônio Fernandes de Macêdo
Resumo: A predição eficiente do tempo restante para conclusão de uma instância de processo contribui na prevenção de esperas incertas, descoberta de gargalos em processos e assistência em sistemas de alerta. Este trabalho utiliza arquiteturas de aprendizado profundo baseadas em redes recorrentes para predizer o tempo restante para conclusão de um processo de negócio, que superam soluções do estado da arte. As arquiteturas utilizadas são validadas com dois conjuntos de dados públicos, facilitando a reprodutibilidade dos experimentos.
A participação no BRACIS 2023 e SBBD 2023 não apenas solidifica a posição do Insight Lab como um centro de pesquisa de alto nível, mas também demonstra o compromisso de nossos bolsistas em impulsionar a inovação e contribuir para o avanço da Ciência de Dados e IA no Brasil e além. Parabenizamos nossos bolsistas pelo sucesso e sabemos poder aguardar mais conquistas brilhantes à medida que continuam a contribuir para o futuro da tecnologia.