Detecção de Objetos Usando Aprendizado Profundo: R-CNN, YOLO, SSD

Neste post, explicarei a detecção de objetos e vários algoritmos como Faster R-CNN, YOLO, SSD. Começaremos do nível dos iniciantes e avançaremos até o estado da arte na detecção de objetos, entendendo a intuição, a abordagem e as principais características de cada método.

O que é classificação de imagem?

A classificação da imagem obtém uma imagem e prevê o objeto em uma imagem.

O problema de identificar a localização de um objeto (dada a classe) em uma imagem é chamado de localização. No entanto, se a classe de objeto não for conhecida, precisamos não apenas determinar a localização, mas também prever a classe de cada objeto.

Prever a localização do objeto junto com a classe é chamado de detecção de objeto. Em vez de prever a classe de objeto a partir de uma imagem, agora precisamos prever a classe e também um retângulo (chamado caixa delimitadora) contendo esse objeto. São necessárias 4 variáveis ​​para identificar exclusivamente um retângulo. Portanto, para cada instância do objeto na imagem, preveremos as seguintes variáveis:

  • class_name,
  • bounding_box_top_left_x_coordinate,
  • bounding_box_top_left_y_coordinate,
  • bounding_box_width,
  • bounding_box_height

Este artigo explica as seguintes técnicas:

  • Object Detection using Hog Features
  • Region-based Convolutional Neural Networks(R-CNN)
  • Spatial Pyramid Pooling(SPP-net)
  • Fast R-CNN
  • Faster R-CNN and Regression-based Detectors
  • YOLO(You only Look Once)
  • Single Shot Detector(SSD)

O artigo completo está disponível aqui.

Autor

Laboratório de Pesquisa em Ciência de Dados na Universidade Federal do Ceará