Detecção de Objetos Usando Aprendizado Profundo: R-CNN, YOLO, SSD
Neste post, explicarei a detecção de objetos e vários algoritmos como Faster R-CNN, YOLO, SSD. Começaremos do nível dos iniciantes e avançaremos até o estado da arte na detecção de objetos, entendendo a intuição, a abordagem e as principais características de cada método.
O que é classificação de imagem?
A classificação da imagem obtém uma imagem e prevê o objeto em uma imagem.
O problema de identificar a localização de um objeto (dada a classe) em uma imagem é chamado de localização. No entanto, se a classe de objeto não for conhecida, precisamos não apenas determinar a localização, mas também prever a classe de cada objeto.
Prever a localização do objeto junto com a classe é chamado de detecção de objeto. Em vez de prever a classe de objeto a partir de uma imagem, agora precisamos prever a classe e também um retângulo (chamado caixa delimitadora) contendo esse objeto. São necessárias 4 variáveis para identificar exclusivamente um retângulo. Portanto, para cada instância do objeto na imagem, preveremos as seguintes variáveis:
- class_name,
- bounding_box_top_left_x_coordinate,
- bounding_box_top_left_y_coordinate,
- bounding_box_width,
- bounding_box_height
Este artigo explica as seguintes técnicas:
- Object Detection using Hog Features
- Region-based Convolutional Neural Networks(R-CNN)
- Spatial Pyramid Pooling(SPP-net)
- Fast R-CNN
- Faster R-CNN and Regression-based Detectors
- YOLO(You only Look Once)
- Single Shot Detector(SSD)
O artigo completo está disponível aqui.