Detecção de objetos

Na visão computacional, a detecção de objetos (ou classificação de objetos ) denota um método que permite detectar a presença de uma instância ( reconhecimento de objetos ) ou de uma classe de objetos em uma imagem digital . É dada especial atenção à detecção de rosto e de pessoa . Esses métodos geralmente envolvem aprendizado supervisionado e têm aplicações em vários campos, como pesquisa de imagens de conteúdo ou vigilância por vídeo .

Problemático

De acordo com a terminologia usual, podemos distinguir detecção, localização e reconhecimento de objetos:

detecção (ou classificação ): presença de uma instância do objeto ("um carro") na imagem
reconhecimento : identificação de um determinado corpo (" o carro de Michael Schumacher ", " o rosto de Gilles Deleuze " ...)
localização (ou às vezes detecção ): situação precisa da instância (detectada ou reconhecida) na imagem (quadro delimitador ou segmentação da área)

Para entidades visuais localizadas (objeto, rosto, pessoa, etc.), detecção e localização geralmente se fundem. É diferente para entidades mais "abstratas", como interior / exterior, dia / noite, campo / cidade, etc. O que antes diz respeito ao reconhecimento de cenas visuais . Neste último caso, a localização nem sempre faz sentido, pois o conceito está presente em toda a imagem.

A detecção de uma classe de objetos é geralmente considerada um problema mais difícil do que o reconhecimento de uma instância particular, uma vez que é necessário identificar as características comuns à classe, ignorando a variedade das diferentes instâncias dentro da referida classe. Essa variedade pode ser causada por vários fatores, incluindo as condições de iluminação ou o ponto de vista de onde a foto foi tirada. Aumenta ainda mais no caso de objetos articulados ( ou seja, não rígidos), como pedestres ou animais.

Abordagem geral

A abordagem geral para detectar um objeto em uma imagem (sem conhecimento a priori das condições de disparo) consiste em três etapas:

Determine as localizações potenciais do objeto, seja por meio de uma janela deslizante na imagem, ou diretamente detectando os pontos de interesse dentro dela.
Extraia características na imagem que permitem identificar a classe de objeto de destino
Classifique automaticamente cada subjanela como contendo o objeto procurado ou não ou combine as características extraídas com as de um modelo de referência.

Métodos específicos

Métodos específicos foram desenvolvidos para certos tipos de objetos, por exemplo, para detecção de rosto ou detecção de pessoas . Esses métodos podem levar em consideração características específicas do objeto, como a relação de aspecto, a presença de olhos e boca no caso de rostos, etc.

Coincidindo

O matching visa cadastrar as imagens (Exemplo: SIFT )

Pesquisa em larga escala

Quando os bancos de dados de imagens são grandes, as técnicas de correspondência tornam-se ineficazes porque exigem muitos cálculos. O método bag-of-visterms consiste então em agregar os detectores locais de acordo com um vocabulário pré-definido, o dicionário. Inspirado na técnica há muito conhecida no campo do texto ( saco-de-palavras ), foi proposta em 2003 para o vídeo.

Veja também

Método de Viola e Jones : uma das primeiras tecnologias eficazes para realizar a detecção de objetos.

Notas e referências

veja, por exemplo, o site do erro de modelo de campanha internacional PascalVOC {{Link do arquivo}} : preencha um parâmetro " "|titre=
K. Murphy, A. Torralba, D. Eaton, WT Freeman, Detecção e localização de objetos usando recursos locais e globais Lecture Notes in Computer Science (unrefeered). Oficina da Sicília sobre reconhecimento de objetos, 2005
Josef Sivic, Andrew Zisserman , Video Google: A Text Retrieval Approach to Object Matching in Videos, International Conference on Computer Vision 2003