Na visão computacional, a detecção de objetos (ou classificação de objetos ) denota um método que permite detectar a presença de uma instância ( reconhecimento de objetos ) ou de uma classe de objetos em uma imagem digital . É dada especial atenção à detecção de rosto e de pessoa . Esses métodos geralmente envolvem aprendizado supervisionado e têm aplicações em vários campos, como pesquisa de imagens de conteúdo ou vigilância por vídeo .
De acordo com a terminologia usual, podemos distinguir detecção, localização e reconhecimento de objetos:
Para entidades visuais localizadas (objeto, rosto, pessoa, etc.), detecção e localização geralmente se fundem. É diferente para entidades mais "abstratas", como interior / exterior, dia / noite, campo / cidade, etc. O que antes diz respeito ao reconhecimento de cenas visuais . Neste último caso, a localização nem sempre faz sentido, pois o conceito está presente em toda a imagem.
A detecção de uma classe de objetos é geralmente considerada um problema mais difícil do que o reconhecimento de uma instância particular, uma vez que é necessário identificar as características comuns à classe, ignorando a variedade das diferentes instâncias dentro da referida classe. Essa variedade pode ser causada por vários fatores, incluindo as condições de iluminação ou o ponto de vista de onde a foto foi tirada. Aumenta ainda mais no caso de objetos articulados ( ou seja, não rígidos), como pedestres ou animais.
A abordagem geral para detectar um objeto em uma imagem (sem conhecimento a priori das condições de disparo) consiste em três etapas:
Métodos específicos foram desenvolvidos para certos tipos de objetos, por exemplo, para detecção de rosto ou detecção de pessoas . Esses métodos podem levar em consideração características específicas do objeto, como a relação de aspecto, a presença de olhos e boca no caso de rostos, etc.
O matching visa cadastrar as imagens (Exemplo: SIFT )
Quando os bancos de dados de imagens são grandes, as técnicas de correspondência tornam-se ineficazes porque exigem muitos cálculos. O método bag-of-visterms consiste então em agregar os detectores locais de acordo com um vocabulário pré-definido, o dicionário. Inspirado na técnica há muito conhecida no campo do texto ( saco-de-palavras ), foi proposta em 2003 para o vídeo.