O salto comercial é um conjunto de técnicas de computador para detectar automaticamente os comerciais em um stream de vídeo para a TV .
Este é um assunto que ainda pertence em grande parte ao campo da investigação , mas com forte envolvimento de industriais, nomeadamente Philips ou Google , bem como inúmeras patentes depositadas. As aplicações são inúmeras e vão desde o gravador de vídeo digital inteligente até a gestão de arquivos de televisão, passando pela verificação da emissão de anúncios.
A primeira menciona a possibilidade de detecção automática de anúncios surgidos nas patentes americanas: a de Novak em 1988, a de Blum em 1992 e a de Nafeh em 1994.
As patentes de Novak e Blum ainda são marcadas pelo analógico . Eles usam o fato de que algumas imagens de separação estão presentes entre dois anúncios, que essas imagens são geralmente pretas e, portanto, fáceis de detectar. A detecção é feita no domínio do pixel. Nafeh usa uma rede neural para aprender e classificar videoclipes de acordo com suas características sonoras e visuais. Esta é a primeira contribuição que faz uso explícito de métodos artificiais de aprendizagem .
Desde este trabalho, o número de patentes sobre o assunto tornou-se bastante substancial, enquanto o número de publicações científicas é bastante modesto. No entanto, essas patentes não fornecem resultados quanto à eficácia de suas técnicas de detecção, sendo difícil saber se as técnicas propostas são realmente eficazes.
O número de trabalhos acadêmicos sobre o assunto realmente começou a crescer a partir de 1997 e das obras fundadoras de Lienhart.
As técnicas de detecção recorrem a várias características , supostamente características da publicidade, que deveriam, em princípio, permitir a discriminação entre os programas e os espaços publicitários veiculados. Essas características são então combinadas e usadas de diferentes maneiras para tomar uma decisão.
Imagens monocromáticasA característica mais comum é a presença de separações , também chamadas de caixas monocromáticas , ou simplesmente imagens monocromáticas . São imagens monocromáticas que são transmitidas pelo canal entre dois anúncios, essencialmente para permitir ao telespectador compreender melhor a sua sequência. É uma técnica usada em muitos países: na Alemanha , Estados Unidos , Irlanda , Holanda . Em todos esses países, as imagens de separação são pretas.
Na França, essas imagens também existem, mas são pretas ( Canal + , TF1 (anteriormente azul), NT1 ) ou brancas ( França 2 , França 3 , França 5 ), algumas com o logotipo do canal ( NRJ 12 , M6 , W9 ). Na Ásia, ou em alguns canais irlandeses, essas imagens de separação não existem.
A detecção de imagens monocromáticas é um problema simples de processamento de sinal . No entanto, o ruído da transmissão e as cenas noturnas tornam isso difícil. Várias técnicas foram propostas: o limiar da média e da variância dos pixels de luminância , a entropia do histograma de luminância.
Alguns autores se propõem a trabalhar no domínio compactado , supondo que o fluxo de vídeo seja MPEG-1 ou MPEG-2 . Sadlier et al. propõem a utilização do coeficiente DC da matriz de luminância DCT de um bloco 8 × 8, que é o valor médio dos pixels deste bloco. A detecção das imagens pretas é então realizada estabelecendo os valores desse coeficiente DC a partir de um valor médio desse coeficiente. O mesmo tipo de método é usado por McGee et al. , que sublinham que um valor de limite fixo parece impraticável e reajustam este valor de limite a cada ocorrência de uma imagem que excede esse limite.
Estas técnicas conduzem a um grande número de falsos positivos , porque existem muitas imagens “quase monocromáticas” que não são separações de anúncios, por exemplo durante um fade ou em cenas noturnas.
SilêncioImagens monocromáticas de separação geralmente são acompanhadas por momentos de silêncio . Alguns autores usam a detecção de silêncio como uma fonte adicional de informação para tornar a detecção de separação mais robusta.
A detecção de silêncio geralmente é realizada com base na energia do sinal de áudio. Outros recursos , como a Taxa de Cruzamento Zero , também podem ser usados. Nos canais franceses, o silêncio acaba sendo uma boa observação, graças à facilidade de detecção. A energia do sinal de áudio cai para zero durante as separações entre os anúncios.
LogotipoAlguns autores perceberam que a logomarca do canal não estava presente durante os anúncios. A detecção do logotipo pode, portanto, ser um indicador interessante. A detecção do logótipo, no entanto, é uma tarefa difícil: logótipos semitransparentes, cores dinâmicas, movimento ... Além disso, a presença do logótipo nem sempre é sistemática nos programas, resultando em falsos positivos .
Taxa de atividadeUma indicação frequentemente utilizada é uma medida da taxa de atividade: número de fotos por minuto, indicação de movimento, etc. Os anúncios geralmente têm uma alta taxa de edição, a fim de chamar a atenção do telespectador.
Uma das primeiras propostas é a de Lienhart et al. , que calcula o número de cortes "brutais" entre dois disparos, que estimam em 20,9 por minuto para anúncios e 3,7 para o resto. Somado a isso está uma medida de atividade, de mudanças nas bordas detectadas por um método de detecção de bordas , bem como do comprimento dos vetores de movimento.
Esta observação também está sujeita a muitos falsos positivos: filmes de ação , clipes , trailers ...
VáriosOutras características também podem ser utilizadas: a presença de texto por um método de detecção de texto . Este último é um processo caro, geralmente exigindo técnicas de morfologia matemática , complexas e, portanto, restritivas quando grandes volumes de vídeo devem ser processados. Muitos falsos positivos também existem ( créditos , trailers, notícias de TV , etc.).
Outras características são por vezes mencionadas: legendas de teletexto, presença simultânea de música e fala, etc.
Mencionado às vezes, o volume do som não parece ser uma observação confiável. Um estudo realizado pela ENST em canais franceses mostrou que o aumento de volume ocorreu em apenas 50% das sequências publicitárias, o que não permite que o volume seja utilizado como observação discriminatória. Além disso, a lei francesa que regula o volume do som dos comerciais de TV, pelo artigo 14 do Decreto n o 92-280 de27 de março de 1992, os canais estariam em violação se fosse realmente o caso.
Satterwite e Marques identificam dois tipos de método de detecção: métodos baseados em recursos e métodos de tipo de reconhecimento.
Métodos baseados em recursosNesse tipo de método, os autores escolhem um conjunto de características discriminatórias e desenvolvem algoritmos baseados em regras ou algoritmos de aprendizagem.
Às vezes, regras simples são usadas, por exemplo, impondo condições sobre a duração e a posição de imagens monocromáticas. Esses métodos apelam para muito a priori , são, portanto, difíceis de generalizar e não são robustos a uma mudança na estrutura de difusão.
Uma categoria de trabalho relativamente grande é proporcionar um aprendizado sobre as características, geralmente baseado em uma segmentação de tomadas previamente realizada. Propôs-se, assim, a utilização de um modelo oculto de Markov com dois estados, publicitário e não publicitário, com duas características: a presença do logótipo e a duração das tomadas . Modelos de separador de margem larga são usados por Hua et al. para classificar cada cena, com base em inúmeras características de vídeo de baixo nível, mas também em características de áudio um pouco mais sofisticadas: a presença de transições de áudio e uma classificação em fala, música e ruído.
Uma técnica de reforço temporalmente restrita também foi proposta por Liu et al. , usando várias características de áudio e vídeo de baixo nível ( ECR , energia de áudio ...) calculadas em cada plano.
Estas técnicas de aprendizagem estatística tornam menos a priori a estrutura dos anúncios, mas produzem resultados mais pobres do que as técnicas baseadas em regras ou de reconhecimento, principalmente devido ao fato de que é difícil identificar um plano. Como sendo um anúncio apenas pelo seu som ou características visuais.
Métodos de reconhecimentoEste tipo de método consiste em reconhecer os anúncios à medida que são veiculados. Isso requer a presença de um banco de dados de anúncios conhecidos de antemão. A detecção é então trazida de volta a uma comparação com os elementos da base. Tal método justifica-se pelo fato de os anúncios serem veiculados um grande número de vezes, os anunciantes comprando um determinado número de vezes de seu anúncio. Uma vez que um anúncio esteja no banco de dados, é possível detectar todas as suas repetições. O reconhecimento é um método bastante confiável, que fornece resultados complementares em comparação aos métodos baseados em recursos.
O reconhecimento foi proposto desde o trabalho de Lienhart et al. em 1997. O princípio geral é calcular uma assinatura , ou impressão digital , na imagem ou no áudio e, em seguida, definir uma distância entre as assinaturas para poder compará-las. É um princípio também utilizado na pesquisa de imagens por conteúdo . A especificidade vem do fato de que a noção de “similaridade” está aqui muito mais bem definida: é uma cópia quase idêntica, fora o ruído de transmissão.
As assinaturas devem, portanto, ser robustas ao ruído que aparece na cadeia de transmissão: variações de brilho , cor , artefatos de compressão , etc. e devem atender a requisitos de complexidade . Consequentemente, as assinaturas propostas são compactas e integram informações tidas como características da própria imagem, e não características de uma determinada classe de imagem, como na busca de imagens por conteúdo . As assinaturas, portanto, têm grande poder discriminatório.
Várias definições de assinaturas da imagem têm sido propostas: o vetor de coerência de cores , seleção e quantização dos coeficientes wavelet , DCT , os momentos de ordem 1, 2 e 3 dos três canais RGB , ou mesmo da análise de componentes principais na cor histogramas .
Alguns trabalhos também mencionam a possibilidade de usar assinaturas de áudio, por exemplo, calculando um espectrograma em várias bandas de frequência, ou uma técnica mais genérica proposta por Herley .
Uma das dificuldades está ligada à complexidade destes métodos quando não é utilizada nenhuma técnica de indexação da base de dados: é necessário navegar na totalidade da base de dados a cada momento para poder reconhecer um segmento. Como a distância usada para medir a semelhança entre as assinaturas pode exigir muitos cálculos, existe um problema real de complexidade.
Para remediar este problema, alguns autores propõem o uso de técnicas de hashing perceptual . Consiste em utilizar a assinatura como índice , o que permite o acesso direto à base de dados graças, por exemplo, a uma estrutura de dados como uma tabela hash . Livra-se então da complexidade ligada a uma busca sequencial da base.
Outros métodosExistem outros tipos de método, como o uso de marca d'água , que consiste em inserir primeiro uma marca no fluxo de vídeo a ser detectado. É uma técnica robusta, mas restritiva, pois exige que os anúncios sejam tatuados antes de serem veiculados. O uso de marcas d'água é, portanto, na prática restrito a uma única classe de aplicativo: monitorar a distribuição de anúncios.
Uma técnica original proposta por Poli et al. consiste em prever os tempos de início e término de programas e seus tipos, graças a um modelo de Markov oculto contextual. Os momentos publicitários podem então ser deduzidos da estruturação assim produzida.
A principal dificuldade advém do fato de os métodos de veiculação dos anúncios serem diferentes de um país, ou mesmo de um canal para outro. Consequentemente, as técnicas propostas são geralmente adaptadas a um país, e parece difícil desenvolver um método genérico.
Além disso, existem dificuldades reais para os cientistas terem um corpus suficientemente grande de diferentes países, bem como o problema recorrente da verdade fundamental . Os métodos são, portanto, geralmente validados em corpora relativamente pequeno de algumas horas. No entanto, alguns estudos estão começando a validar seus resultados em corpora maiores (4 dias para Covell et al. ).
Os desempenhos dos algoritmos são geralmente avaliados por medidas resultantes da busca de informações : o recall e a precisão . Se o número de unidades classificadas corretamente é , o número de unidades perdidas é , e o número de unidades erradas é, então a precisão e a recuperação são dadas por:
Não há consenso sobre qual tipo de unidade escolher. A maioria dos autores escolhe o próprio anúncio como unidade. As medidas de precisão e recall têm então uma interpretação intuitiva, mas não muito precisa: não sabemos se o anúncio foi detectado em sua totalidade ou não.
O pequeno tamanho dos corpora significa que os resultados às vezes precisam ser colocados em perspectiva. Shivadas et al . relatam 96% de recall e 100% de precisão em um corpus de apenas duas horas, compreendendo 63 anúncios. Covell et al. obtenha 95% de recordação e 99% de precisão em 96 horas de televisão. Esses bons resultados são devidos aos métodos de tipo de reconhecimento. Os métodos baseados em características são geralmente menos eficientes. Por exemplo, McGee et al. relatam uma precisão de 94% e um recall de 87% ao longo de treze horas.
Outros autores usam o plano como uma unidade. É uma medida que permite uma melhor precisão temporal, mas de interpretação delicada. Os planos podem ser de número e comprimento variáveis. Hua et al . obter 92% em recall e precisão em um corpus de 10 horas.
Por fim, alguns autores usam a imagem como unidade. A interpretação é então simples, pois se torna uma unidade de medida temporal. Por exemplo, Chen et al . obtenha 94% de recall e 92,5% de precisão em sete horas.
Existem vários aplicativos para detecção automática de anúncios. Satterwite e Marques distinguem dois tipos:
Actualmente, apenas a aplicação de monitorização é objecto de serviços comerciais, as restantes aplicações aqui apresentadas, embora reconhecidas, são apenas prospectivas.
O rastreamento de anúncios é o processo de detectar todas as ocorrências de um determinado anúncio de televisão. Isso é feito a pedido de um anunciante , que deseja verificar se o contrato que ele fez com a emissora está sendo respeitado. As somas altíssimas pagas pelo anunciante à emissora, dependendo da programação de veiculação do anúncio, estão, notadamente, na origem dessa prática. Isso se espalhou depois que um escândalo estourou no Japão , quando alguns anunciantes perceberam que os canais não estavam transmitindo seus anúncios corretamente .
Outra vantagem do monitoramento é poder detectar a quantidade e os horários de veiculação dos anúncios de um concorrente, para estimar o orçamento gasto com propaganda na televisão.
Muitas empresas oferecem soluções de rastreamento de anúncios comerciais, geralmente por meio de assinatura visual ou métodos de tatuagem . Soluções baseadas em tatuagem, no entanto, não permitem o aplicativo de rastreamento de anúncios do concorrente.
A segunda grande aplicação é detectar anúncios para poder removê-los, ou pelo menos ter a opção de assisti-los ou não. Este é obviamente um tema orientado para o visualizador, destinado a ser implementado em um PVR .
Essa possibilidade despertou a preocupação das emissoras, principalmente nos Estados Unidos, com o lançamento do TiVo , apesar de seu sistema manual simples (um botão permite avançar 30 segundos, que é a duração média de um anúncio). Algumas estimativas apontam as perdas para os anunciantes em US $ 8 bilhões em 2006. Algumas emissoras até ameaçaram aumentar o custo das assinaturas de cabo e satélite para compensar a receita perdida.
Preocupações também foram expressas no Japão , o presidente da National Association of Commercial Broadcasters , Hisashi Hieda, tendo mesmo descrito esta possibilidade como ilegal.
Devido à oposição das emissoras e questões legais, a aplicação comercial provavelmente será difícil de implementar, se não estiver completamente comprometida. Em contraste, as soluções não comerciais do mundo do software de código aberto implementaram a remoção de anúncios. O software tipo centro de multimídia MythTV é, portanto, capaz de detectar anúncios com uma boa porcentagem de sucesso, pulá-los durante a exibição ou mesmo apagá-los permanentemente de uma gravação.
Os órgãos responsáveis pela gestão dos arquivos televisivos, como o Instituto Nacional de Audiovisual da França, também têm interesse na retirada de anúncios, o que permitiria uma redução dos custos de armazenamento, bem como uma facilitação da pesquisa e navegação nas coleções. Esta redução está longe de ser desprezível, uma vez que um estudo mostrou que na televisão francesa, em 20 dias de transmissão contínua, 11,5% do tempo não é dedicado a programas . Outro estudo mostrou que o ganho em termos de compressão pode chegar a 30%, se considerarmos todas as emissões repetidas (não se trata, portanto, apenas de anúncios).
Outra aplicação é mencionada por Covell et al. , às vezes chamado de reaproveitamento . Esta é uma reutilização de conteúdo transmitido anteriormente, que contém anúncios . O problema aqui é detectar propagandas para substituí-las por outras mais recentes ou mais adaptadas ao público.
Por fim, uma aplicação poderia ser automatizar o monitoramento da conformidade regulatória no campo audiovisual . Em França, por exemplo, o Conselho Superior do Audiovisual é responsável pela fiscalização da legislação sobre a difusão de anúncios na televisão, que está sujeita a um certo número de condicionalismos, nomeadamente no que diz respeito à duração dos ecrãs publicitários.