Reconhecimento automático de voz

O reconhecimento automático de voz (muitas vezes chamado incorretamente de reconhecimento de voz ) é um computador técnico que analisa a voz humana captada por um microfone para transcrevê-la na forma de um texto legível por máquinas .

O reconhecimento de voz, bem como a síntese de voz , identificação ou verificação de alto-falante, são algumas das técnicas de processamento de voz . Estas técnicas permitem nomeadamente a produção de interfaces homem-máquina (IHM) em que parte da interação é feita por voz: “  interfaces de voz”.

Dentre as muitas aplicações, podemos citar os aplicativos de ditado de voz em computador onde a dificuldade está no tamanho do vocabulário e na extensão das frases, mas também os aplicativos de telefone do tipo servidor de voz interativo , onde a dificuldade reside mais no precisa reconhecer qualquer voz em condições acústicas variáveis ​​e frequentemente ruidosas (telefones celulares em locais públicos).

Em Speech and Human-Machine Dialogue, W. Minker e S. Bennacef explicam que o reconhecimento automático de fala é uma área complexa, porque há uma diferença importante entre a linguagem formal , que é entendida e usada por máquinas, e a linguagem natural , que os humanos usam . A linguagem formal é estruturada por regras sintáticas estritas e inequívocas. Por outro lado, em linguagem natural, palavras ou frases podem ter vários significados dependendo da entonação do locutor ou do contexto, por exemplo.

Campo de pesquisa

O reconhecimento de voz pode ser vinculado a muitas áreas da ciência: processamento automático de linguagem , linguística , teoria da informação , processamento de sinais , redes neurais , inteligência artificial , etc.

Histórico

Os trabalhos sobre o reconhecimento de voz do início do XX °  século. O primeiro sistema que pode ser considerado como reconhecedor de fala data de 1952.

Este sistema eletrônico desenvolvido por Davis, Biddulph e Balashek nos laboratórios Bell Labs era essencialmente composto de relés e seu desempenho era limitado ao reconhecimento de um dígito (ver referência). A pesquisa então aumentou consideravelmente durante os anos 1970 com o trabalho de Jelinek na IBM (1972-1993). A empresa Threshold Technologies foi a primeira a comercializar em 1972 um sistema de reconhecimento com capacidade de 32 palavras, o VIP100 . Hoje, o reconhecimento de voz é um campo de rápido crescimento graças ao aumento dos sistemas de bordo . Evolução rápida:

Princípios básicos

Passos

Uma frase gravada e digitalizada é fornecida ao programa Automatic Speech Recognition (RAP). No formalismo RAP ( ASR em inglês), a divisão funcional é a seguinte:

Material técnico

A produção documental em um sistema GDD começa a partir de uma gravação de voz ( ditado digital ). É uma questão de gravar e restaurar a voz no meio digital. A gravação pode ser feita através de diferentes canais de gravação: microfones , ditafones , smartphones ...

A restituição, por digitação em secretariado ou verificação, é feita por meio de alto - falantes ou fones de ouvido .

Os modelos

Esse sistema é baseado em três modelos principais:

A combinação desses três modelos permite calcular a probabilidade de qualquer sequência de palavras dado um sinal de fala observado. O reconhecimento de fala consiste em encontrar a sequência de palavras com maior probabilidade. Formalmente, a solução do problema é o resultado de palavras que maximizam a seguinte expressão matemática .

Para calibrar esses modelos para uma aplicação, é necessário usar uma grande quantidade de corpus anotado. O corpus deve corresponder às condições de uso do sistema visado.

Classificação

Os sistemas de reconhecimento de voz podem ser classificados em vários eixos:

O tamanho do vocabulário e a complexidade do modelo de linguagem estão diretamente ligados ao idioma e à natureza dos dados a serem processados, de algumas dezenas de palavras para comandos de voz a algumas centenas de milhares de palavras para abranger um idioma como o francês ou Alemão.

Desempenho

O desempenho bruto de um mecanismo de reconhecimento de voz é frequentemente medido em taxas de erro de palavras ( taxa de erro de palavra ) . Por outro lado, podemos avaliar a taxa de sucesso. Essa taxa varia muito, dependendo da natureza dos dados a serem transcritos, do alto-falante e das condições acústicas. Depende pouco do idioma. Aqui está sua definição formal:

ou :

Aqui estão alguns resultados médios para a taxa de erro:

Literatura menciona

O reconhecimento de fala é evocado em O primeiro círculo, do escritor dissidente soviético Alexander Solzhenitsyn , como uma ferramenta de repressão a serviço de Stalin .

O reconhecimento de voz também é mencionado em um romance policial:

“Nada a ver com nossos bons e velhos relatórios de volta para casa dedilhados no computador com um dedo frio por um amigo que hesitou por muito tempo entre a carreira de policial e a de ferrador. Com o Yankees, você conversa e registra, limpa e em ordem, sem rasura, repetição ou impropriedade de termos. Qualquer canalha, tendo aprendido a ler em uma máquina caça-níqueis, incendeia você com confissões em comparação com as quais a Confissão de uma criança do século passaria pelas instruções de uso de um pó inseticida traduzido do romanche.

Para pilotar essa coisa, não havia necessidade de deixar Princeton. Tudo o que o operador tinha de se masturbar, além de sua bela espessa, era repetir uma palavra mal pronunciada, e novamente o dispositivo sugeria um amontoado de sinônimos concordando com o significado da frase. Vendo a máquina funcionando, pensei em todos os meus colegas tremendo com o cocar cuja prosa ele tornaria inteligível. "

Frédéric Dard também conhecido por San Antonio , Sand in Vaseline

Há menção ao reconhecimento de fala como única interface entre o homem e a máquina na trilogia das profecias de Pierre Bordage . Com efeito, nesta trilogia, é apresentado um supercomputador , o DNA PC .

Software de reconhecimento de voz

Os sistemas de reconhecimento de fala modernos usam modelos de linguagem que podem exigir gigabytes de memória, o que os torna impraticáveis, especialmente em dispositivos móveis. Por esse motivo, a maioria dos sistemas de reconhecimento de voz modernos são hospedados em servidores remotos e exigem uma conexão com a Internet e o envio de conteúdo de voz pela rede.

A Mozilla iniciou um projeto comunitário, Common Voice , para coletar amostras de voz em um banco de dados gratuito, para treinar mecanismos de reconhecimento de voz não proprietários.

Notas e referências

  1. (in) Leonard E. Baum, "  A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains  " , The Annals of Mathematical Statistics ,1970, p.  164 - 171.
  2. Peckham, J. (1993). Uma nova geração de sistemas de diálogo falado: resultados e lições do projeto SUNDIAL. Na Terceira Conferência Europeia sobre Comunicação e Tecnologia da Fala.
  3. (em) "  Apple lança iPhone 4S iOS5 iCloud  " em apple.com ,4 de outubro de 2011(acessado em 21 de agosto de 2017 ) .
  4. "  Microsoft anuncia avanço considerável no reconhecimento de voz  " , em actuia.com ,21 de agosto de 2017(acessado em 21 de agosto de 2017 ) .
  5. San Antonio , Sand in Vaseline , Paris, Black River ,Setembro de 1998, 209  p. ( ISBN  2-265-06530-7 ) , p.  40-41.

Veja também

Bibliografia

Artigos relacionados

links externos

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">