Reconhecimento automático de voz

O reconhecimento automático de voz (muitas vezes chamado incorretamente de reconhecimento de voz ) é um computador técnico que analisa a voz humana captada por um microfone para transcrevê-la na forma de um texto legível por máquinas .

O reconhecimento de voz, bem como a síntese de voz , identificação ou verificação de alto-falante, são algumas das técnicas de processamento de voz . Estas técnicas permitem nomeadamente a produção de interfaces homem-máquina (IHM) em que parte da interação é feita por voz: “ interfaces de voz”.

Dentre as muitas aplicações, podemos citar os aplicativos de ditado de voz em computador onde a dificuldade está no tamanho do vocabulário e na extensão das frases, mas também os aplicativos de telefone do tipo servidor de voz interativo , onde a dificuldade reside mais no precisa reconhecer qualquer voz em condições acústicas variáveis e frequentemente ruidosas (telefones celulares em locais públicos).

Em Speech and Human-Machine Dialogue, W. Minker e S. Bennacef explicam que o reconhecimento automático de fala é uma área complexa, porque há uma diferença importante entre a linguagem formal , que é entendida e usada por máquinas, e a linguagem natural , que os humanos usam . A linguagem formal é estruturada por regras sintáticas estritas e inequívocas. Por outro lado, em linguagem natural, palavras ou frases podem ter vários significados dependendo da entonação do locutor ou do contexto, por exemplo.

Campo de pesquisa

O reconhecimento de voz pode ser vinculado a muitas áreas da ciência: processamento automático de linguagem , linguística , teoria da informação , processamento de sinais , redes neurais , inteligência artificial , etc.

Histórico

Os trabalhos sobre o reconhecimento de voz do início do XX ° século. O primeiro sistema que pode ser considerado como reconhecedor de fala data de 1952.

Este sistema eletrônico desenvolvido por Davis, Biddulph e Balashek nos laboratórios Bell Labs era essencialmente composto de relés e seu desempenho era limitado ao reconhecimento de um dígito (ver referência). A pesquisa então aumentou consideravelmente durante os anos 1970 com o trabalho de Jelinek na IBM (1972-1993). A empresa Threshold Technologies foi a primeira a comercializar em 1972 um sistema de reconhecimento com capacidade de 32 palavras, o VIP100 . Hoje, o reconhecimento de voz é um campo de rápido crescimento graças ao aumento dos sistemas de bordo . Evolução rápida:

1952: reconhecimento dos 10 dígitos por um dispositivo eletrônico com fio.

1960: uso de métodos numéricos.

1965: reconhecimento de fonemas na fala contínua.

1968: reconhecimento de palavras isoladas por sistemas instalados em computadores mainframe (até 500 palavras).

1970: Leonard E. Baum desenvolve o modelo de Markov oculto, amplamente utilizado no reconhecimento de voz.

1971: Lançamento do projeto ARPA nos Estados Unidos (US $ 15 milhões) para testar a viabilidade da compreensão automática da fala contínua sob restrições razoáveis.

1972: primeiro dispositivo de reconhecimento de palavras do mercado.

1978: comercialização de um sistema de reconhecimento de microprocessador em placa de circuito impresso.

1983: estreia mundial do controle de voz a bordo de um avião de combate na França.

1985: comercialização dos primeiros sistemas de reconhecimento de vários milhares de palavras.

1986: lançamento do projeto de telefone ATR japonês com tradução automática em tempo real.

1993: Projeto Esprit SUNDIAL.

1997: A empresa Dragon lança o " NaturallySpeaking ", o primeiro software de ditado de voz.

2008: O Google lança um aplicativo de pesquisa na Internet que implementa um recurso de reconhecimento de voz

2011: a Apple oferece o aplicativo Siri em seus telefones.

2017: a Microsoft anuncia o desempenho de reconhecimento de fala humana compatível.

Princípios básicos

Passos

Uma frase gravada e digitalizada é fornecida ao programa Automatic Speech Recognition (RAP). No formalismo RAP ( ASR em inglês), a divisão funcional é a seguinte:

O processamento acústico ( front-end em inglês) permite principalmente extrair do sinal de voz uma imagem acústica compacta na forma de vetores acústicos correspondendo a fatias de 20 a 30 ms de sinal com um passo de 10 ms (técnica de janela de Hamming ) . O sinal é digitalizado e parametrizado por uma técnica de análise de frequência usando a transformada de Fourier (por exemplo MFCC, Mel-Frequency Cepstral Coefficients).

O aprendizado de máquina envia uma associação entre os segmentos elementares da fala e os elementos lexicais. Esta associação exige modelagem estatística, entre outros, por modelos ocultos de Markov (HMM, modelos ocultos de Markov) e / ou por redes neurais artificiais (RNA, Redes Neurais Artificiais).

A decodificação pela concatenação dos modelos elementares previamente aprendidos reconstitui o discurso mais provável. É, portanto, um casamento de padrão temporal, geralmente realizado pelo algoritmo de sincronização de tempo dinâmico (DTW em inglês).

Material técnico

A produção documental em um sistema GDD começa a partir de uma gravação de voz ( ditado digital ). É uma questão de gravar e restaurar a voz no meio digital. A gravação pode ser feita através de diferentes canais de gravação: microfones , ditafones , smartphones ...

A restituição, por digitação em secretariado ou verificação, é feita por meio de alto - falantes ou fones de ouvido .

Os modelos

Esse sistema é baseado em três modelos principais:

modelo de idioma: este modelo dá a probabilidade de cada sequência de palavras no idioma de destino; $P (W)$ $C$
modelo de pronúncia: este modelo fornece para cada sequência de palavras , a (s) pronúncia (s) possível (s) com suas probabilidades ; $C$ $H$ $P (H | W)$
modelo acústico-fonético: este modelo estima a probabilidade da seqüência observada de vetores acústicos dada uma possível pronúncia de uma dada seqüência de palavras. $P (X | H)$ $X$ $H$

A combinação desses três modelos permite calcular a probabilidade de qualquer sequência de palavras dado um sinal de fala observado. O reconhecimento de fala consiste em encontrar a sequência de palavras com maior probabilidade. Formalmente, a solução do problema é o resultado de palavras que maximizam a seguinte expressão matemática . $C$ $\ textstyle P (W) \ sum _ {H} P (H | W) P (X | H)$

Para calibrar esses modelos para uma aplicação, é necessário usar uma grande quantidade de corpus anotado. O corpus deve corresponder às condições de uso do sistema visado.

Classificação

Os sistemas de reconhecimento de voz podem ser classificados em vários eixos:

o tipo de sinal: sinal ruidoso ou sinal não ruidoso (ex: microfone headset com redução de ruído), sinal de telefone (fixo ou celular) ou banda larga, sinal comprimido ou não, etc.
o tipo de modelo acústico: modelo de um alto-falante ( por exemplo: ditado de voz), modelo de vários alto-falantes ( independente de alto-falante em inglês);
a natureza das gravações: ditado de texto, comando de voz, diálogo homem-máquina, mensagem telefônica, rádio, TV, podcast, etc. ;
língua.

O tamanho do vocabulário e a complexidade do modelo de linguagem estão diretamente ligados ao idioma e à natureza dos dados a serem processados, de algumas dezenas de palavras para comandos de voz a algumas centenas de milhares de palavras para abranger um idioma como o francês ou Alemão.

Desempenho

O desempenho bruto de um mecanismo de reconhecimento de voz é frequentemente medido em taxas de erro de palavras ( taxa de erro de palavra ) . Por outro lado, podemos avaliar a taxa de sucesso. Essa taxa varia muito, dependendo da natureza dos dados a serem transcritos, do alto-falante e das condições acústicas. Depende pouco do idioma. Aqui está sua definição formal:

${\ mathit {WER}} = {\ frac {S + E + I} {N}}$

ou :

$S$ é o número de substituições;
$E$ é o número de elisões;
$eu$ é o número de inserções;
$NÃO$ é o número de palavras na transcrição de referência (transcrição exata).

Aqui estão alguns resultados médios para a taxa de erro:

textos lidos (ditado de voz, sistema de um alto-falante): 5%
jornais de rádio e TV: 10%
conversas telefônicas informais: 40%

Literatura menciona

O reconhecimento de fala é evocado em O primeiro círculo, do escritor dissidente soviético Alexander Solzhenitsyn , como uma ferramenta de repressão a serviço de Stalin .

O reconhecimento de voz também é mencionado em um romance policial:

“Nada a ver com nossos bons e velhos relatórios de volta para casa dedilhados no computador com um dedo frio por um amigo que hesitou por muito tempo entre a carreira de policial e a de ferrador. Com o Yankees, você conversa e registra, limpa e em ordem, sem rasura, repetição ou impropriedade de termos. Qualquer canalha, tendo aprendido a ler em uma máquina caça-níqueis, incendeia você com confissões em comparação com as quais a Confissão de uma criança do século passaria pelas instruções de uso de um pó inseticida traduzido do romanche.

Para pilotar essa coisa, não havia necessidade de deixar Princeton. Tudo o que o operador tinha de se masturbar, além de sua bela espessa, era repetir uma palavra mal pronunciada, e novamente o dispositivo sugeria um amontoado de sinônimos concordando com o significado da frase. Vendo a máquina funcionando, pensei em todos os meus colegas tremendo com o cocar cuja prosa ele tornaria inteligível. "

- Frédéric Dard também conhecido por San Antonio , Sand in Vaseline

Há menção ao reconhecimento de fala como única interface entre o homem e a máquina na trilogia das profecias de Pierre Bordage . Com efeito, nesta trilogia, é apresentado um supercomputador , o DNA PC .

Software de reconhecimento de voz

Os sistemas de reconhecimento de fala modernos usam modelos de linguagem que podem exigir gigabytes de memória, o que os torna impraticáveis, especialmente em dispositivos móveis. Por esse motivo, a maioria dos sistemas de reconhecimento de voz modernos são hospedados em servidores remotos e exigem uma conexão com a Internet e o envio de conteúdo de voz pela rede.

Cortana ( Microsoft )
Siri ( Apple )
Google Now ( Google )
Alexa ( Amazon )
Vocapia Research (pacote VoxSigma)
Vocon Hybrid e Dragon (respectivamente ditado pela gramática e ditado livre pela Nuance Communications ).

A Mozilla iniciou um projeto comunitário, Common Voice , para coletar amostras de voz em um banco de dados gratuito, para treinar mecanismos de reconhecimento de voz não proprietários.

Notas e referências

(in) Leonard E. Baum, " A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains " , The Annals of Mathematical Statistics ,1970, p. 164 - 171.
Peckham, J. (1993). Uma nova geração de sistemas de diálogo falado: resultados e lições do projeto SUNDIAL. Na Terceira Conferência Europeia sobre Comunicação e Tecnologia da Fala.
(em) " Apple lança iPhone 4S iOS5 iCloud " em apple.com ,4 de outubro de 2011(acessado em 21 de agosto de 2017 ) .
" Microsoft anuncia avanço considerável no reconhecimento de voz " , em actuia.com ,21 de agosto de 2017(acessado em 21 de agosto de 2017 ) .
San Antonio , Sand in Vaseline , Paris, Black River ,Setembro de 1998, 209 p. ( ISBN 2-265-06530-7 ) , p. 40-41.

Veja também

Bibliografia

Processamento da fala , de René Boite, Hervé Bourlard, Thierry Dutoit, Joel Hancq e Henri Leich, Presses polytechniques et universitaire romandes, 2000.
Reconhecimento de voz: processamento automático da linguagem falada 2. Hermes Science - Lavoisier (Tratado IC2, Sistemas de computação e informação), J. Mariani (Ed.), 2002
Jean-Paul Haton , Reconhecimento automático de fala: do sinal à sua interpretação , Dunod Paris, 2006
Minker Wolfgang, Bennacef Samir (2000). Fala e diálogo homem-máquina , Edições Eyrolles e CNRS EDIÇÕES, Marsat, 212 páginas.

links externos

(pt) [PDF] Automatic Recognition of Spoken Digits , artigo histórico sobre o primeiro sistema de reconhecimento de voz, 1952
(pt) "Rest in Peas: The Unrecognized Death of Speech Recognition" ,Maio de 2010
(pt) Glossário sobre reconhecimento de voz
identificação de voz em ciência forense