Gramática não contextual ponderada

Na teoria da linguagem , uma gramática algébrica ponderada ou gramática não contextual ponderada é uma gramática não contextual em que um peso numérico está associado a cada regra de produção. O interesse desta noção é poder distinguir as derivações de uma mesma palavra, portanto as interpretações de uma mesma expressão, segundo um peso que pode representar um significado mais provável ou mais frequente.

Descrição informal

O peso de uma derivação ou árvore de derivação é o produto (no modelo multiplicativo) ou a soma (no modelo aditivo) dos pesos das regras de produção utilizadas. Na avaliação do peso, cada regra é contada tantas vezes quanto aparece na derivação.

Uma gramática algébrica probabilística (também chamada de estocástica ) é o caso especial de gramáticas ponderadas onde os pesos são probabilidades (ou logaritmos de probabilidades).

Uma versão generalizada do algoritmo Cocke-Younger-Kasami pode ser usada para calcular a derivação mais leve (ou mais pesada) de uma palavra em uma gramática.

Propriedades formais

Definição

Uma gramática algébrica ponderada é composta

O número é o peso da régua .

Uma gramática algébrica probablística (também dizemos estocástica ) é uma gramática ponderada em que os pesos satisfazem a seguinte condição adicional: para qualquer variável ,

.

Pontuação

A pontuação de uma árvore de derivação é o número

onde é o número de ocorrências da regra na árvore de derivação . A função de partição é a soma das pontuações de todas as árvores de derivação. Uma gramática é considerada convergente se for finita. Neste caso, podemos usar como uma constante de normalização e definir uma distribuição de probabilidade de Gibbs nas árvores de derivação por:

Gramática probabilística

É fácil ver que, para uma gramática probabilística, temos . Sim , a gramática é estrita ou limpa.

Transformação de uma gramática ponderada em uma gramática probabilística

Uma construção de normalização devido ao Chi torna possível transformar uma gramática ponderada convergente em uma gramática probabilística. Para isso, notamos

e nós definimos

onde colocamos , com cada uma letra.

Chi provou que a gramática ponderada por é uma gramática probabilística adequada.

Formulários

Existem muitas aplicações em linguística , aprendizado de máquina e modelagem de RNA .

Nota Histórica

Antes que o interesse pelas gramáticas ponderadas fosse retomado no contexto da linguística, e ainda mais recentemente na análise de sequências biológicas, uma versão das gramáticas ponderadas e probabilísticas foi desenvolvida, em analogia com os autômatos probabilísticos . Um dos primeiros artigos nesse sentido é o de Arto Salomaa . As restrições impostas neste artigo são mais fortes: duas derivações podem ter um peso diferente, mesmo se corresponderem à mesma árvore de derivadas.

Notas e referências

  1. Smith e Johnson 2007 .
  2. Katsirelos, Narodytska e Walsh 2008 .
  3. Johnson 2005 .
  4. Chi 1999 .
  5. Giegerich .
  6. Salomaa 1969 .

Bibliografia

Artigos relacionados

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">