Gramática não contextual ponderada
Na teoria da linguagem , uma gramática algébrica ponderada ou gramática não contextual ponderada é uma gramática não contextual em que um peso numérico está associado a cada regra de produção. O interesse desta noção é poder distinguir as derivações de uma mesma palavra, portanto as interpretações de uma mesma expressão, segundo um peso que pode representar um significado mais provável ou mais frequente.
Descrição informal
O peso de uma derivação ou árvore de derivação é o produto (no modelo multiplicativo) ou a soma (no modelo aditivo) dos pesos das regras de produção utilizadas. Na avaliação do peso, cada regra é contada tantas vezes quanto aparece na derivação.
Uma gramática algébrica probabilística (também chamada de estocástica ) é o caso especial de gramáticas ponderadas onde os pesos são probabilidades (ou logaritmos de probabilidades).
Uma versão generalizada do algoritmo Cocke-Younger-Kasami pode ser usada para calcular a derivação mais leve (ou mais pesada) de uma palavra em uma gramática.
Propriedades formais
Definição
Uma gramática algébrica ponderada é composta
G{\ displaystyle G}![G](https://wikimedia.org/api/rest_v1/media/math/render/svg/f5f3c8921a3b352de45446a6789b104458c9f90b)
- de um alfabeto finito de símbolos não terminais ou variáveisV{\ displaystyle V}
- de um alfabeto finito , separado de , de símbolos terminais ou letras terminaisNO{\ displaystyle A}
V{\ displaystyle V}
- de um elemento de chamado de axiomaS{\ displaystyle S}
V{\ displaystyle V}
- um conjunto finito de regras ou produções ,P⊂V×(V∪NO)∗{\ displaystyle {\ mathcal {P}} \ subset V \ times (V \ cup A) ^ {*}}
![{\ mathcal {P}} \ subset V \ times (V \ cup A) ^ {*}](https://wikimedia.org/api/rest_v1/media/math/render/svg/368d095e860d164943630e1f6d8e47e9ba96e8d3)
- e uma função que associa um número real positivo a cada produção .p:P→R+{\ displaystyle p: {\ mathcal {P}} \ to \ mathbb {R} _ {+}}
X→α{\ displaystyle X \ to \ alpha}![X \ to \ alpha](https://wikimedia.org/api/rest_v1/media/math/render/svg/b57934d5a3412026ddb75c3189dab480860a72b0)
O número é o peso da régua .
p(X→α){\ displaystyle p (X \ to \ alpha)}
X→α{\ displaystyle X \ to \ alpha}![X \ to \ alpha](https://wikimedia.org/api/rest_v1/media/math/render/svg/b57934d5a3412026ddb75c3189dab480860a72b0)
Uma gramática algébrica probablística (também dizemos estocástica ) é uma gramática ponderada em que os pesos satisfazem a seguinte condição adicional: para qualquer variável ,
X{\ displaystyle X}![X](https://wikimedia.org/api/rest_v1/media/math/render/svg/68baa052181f707c662844a465bfeeb135e82bab)
∑X→α∈Rp(X→α)=1{\ displaystyle \ sum _ {X \ to \ alpha \ in R} p (X \ to \ alpha) = 1}![{\ displaystyle \ sum _ {X \ to \ alpha \ in R} p (X \ to \ alpha) = 1}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a093bdf4c7f836d7028cb8d64ff4515822984a46)
.
Pontuação
A pontuação de uma árvore de derivação é o número
t{\ displaystyle t}![t](https://wikimedia.org/api/rest_v1/media/math/render/svg/65658b7b223af9e1acc877d848888ecdb4466560)
s(t)=∏as regras X→αp(X→α)f(X→α,t){\ displaystyle s (t) = \ prod _ {{\ text {regras}} X \ to \ alpha} p (X \ to \ alpha) ^ {f (X \ to \ alpha, t)}}![{\ displaystyle s (t) = \ prod _ {{\ text {regras}} X \ to \ alpha} p (X \ to \ alpha) ^ {f (X \ to \ alpha, t)}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/90c2048f6d0b0a30bcbe2c8541dfc9bd3f7ed5cb)
onde é o número de ocorrências da regra na árvore de derivação . A função de partição é a soma das pontuações de todas as árvores de derivação. Uma gramática é considerada convergente se for finita. Neste caso, podemos usar como uma constante de normalização e definir uma distribuição de probabilidade de Gibbs nas árvores de derivação por:
f(X→α,t){\ displaystyle f (X \ to \ alpha, t)}
X→α{\ displaystyle X \ to \ alpha}
t{\ displaystyle t}
Z(p){\ displaystyle Z (p)}
Z(p){\ displaystyle Z (p)}
Z(p){\ displaystyle Z (p)}![{\ displaystyle Z (p)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0e1da63cbea6957113b239f9759c2f1ce3154fcc)
P(t)=s(t)/Z(p){\ displaystyle P (t) = s (t) / Z (p)}![{\ displaystyle P (t) = s (t) / Z (p)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f3ac62dd43e4b6a9548a5081d8e2f97e2cd8aafc)
Gramática probabilística
É fácil ver que, para uma gramática probabilística, temos . Sim , a gramática é estrita ou limpa.
Z(p)≤1{\ displaystyle Z (p) \ leq 1}
Z(p)=1{\ displaystyle Z (p) = 1}![{\ displaystyle Z (p) = 1}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6436057145ea2d7e700b329685916680a3794d77)
Transformação de uma gramática ponderada em uma gramática probabilística
Uma construção de normalização devido ao Chi torna possível transformar uma gramática ponderada convergente em uma gramática probabilística. Para isso, notamos
-
TX{\ displaystyle T_ {X}}
as árvores de derivação cuja raiz é ,X{\ displaystyle X}![X](https://wikimedia.org/api/rest_v1/media/math/render/svg/68baa052181f707c662844a465bfeeb135e82bab)
-
ZX=∑t∈TXs(t){\ displaystyle Z_ {X} = \ sum _ {t \ in T_ {X}} s (t)}
(e para uma carta terminal)Zno=1{\ displaystyle Z_ {a} = 1}![{\ displaystyle Z_ {a} = 1}](https://wikimedia.org/api/rest_v1/media/math/render/svg/87d39bbdf33f37dcac79327b1cc11e472a08cec3)
e nós definimos
p′(X→α)=p(X→α)ZX∏eu=1kZαeu{\ displaystyle p '(X \ to \ alpha) = {\ frac {p (X \ to \ alpha)} {Z_ {X}}} \ prod _ {i = 1} ^ {k} Z _ {\ alpha _ {i}}}![{\ displaystyle p '(X \ to \ alpha) = {\ frac {p (X \ to \ alpha)} {Z_ {X}}} \ prod _ {i = 1} ^ {k} Z _ {\ alpha _ {i}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7d0a1b19812d002be7bdf1ca51c1a9b233c2dfe2)
onde colocamos , com cada uma letra.
α=α1⋯αk{\ displaystyle \ alpha = \ alpha _ {1} \ cdots \ alpha _ {k}}
αeu{\ displaystyle \ alpha _ {i}}![\ alpha_i](https://wikimedia.org/api/rest_v1/media/math/render/svg/3b1fb627423abe4988b7ed88d4920bf1ec074790)
Chi provou que a gramática ponderada por é uma gramática probabilística adequada.
p′{\ displaystyle p '}![p '](https://wikimedia.org/api/rest_v1/media/math/render/svg/40e623e3163571a220ed60ecb31aa78c24104b85)
Formulários
Existem muitas aplicações em linguística , aprendizado de máquina e modelagem de RNA .
Nota Histórica
Antes que o interesse pelas gramáticas ponderadas fosse retomado no contexto da linguística, e ainda mais recentemente na análise de sequências biológicas, uma versão das gramáticas ponderadas e probabilísticas foi desenvolvida, em analogia com os autômatos probabilísticos . Um dos primeiros artigos nesse sentido é o de Arto Salomaa . As restrições impostas neste artigo são mais fortes: duas derivações podem ter um peso diferente, mesmo se corresponderem à mesma árvore de derivadas.
Notas e referências
-
Smith e Johnson 2007 .
-
Katsirelos, Narodytska e Walsh 2008 .
-
Johnson 2005 .
-
Chi 1999 .
-
Giegerich .
-
Salomaa 1969 .
Bibliografia
- Noah A. Smith e Mark Johnson , " Weighted and Probabilistic Context-Free Grammars Are Equally Expressive " , Computational Linguistics , vol. 33, n o 4,2007, p. 477 ( DOI 10.1162 / coli.2007.33.4.477 , ler online )
-
George Katsirelos, Nina Narodytska e Toby Walsh, “The Weighted Cfg Constraint” , em Integration of AI and OR Techniques in Constraint Programming for Combinatorial Optimization Problems , col. "Lecture Notes in Computer Science" ( n o 5015)2008( ISBN 978-3-540-68154-0 , DOI 10.1007 / 978-3-540-68155-7_31 , ler online ) , p. 323-327.
-
Mark Johnson , " Weighted Context Free Grammars and proper PCFGs " ,2005 - Notas de uma apresentação.
- Zhiyi Chi , “ propriedades estatísticas de gramáticas probabilísticas livres de contexto ”, Computational Linguistics , vol. 25, n o 1,1999, p. 131-160 ( leia online )
-
Arto Salomaa, “ Probabilistic and Weighted Grammars ”, Information and Control , vol. 15,1969, p. 529-544.
-
Robert Giegerich, " Introdução às Gramáticas Livres de Contexto Estocástico " , Faculdade de Tecnologia e Centro de Biotecnologia, Universidade de Bielefeld, Bielefeld, Alemanha,8 de junho de 2011(acessado em 29 de dezembro de 2015 ) .
Artigos relacionados
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">