Alocação de Dirichlet latente

Natureza	Modelo de tópico
Acrônimo	(in) LDA
Nomeado em referência a	Lei de dirichlet

No campo do processamento de linguagem natural , a alocação de Dirichlet latente ( Alocação latente de Dirichlet em inglês ) ou LDA é um modelo de probabilidade generativo para explicar conjuntos de observações por meio de grupos não observados - mesmo definidos por semelhanças de dados.

Tópicos em LDA

Por exemplo, se as observações ( ) são as palavras coletadas em um conjunto de documentos de texto ( ), o modelo LDA assume que cada documento ( ) é uma mistura ( ) de um pequeno número de assuntos ou tópicos , e que a geração de cada ocorrência de uma palavra ( ) é atribuível (probabilidade) a um dos temas ( ) do documento. O modelo LDA é um exemplo de “ modelo de assunto ”. Foi apresentado pela primeira vez como um modelo gráfico para a detecção de temas de um documento, por David Blei , Andrew Ng e Michael Jordan em $\beta$ $M$ $M$ $\ theta$ $\alfa$ $C$ $t$ 2002. LDA tem muitas aplicações, particularmente em mineração de dados e processamento automático de linguagem .

Operação

Definimos uma série de temas K e tentamos aprender os temas representados em cada documento e as palavras associadas a esses temas.

Inicialização

Cada palavra de cada documento é atribuída a um tema, de acordo com uma distribuição de Dirichlet sobre um conjunto de K temas.

${\ displaystyle \ theta _ {i} \ sim \ operatorname {Dir} (\ alpha)}$ , com e é uma distribuição de Dirichlet com um parâmetro simétrico vazio ( ) ${\ displaystyle i \ in \ {1, \ dots, M \}}$ ${\ displaystyle \ mathrm {Dir} (\ alpha)}$ $\alfa$ $\ alpha <1$

Isso gera um primeiro " modelo de assunto ": temas presentes nos documentos e as palavras que definem os temas. Este modelo de assunto é muito improvável porque é gerado aleatoriamente.

Aprendendo

Procuramos melhorar o modelo de assunto gerado aleatoriamente durante a inicialização. Para isso, em cada documento, pegamos cada palavra e atualizamos o tema a que está associada. Este novo tema é o que teria maior probabilidade de gerá-lo neste documento. Portanto, assumimos que todos os temas estão corretos, exceto para a palavra em questão.

Mais precisamente: para cada palavra ( ) de cada documento ( ), calculamos duas quantidades para cada tópico ( ): $C$ $d$ $t$

${\ displaystyle p (t \ mid d)}$ : a probabilidade de que o documento seja atribuído ao tópico $d$ $t$
${\ displaystyle p (w \ mid t)}$ : a probabilidade de que o tema do corpus seja atribuído à palavra $t$ $C$

Em seguida, escolhemos o novo tema t com a probabilidade . Isso corresponde à probabilidade de o tópico gerar a palavra no documento . ${\ displaystyle p (t \ mid d) \ times p (w \ mid t)}$ $t$ $C$ $d$

Ao repetir as etapas anteriores um grande número de vezes, as atribuições se estabilizam. Obtemos a mescla de temas presentes em cada documento contando cada representação de um tema (atribuído às palavras do documento). As palavras associadas a cada tópico são obtidas pela contagem das palavras associadas a ele no corpus.

Notas e referências

David Blei, Andrew Ng e Michael I. Jordan, " Latent Dirichlet Allocation ", Proceedings of the 14th International Conference on Neural Information Processing Systems: Natural and Synthetic , Vancouver, British Columbia, Canada, MIT Press, n o NIPS'01, Além disso, você precisa saber mais sobre o assunto.2001, p. 601-608 ( ler online , consultado em 7 de janeiro de 2020 )

Bibliografia

(pt) David M. Blei, Andrew Y. Ng e Michael I. Jordan, “ Latent dirichlet alocação ” , Journal of machine Learning research , John Lafferty, vol. 3,2003, p. 993-1022 ( ler online , consultado em 7 de janeiro de 2020 )
(pt) Thomas L. Griffiths, Mark Steyvers, David M. Blei e Joshua B. Tenenbaum, " Integrating Topics and Syntax " , Advances in Neural Information Processing Systems 17 , LK Saul e Y. Weiss e L. Bottou,2005, p. 537-544 ( ler online , consultado em 7 de janeiro de 2020 )

Veja também

links externos

(en) Kevin R. Canini, Lei Shi e Thomas Griffiths, " Online Inference of Topics with Latent Dirichlet Allocation " , Proceedings of the Twelth International Conference on Artificial Intelligence and Statistics , PMLR "Proceedings of Machine Learning Research" ,2009, p. 65-72 ( ler online )