Alocação de Dirichlet latente

Alocação de Dirichlet latente
Natureza Modelo de tópico
Acrônimo (in)  LDA
Nomeado em referência a Lei de dirichlet

No campo do processamento de linguagem natural , a alocação de Dirichlet latente ( Alocação latente de Dirichlet em inglês ) ou LDA é um modelo de probabilidade generativo para explicar conjuntos de observações por meio de grupos não observados - mesmo definidos por semelhanças de dados.

Tópicos em LDA

Por exemplo, se as observações ( ) são as palavras coletadas em um conjunto de documentos de texto ( ), o modelo LDA assume que cada documento ( ) é uma mistura ( ) de um pequeno número de assuntos ou tópicos , e que a geração de cada ocorrência de uma palavra ( ) é atribuível (probabilidade) a um dos temas ( ) do documento. O modelo LDA é um exemplo de “  modelo de assunto  ”. Foi apresentado pela primeira vez como um modelo gráfico para a detecção de temas de um documento, por David Blei , Andrew Ng e Michael Jordan em 2002. LDA tem muitas aplicações, particularmente em mineração de dados e processamento automático de linguagem .

Operação

Definimos uma série de temas K e tentamos aprender os temas representados em cada documento e as palavras associadas a esses temas.

Inicialização

Cada palavra de cada documento é atribuída a um tema, de acordo com uma distribuição de Dirichlet sobre um conjunto de K temas.

, com e é uma distribuição de Dirichlet com um parâmetro simétrico vazio ( )

Isso gera um primeiro "  modelo de assunto  ": temas presentes nos documentos e as palavras que definem os temas. Este modelo de assunto é muito improvável porque é gerado aleatoriamente.

Aprendendo

Procuramos melhorar o modelo de assunto gerado aleatoriamente durante a inicialização. Para isso, em cada documento, pegamos cada palavra e atualizamos o tema a que está associada. Este novo tema é o que teria maior probabilidade de gerá-lo neste documento. Portanto, assumimos que todos os temas estão corretos, exceto para a palavra em questão.

Mais precisamente: para cada palavra ( ) de cada documento ( ), calculamos duas quantidades para cada tópico ( ):

Em seguida, escolhemos o novo tema t com a probabilidade . Isso corresponde à probabilidade de o tópico gerar a palavra no documento .

Ao repetir as etapas anteriores um grande número de vezes, as atribuições se estabilizam. Obtemos a mescla de temas presentes em cada documento contando cada representação de um tema (atribuído às palavras do documento). As palavras associadas a cada tópico são obtidas pela contagem das palavras associadas a ele no corpus.

Notas e referências

  1. David Blei, Andrew Ng e Michael I. Jordan, "  Latent Dirichlet Allocation  ", Proceedings of the 14th International Conference on Neural Information Processing Systems: Natural and Synthetic , Vancouver, British Columbia, Canada, MIT Press, n o  NIPS'01, Além disso, você precisa saber mais sobre o assunto.2001, p.  601-608 ( ler online , consultado em 7 de janeiro de 2020 )

Bibliografia

Veja também

Artigos relacionados

links externos

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">