Natureza | Modelo de tópico |
---|---|
Acrônimo | (in) LDA |
Nomeado em referência a | Lei de dirichlet |
No campo do processamento de linguagem natural , a alocação de Dirichlet latente ( Alocação latente de Dirichlet em inglês ) ou LDA é um modelo de probabilidade generativo para explicar conjuntos de observações por meio de grupos não observados - mesmo definidos por semelhanças de dados.
Por exemplo, se as observações ( ) são as palavras coletadas em um conjunto de documentos de texto ( ), o modelo LDA assume que cada documento ( ) é uma mistura ( ) de um pequeno número de assuntos ou tópicos , e que a geração de cada ocorrência de uma palavra ( ) é atribuível (probabilidade) a um dos temas ( ) do documento. O modelo LDA é um exemplo de “ modelo de assunto ”. Foi apresentado pela primeira vez como um modelo gráfico para a detecção de temas de um documento, por David Blei , Andrew Ng e Michael Jordan em 2002. LDA tem muitas aplicações, particularmente em mineração de dados e processamento automático de linguagem .
Definimos uma série de temas K e tentamos aprender os temas representados em cada documento e as palavras associadas a esses temas.
Cada palavra de cada documento é atribuída a um tema, de acordo com uma distribuição de Dirichlet sobre um conjunto de K temas.
, com e é uma distribuição de Dirichlet com um parâmetro simétrico vazio ( )
Isso gera um primeiro " modelo de assunto ": temas presentes nos documentos e as palavras que definem os temas. Este modelo de assunto é muito improvável porque é gerado aleatoriamente.
Procuramos melhorar o modelo de assunto gerado aleatoriamente durante a inicialização. Para isso, em cada documento, pegamos cada palavra e atualizamos o tema a que está associada. Este novo tema é o que teria maior probabilidade de gerá-lo neste documento. Portanto, assumimos que todos os temas estão corretos, exceto para a palavra em questão.
Mais precisamente: para cada palavra ( ) de cada documento ( ), calculamos duas quantidades para cada tópico ( ):
Em seguida, escolhemos o novo tema t com a probabilidade . Isso corresponde à probabilidade de o tópico gerar a palavra no documento .
Ao repetir as etapas anteriores um grande número de vezes, as atribuições se estabilizam. Obtemos a mescla de temas presentes em cada documento contando cada representação de um tema (atribuído às palavras do documento). As palavras associadas a cada tópico são obtidas pela contagem das palavras associadas a ele no corpus.