Padrão vetorial

Um modelo vetorial (às vezes chamado de semântica vetorial ) é um método algébrico de representação de um documento com o objetivo de dar conta da semântica , proposto por Gerard Salton na década de 1970. É utilizado na pesquisa de informação , em particular para pesquisa documental , classificação ou filtragem de dados. Este modelo originalmente dizia respeito a documentos textuais e, desde então, foi estendido a outros tipos de conteúdo. O primeiro exemplo de uso deste modelo é o sistema SMART .

Problemático

O modelo vetorial é uma representação matemática do conteúdo de um documento, de acordo com uma abordagem algébrica .

O conjunto de representação de documento é um vocabulário que compreende termos de indexação. Estas são tipicamente as palavras mais significativas do corpus considerado: substantivos comuns, substantivos próprios, adjetivos ... Eles podem ser construções mais elaboradas, como expressões ou entidades semânticas. Cada elemento do vocabulário está associado a um índice arbitrário exclusivo.

Cada conteúdo é assim representado por um vetor v , cuja dimensão corresponde ao tamanho do vocabulário. Cada elemento v i do vetor v consiste em um peso associado ao termo com índice i e ao texto de amostra. Um exemplo simples é identificar v i pelo número de ocorrências do termo i no texto de amostra. O componente do vetor, portanto, representa o peso da palavra no documento. Um dos esquemas de ponderação mais amplamente usados é o TF-IDF . $eu$

Proximidade entre documentos

Dada uma representação vetorial de um corpus de documentos, podemos introduzir uma noção de espaço vetorial no espaço de documentos de linguagem natural. Chegamos à noção matemática de proximidade entre documentos.

Ao introduzir medidas de similaridade adequadas, podemos quantificar a proximidade semântica entre diferentes documentos. As medidas de similaridade são escolhidas dependendo da aplicação. Uma medida amplamente utilizada é a similaridade de cosseno , que consiste em quantificar a similaridade entre dois documentos calculando o cosseno entre seus vetores. A proximidade de um pedido a um documento será, portanto, dada por: $q$ $d_1$

\ cos {\ alpha} = {\ frac {{\ mathbf {d_ {1}}} \ cdot {\ mathbf {q}}} {\ left \ | {\ mathbf {d_ {1}}} \ right \ | \ left \ | {\ mathbf {q}} \ right \ |}}

Ao manter o cosseno, estamos de fato expressando uma semelhança. Em particular, um valor nulo indica que a consulta é estritamente ortogonal ao documento. Fisicamente, isso reflete a ausência de palavras em comum entre e . Além disso, essa medição não é sensível à norma dos vetores, portanto, não leva em consideração o comprimento dos documentos. $q$ $d_1$

Uma vantagem da similaridade de cosseno é que ela pode aproveitar com eficiência uma implementação de índice reverso , desde que o padrão do documento também seja indexado. Cada elemento diferente de zero da consulta permite encontrar documentos potencialmente relevantes e o produto escalar (numerador da semelhança do cosseno) é calculado simultaneamente por acumulação “on-line”. $q$

Uma alternativa igualmente eficiente é calcular o quadrado da norma L2 entre e expresso por: $q$ $d_1$

\ | {\ mathbf {q-d_ {1}}} \ | _ {2} ^ {2} = \ | {\ mathbf {q}} \ | _ {2} ^ {2} + \ | {\ mathbf {d_ {1}}} \ | _ {2} ^ {2} -2 {\ mathbf {d_ {1}}} \ cdot {\ mathbf {q}}

Uma vez que essa abordagem depende das mesmas magnitudes da similaridade do cosseno, também é eficiente calcular por meio de uma implementação por índice invertido .

Formulários

Dentre as aplicações existentes, podemos citar:

categorização: agrupa documentos automaticamente em categorias predefinidas.
classificação: dado um conjunto de documentos, determine automaticamente as categorias que permitirão que os documentos sejam separados da melhor forma possível (categorização não supervisionada).
a pesquisa bibliográfica : encontre os documentos que melhor se adequam a uma aplicação (que motor de busca ); a solicitação do usuário é considerada um documento, traduzida em vetor e comparada aos vetores contidos no corpus de documentos indexados.
Filtragem: classifica os documentos em tempo real em categorias predefinidas (por exemplo, identifique spam com base em um número suspeito de ocorrências da palavra "pênis" em um e-mail e envie-o automaticamente para a lixeira).

Vantagens e desvantagens

O modelo vetorial é relativamente fácil de entender (álgebra linear) e é fácil de implementar. Torna possível encontrar documentos de forma bastante eficiente em um corpus não estruturado ( busca de informação ), sua eficiência dependendo em grande parte da qualidade da representação (vocabulário e esquema de ponderação). A representação vetorial também permite que os documentos correspondam a uma consulta imperfeita.

Ele também tem várias limitações que foram, para alguns, corrigidas por refinamentos do modelo. Em particular, este modelo assume que os termos representativos são independentes. Assim, em um texto, a ordem das palavras não é levada em consideração. Na sua versão mais simples, também não leva em consideração os sinônimos nem a morfologia dos conteúdos.

Notas e referências

G. Salton, A. Wong, CS Yang, A vector space model for automatic indexing , Communications of the ACM, v.18 n.11, p.613-620, novembro de 1975

Veja também

Bibliografia

(pt) Gerard Salton e MJ McGill, Introdução à Recuperação de Informação Moderna ,1983[ detalhe das edições ]