Similaridade de cosseno

A similaridade do cosseno fornece a similaridade de dois vetores em $n$ dimensões determinando o cosseno do ângulo. Essa pontuação é freqüentemente usada na mineração de texto .

Sejam dois vetores $A$ e $B$ , o cosseno de seu ângulo $θ é$ obtido tomando seu produto escalar dividido pelo produto de suas normas :

{\ displaystyle \ cos \ theta = {\ frac {\ mathbf {A} \ cdot \ mathbf {B}} {\ | \ mathbf {A} \ | \ | \ mathbf {B} \ |}}}

O valor de um cosseno, portanto aquele calculado aqui para $cos θ$ , está incluído no intervalo $[-1,1]$ . O valor de -1 indica vectores opostas, o valor de 0 indica vectores independentes (ortogonais), e o valor de 1 indica co - lineares vectores com um coeficiente positivo. Os valores intermediários são usados para avaliar o grau de similaridade.

No caso de uma comparação de documentos textuais

A similaridade de cosseno é freqüentemente usada como uma medida de similaridade entre dois documentos. Pode ser uma questão de comparar os textos de um corpus para fins de classificação (agrupando todos os documentos relativos a um determinado tema), ou de pesquisar informações (neste caso, um documento vetorizado é constituído pelas palavras do consulta e é comparada medindo o cosseno do ângulo com os vetores correspondentes a todos os documentos presentes no corpus. Assim, avaliamos quais são os mais próximos).

Como a medição do ângulo entre dois vetores só pode ser feita com valores numéricos, temos que imaginar uma maneira de converter as palavras de um documento em números. Partiremos de um índice correspondente às palavras presentes nos documentos e a seguir atribuiremos valores a essas palavras. A forma mais simples pode ser contar o número de ocorrências de palavras em documentos.

Como regra geral, para medir com precisão a similaridade entre sequências de texto, os vetores são construídos de acordo com um cálculo do tipo TF-IDF ( frequência de termo - frequência de documento inversa ) que permite estimar a importância de uma palavra em relação ao documento que o contém, tendo em conta o peso desta palavra no corpus completo.

Índice Tanimoto

O índice de Tanimoto adota essa ideia no caso de atributos binários. É definido da seguinte forma:

T (A, B) = \ frac {A \ cdot B} {\ | A \ | ^ 2 + \ | B \ | ^ 2 - A \ cdot B}

Veja também

Índice de Jaccard e distância

Referências

Singhal, Amit (2001). "Modern Information Retrieval: A Brief Overview". Boletim do Comitê Técnico de Engenharia de Dados da IEEE Computer Society 24 (4): 35–43.
Elsa Negre , Comparação de textos: algumas abordagens ... ,Abril de 2013( leia online )
Dávid Bajusz , Anita Rácz e Károly Héberger , “ Por que o índice Tanimoto é uma escolha apropriada para cálculos de similaridade baseados em impressão digital? », Journal of Cheminformatics , vol. 7,20 de maio de 2015( ISSN 1758-2946 , PMID 26052348 , PMCID 4456712 , DOI 10.1186 / s13321-015-0069-3 , ler online , acessado em 20 de fevereiro de 2020 )