A similaridade do cosseno fornece a similaridade de dois vetores em n dimensões determinando o cosseno do ângulo. Essa pontuação é freqüentemente usada na mineração de texto .
Sejam dois vetores A e B , o cosseno de seu ângulo θ é obtido tomando seu produto escalar dividido pelo produto de suas normas :
.O valor de um cosseno, portanto aquele calculado aqui para cos θ , está incluído no intervalo [-1,1] . O valor de -1 indica vectores opostas, o valor de 0 indica vectores independentes (ortogonais), e o valor de 1 indica co - lineares vectores com um coeficiente positivo. Os valores intermediários são usados para avaliar o grau de similaridade.
A similaridade de cosseno é freqüentemente usada como uma medida de similaridade entre dois documentos. Pode ser uma questão de comparar os textos de um corpus para fins de classificação (agrupando todos os documentos relativos a um determinado tema), ou de pesquisar informações (neste caso, um documento vetorizado é constituído pelas palavras do consulta e é comparada medindo o cosseno do ângulo com os vetores correspondentes a todos os documentos presentes no corpus. Assim, avaliamos quais são os mais próximos).
Como a medição do ângulo entre dois vetores só pode ser feita com valores numéricos, temos que imaginar uma maneira de converter as palavras de um documento em números. Partiremos de um índice correspondente às palavras presentes nos documentos e a seguir atribuiremos valores a essas palavras. A forma mais simples pode ser contar o número de ocorrências de palavras em documentos.
Como regra geral, para medir com precisão a similaridade entre sequências de texto, os vetores são construídos de acordo com um cálculo do tipo TF-IDF ( frequência de termo - frequência de documento inversa ) que permite estimar a importância de uma palavra em relação ao documento que o contém, tendo em conta o peso desta palavra no corpus completo.
O índice de Tanimoto adota essa ideia no caso de atributos binários. É definido da seguinte forma:
.