K-means

Algoritmo de k-médias

Natureza	Algoritmo de particionamento de dados ( d )

O particionamento em k -means (ou k -means em inglês) é um método de particionamento de dados e um problema de otimização combinatória . Dados pontos e um inteiro k , o problema é dividir os pontos em k grupos, muitas vezes chamados de clusters , de modo a minimizar uma determinada função. Consideramos a distância de um ponto da média dos pontos de seu cluster; a função a ser minimizada é a soma dos quadrados dessas distâncias.

Existe uma heurística clássica para esse problema, freqüentemente chamada de métodos k- médias , usada para a maioria das aplicações. O problema também é estudado como um problema de otimização clássico, com, por exemplo, algoritmos de aproximação .

As k- médias são usadas em particular na aprendizagem não supervisionada, onde as observações são divididas em k partições. Os clusters dinâmicos são uma generalização do princípio para o qual cada partição é representada por um anel pode ser mais complexo do que a média. Um algoritmo clássico de k- médias é o mesmo que o algoritmo de quantização Lloyd-Max .

Definição

Dado um conjunto de pontos ( x 1 , x 2 ,…, x n ), tentamos particionar os n pontos em k conjuntos S = { S 1 , S 2 ,…, S k } ( k ≤ n ) minimizando o distância entre os pontos dentro de cada partição:

{\ underset {\ mathbf {S}} {\ operatorname {arg \, min}}} \ sum _ {i = 1} ^ {k} \ sum _ {\ mathbf {x} _ {j} \ in S_ { i}} \ left \ | \ mathbf {x} _ {j} - {\ boldsymbol {\ mu}} _ {i} \ right \ | ^ {2}

onde μ i é o baricentro dos pontos em S i .

Histórico

O termo " k -means" foi usado pela primeira vez por James MacQueen em 1967, embora a ideia original tenha sido proposta por Hugo Steinhaus em 1957. O algoritmo clássico foi proposto por Stuart Lloyd em 1957 para fins de modulação por código de pulso , mas não foi lançado fora da Bell Labs antes de 1982. em 1965, EW Forgy publicou um método essencialmente semelhante, razão pela qual às vezes é chamado de "método de Lloyd Forgy". Uma versão mais eficiente, codificada em Fortran , foi publicada por Hartigan e Wong em 1975/1979.

Algoritmo clássico

Existe um algoritmo clássico para o problema, às vezes chamado de método k-means , amplamente utilizado na prática e considerado eficiente, embora não garanta a otimização nem o tempo de computação polinomial .

Descrição

Escolha k pontos que representam a posição média das partições iniciais m 1 (1) ,…, m k (1) (aleatoriamente, por exemplo);
Repita até que haja convergência:

- atribuir cada observação à partição mais próxima (ou seja, realizar uma partição Voronoi de acordo com os meios):

{\ displaystyle S_ {i} ^ {(t)} = \ left \ {\ mathbf {x} _ {j}: {\ big \ |} \ mathbf {x} _ {j} - \ mathbf {m} _ {i} ^ {(t)} {\ big \ |} \ leq {\ big \ |} \ mathbf {x} _ {j} - \ mathbf {m} _ {i ^ {*}} ^ {(t )} {\ big \ |} \ \ forall \ i ^ {*} = 1, \ ldots, k \ right \}}

, - atualizar a média de cada cluster:

\ mathbf {m} _ {i} ^ {(t + 1)} = {\ frac {1} {| S_ {i} ^ {(t)} |}} \ sum _ {\ mathbf {x} _ { j} \ in S_ {i} ^ {(t)}} \ mathbf {x} _ {j}

Inicialização

A inicialização é um fator determinante na qualidade dos resultados (mínimo local). Muitos trabalhos tratam desse ponto. Existem dois métodos de inicialização usuais: o método de Forgy de um lado e o particionamento aleatório do outro. O método de Forgy atribui os k pontos das médias iniciais a k dados de entrada escolhidos aleatoriamente. O particionamento aleatório atribui aleatoriamente um cluster para cada parte dos dados e então prossegue para o (primeiro) cálculo dos pontos médios iniciais.

K-means ++ é um algoritmo de inicialização de k pontos que propõe uma inicialização melhorando a probabilidade de obtenção da solução ótima (mínimo global). A intuição por trás dessa abordagem é distribuir os k pontos das médias iniciais. O ponto médio inicial do primeiro cluster é escolhido aleatoriamente a partir dos dados. Em seguida, cada ponto médio inicial é escolhido a partir dos pontos restantes, com uma probabilidade proporcional ao quadrado da distância entre o ponto e o cluster mais próximo.

Análise

Existe um número finito de partições possíveis com k classes. Além disso, cada etapa do algoritmo diminui estritamente a função de custo, positiva, e revela uma partição melhor. Isso permite afirmar que o algoritmo sempre converge em tempo finito, ou seja, termina.

O particionamento final nem sempre é ideal. Além disso, o tempo de cálculo pode ser exponencial no número de pontos, mesmo no plano. Na prática, é possível impor um limite ao número de iterações ou um critério de melhoria entre as iterações.

Em k fixo, a complexidade suave é polinomial para algumas configurações, incluindo pontos no espaço euclidiano e o caso da divergência de Kullback-Leibler . Se k fizer parte da entrada, a complexidade suave ainda é polinomial para o caso euclidiano. Esses resultados explicam em parte a eficiência do algoritmo na prática.

Outros aspectos algorítmicos

O problema das k- médias é NP-difícil no caso geral. No caso euclidiano, existe um algoritmo de aproximação polinomial, de razão 9, por busca local .

Formulários

Vantagens e desvantagens para a aprendizagem

Uma possível desvantagem do k-means para particionamento é que os clusters dependem da inicialização e da distância escolhida .

O fato de ter que escolher o parâmetro k a priori pode ser percebido como uma desvantagem ou uma vantagem. No caso do cálculo da bolsa de palavras, por exemplo, é possível fixar exatamente o tamanho do dicionário desejado. Pelo contrário, em certas partições de dados , será preferível dispensar tal restrição.

Quantificação vetorial

Referências

JB MacQueen (1967). “ Alguns métodos para classificação e análise de observações multivariadas ” em Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability 1 : 281–297 p .. Acessado em 7 de abril de 2009.
H. Steinhaus , " Sobre a divisão dos corpos materiais em partes ", Bull. Acad. Polon. Sci. , vol. 4, n o 12,1957, p. 801-804 ( revisões de matemática 0090073 , zbMATH 0079.16403 ) .
SP Lloyd , " Least square quantization in PCM ", Bell Telephone Laboratories Paper ,1957Publicado em jornal muito mais tarde: SP Lloyd. , “ Least squares quantization in PCM ”, IEEE Transactions on Information Theory , vol. 28, n o 21982, p. 129-137 ( DOI 10.1109 / TIT.1982.1056489 , ler online , acessado em 15 de abril de 2009 ).
EW Forgy, “ Análise de cluster de dados multivariados: eficiência versus interpretabilidade das classificações ”, Biometrics , vol. 21,1965, p. 768-769 ( JSTOR 2528559 ).
JA Hartigan, algoritmos de clustering , John Wiley & Sons, Inc.,1975.
JA Hartigan e MA Wong , “ Algorithm AS 136: A K-Means Clustering Algorithm, ” Journal of the Royal Statistical Society, Series C , vol. 28, n o 1,1979, p. 100–108 ( JSTOR 2346830 ).
David Arthur e Sergei Vassilvitskii, “ Worst-Case e Análise Smoothed do algoritmo ICP, com um aplicativo para o k meios-Method ”, SIAM J. Comput. , vol. 39, n o 2 2009, p. 766-782.
Arthur, David e Vassilvitskii, Sergei, “ k-means ++: as vantagens de uma semeadura cuidadosa ”, simpósio ACM-SIAM sobre algoritmos discretos , 2007( leia online ).
Consulte o número de Stirling para obter mais detalhes.
Andrea Vattani, “ k -means Requer Exponencialmente Muitas Iterações Mesmo no Plano, ” Discrete & Computational Geometry , vol. 45, n o 4, 2011, p. 596-616
Bodo Manthey e Heiko Röglin, “ Worst-Case and Smoothed Analysis of k-Means Clustering with Bregman Divergences ”, JoCG , vol. 4, n o 1, 2013, p. 94-132.
David Arthur, Bodo Manthey e Heiko Röglin, “ Smoothed Analysis of the k-Means Method ”, Journal of the ACM , vol. 58, n o 5, 2011, p. 19 ( ler online )
The Hardness of Kmeans Clustering Sanjoy Dasgupta, Relatório Técnico CS2008-06, Departamento de Ciência da Computação e Engenharia, Universidade da Califórnia, San Diego
Tapas Kanungo, David M. Mount, Nathan S. Netanyahu, Christine D. Piatko, Ruth Silverman e Angela Y. Wu, “ Um algoritmo de aproximação de busca local para agrupamento de k-médias ”, Comput. Geom. , vol. 28 Sem ossos 2-3, 2004, p. 89-112 ( ler online )

Veja também

Bibliografia

(en) Richard O. Duda, Peter E. Hart, David G. Stork, Pattern Classification , Wiley-interscience,2001( ISBN 0-471-05669-3 ) [ detalhe das edições ]

links externos

Implementações gratuitas

Implementações comerciais

SAS FASTCLUS
MATLAB  : kmeans