Natureza | Método estatístico ( d ) |
---|---|
Subclasse | Estatística multivariada |
Siglas | ACP, (en) PCA |
A análise de componente principal ( ACP ou PCA em inglês para análise de componente principal ), ou no âmbito do Karhunen-Loeve ( KLT ) é um método de família de análise de dados e mais geralmente a estatística multivariada , que envolve a transformação de variáveis ligadas entre si ( chamado de "correlacionado" nas estatísticas) em novas variáveis não correlacionadas à parte. Essas novas variáveis são chamadas de “componentes principais” ou eixos principais. Permite ao praticante reduzir o número de variáveis e tornar as informações menos redundantes.
Trata-se de uma abordagem tanto geométrica (as variáveis sendo representadas em um novo espaço, segundo direções de máxima inércia) quanto estatística (a pesquisa sobre eixos independentes que melhor explica a variabilidade - a variância - dos dados). Quando se deseja comprimir um conjunto de variáveis aleatórias, os primeiros eixos da análise de componentes principais são uma escolha melhor , do ponto de vista da inércia ou variância.
A ferramenta matemática é aplicada em outros campos além da estatística e às vezes é chamada de decomposição ortogonal para autovalores ou POD ( inglês : decomposição ortogonal adequada ).
O PCA tem suas raízes em um artigo de Karl Pearson publicado em 1901. O pai do teste χ² continuou seu trabalho no campo da regressão e correlações entre diversas variáveis. Pearson usa essas correlações não mais para explicar uma variável com base em outras (como na regressão), mas para descrever e resumir as informações contidas nessas variáveis.
Ainda conhecido como transformação de Karhunen-Loève ou transformação de Hotelling, o PCA foi desenvolvido e formalizado na década de 1930 por Harold Hotelling . O poder matemático do economista e estatístico americano também o levará a desenvolver a análise canônica de correlações , generalização das análises fatoriais da qual a PCA faz parte.
Existem muitos campos de aplicação hoje, que vão da biologia à pesquisa econômica e social e, mais recentemente, ao processamento de imagens e ao aprendizado de máquina . PCA é usado principalmente para:
O método de decomposição de autovalor ortogonal também é usado:
Primeiro exemplo
No caso de uma imagem, como na figura ao lado, os pixels são representados em um plano e considerados como uma variável aleatória bidimensional. A PCA determinará os dois eixos que melhor explicam a dispersão do objeto, interpretado como uma nuvem de pontos. Ele também os ordenará por inércia explicada, o segundo eixo sendo perpendicular ao primeiro.
Segundo exemplo
Em uma escola imaginária, apenas duas disciplinas são ministradas nas quais os alunos são avaliados: francês e matemática. Aplicando a ACP à tabela de notas, provavelmente iremos identificar no primeiro eixo valores por aluno muito próximos da sua média geral nas duas disciplinas. É este eixo que melhor sintetizará a variabilidade dos resultados de acordo com os alunos. Mas uma professora que desejasse aprofundar a análise dos resultados, também se interessou pelo segundo eixo, que ordena os alunos de acordo com a extensão das diferenças entre as duas marcas, e independentemente do primeiro eixo.
Percebemos o interesse do método PCA quando estendemos a análise a 10 disciplinas ministradas: o método calculará para cada aluno 10 novos valores, segundo 10 eixos, cada um independente dos demais. Os últimos eixos fornecerão muito pouca informação estatística: provavelmente irão destacar alguns alunos com um perfil singular. Segundo o seu ponto de vista de análise, o professor, na sua prática quotidiana, dará assim particular atenção àqueles alunos que foram destacados pelos últimos eixos do método PCA, e talvez corrija um erro que se insinuou. em sua tabela de notas, mas, inversamente, ele não levará em conta esses últimos eixos se fizer uma reflexão global enfocando as características pedagógicas principais, ou seja, principais. Se tomarmos uma classe de 1 st S como um exemplo, temos uma boa chance de ter como eixo principal um agrupamento de disciplinas científicas, e como segundo eixo assuntos literários. Essas duas variáveis explicam as notas obtidas pelos alunos da turma.
O poder do PCA é que ele também sabe levar em consideração dados de natureza heterogênea: por exemplo, uma tabela dos diferentes países do mundo com o PIB per capita, a taxa de alfabetização, a taxa de equipamentos em telefones móveis, o preço médio do hambúrguer, etc. Isso nos permite ter uma rápida intuição dos efeitos conjuntos entre essas variáveis.
Geralmente aplicamos um PCA a um conjunto de N variáveis aleatórias X 1 , ..., X N conhecidas a partir de uma amostra de realizações conjuntas dessas variáveis.
Essa amostra dessas N variáveis aleatórias pode ser estruturada em uma matriz M , com K linhas e N colunas.
Cada variável aleatória X n , das quais X 1 , n ,…, X K , n são realizações independentes, tem uma média e um desvio padrão σ Xn .
Se as realizações (os elementos da matriz M ) têm probabilidades iguais, então cada realização (um elemento da matriz) tem a mesma importância no cálculo das características da amostra. Também podemos aplicar um peso diferente a cada realização conjunta das variáveis (caso de amostras ajustadas, dados agrupados, ...). Esses pesos, que são números positivos da soma 1, são representados por uma matriz diagonal D de tamanho K :
No caso mais comum de pesos iguais, onde está a matriz de identidade .
O vetor é o centro de gravidade da nuvem de pontos; freqüentemente é observado g . Temos onde denota o vetor cujas coordenadas são iguais a 1.
A matriz M é geralmente centrada no centro de gravidade:
.Também pode ser reduzido :
.A escolha de reduzir ou não a nuvem de pontos (ou seja, as K realizações da variável aleatória ( X 1 , ..., X N )) é uma escolha de modelo:
Se as variáveis aleatórias estiverem em unidades diferentes, a redução é obrigatória.
No caso de pesos uniformes ( ), uma vez que a matriz foi transformada em ou , basta multiplicá-la por sua transposta para obter:
Essas duas matrizes são quadradas (de tamanho N ), simétricas e reais . Eles são, portanto, diagonalizáveis em uma base ortonormal em virtude do teorema espectral .
Mais geralmente, no caso de pesos não uniformes , a matriz de variância-covariância é escrita .
Além disso, se denotarmos a matriz diagonal dos inversos dos desvios padrão:
então nós temos:
.A matriz dos coeficientes de correlação linear entre as N variáveis tomadas em pares, notada R , é escrita:
.No restante deste artigo, consideraremos que a nuvem é transformada (centralizada e reduzida se necessário). Cada X n é, portanto, substituído por ou . Usaremos assim a matriz para anotar ou de acordo com o caso.
O princípio da PCA é encontrar um eixo u , resultante de uma combinação linear de X n , de forma que a variância da nuvem em torno desse eixo seja máxima.
Para entender corretamente, imagine que a variância de u é igual à variância da nuvem; teríamos então encontrado uma combinação de X n que contém toda a diversidade da nuvem original (em qualquer caso, toda a parte de sua diversidade capturada pela variância).
Um critério comumente usado é a variância da amostra (queremos maximizar a variância explicada pelo vetor u ). Para os físicos, faz mais sentido maximizar a inércia explicada por u (ou seja, minimizar a inércia da nuvem em torno de u ).
Finalmente, procuramos o vetor u de forma que a projeção da nuvem sobre tenha uma variância máxima. A projeção da amostra de X em u está escrita:
a variância empírica de é, portanto:
onde C é a matriz de covariância.
Como vimos acima que C é diagonalizável em uma base ortonormal, denotamos por P a mudança de base associada e a matriz diagonal formada por seu espectro:
Os valores da diagonal de são organizados em ordem decrescente. O vetor unitário u que maximiza é um autovetor de C associado ao autovalor ; então temos:
O autovalor é a variância empírica no primeiro eixo do PCA.
Também é possível demonstrar este resultado maximizando a variância empírica dos dados projetados em u sob a restrição de que u seja da norma 1 (por um multiplicador de Lagrange ):
DemonstraçãoA primeira condição necessária de um extremo local sob restrição é o conjunto de relações: para todos ,
é simplesmente a transposição do i -ésimo vetor da base canônica de R N (todas as coordenadas zero, exceto o i -ésimo igual a 1), então é a i -ésima linha de C , de modo que o conjunto de N equações aqui -Dessus é equivalente a : α é um valor próprio de C .
Além disso, (de acordo com a segunda condição de Lagrange sobre o cancelamento das derivadas parciais ) que é, portanto, máximo quando .
Continuamos a busca pelo segundo eixo de projeção w com o mesmo princípio, impondo que seja ortogonal a u .
A diagonalização da matriz de correlação (ou de covariância se nos colocarmos em um modelo não reduzido), nos permitiu escrever que o vetor que explica mais inércia da nuvem é o primeiro autovetor . Da mesma forma, o segundo vetor que explica a maior parte da inércia restante é o segundo autovetor, etc.
Também vimos que a variância explicada pelo k- ésimo vetor próprio é igual a λ k .
Finalmente, a questão do PCA se resume a um problema de diagonalização da matriz de correlação.
Numericamente, a matriz M sendo rectangular, pode ser mais económico para decompor valor singular , e, em seguida, recombinar a decomposição obtidos, em vez de diagonalise M M .
No PCA, geralmente queremos introduzir variáveis qualitativas adicionais. Por exemplo, muitas variáveis quantitativas foram medidas em plantas. Para essas plantas, variáveis qualitativas também estão disponíveis, por exemplo, a espécie a que a planta pertence. Esses dados estão sujeitos a uma PCA das variáveis quantitativas. Ao analisar os resultados, é natural tentar relacionar os componentes principais às espécies variáveis qualitativas . Para isso, produzimos os seguintes resultados:
Todos esses resultados constituem o que chamamos de introdução de uma variável qualitativa adicional . Este procedimento está detalhado em Escofier & Pagès 2008 , Husson, Lê & Pagès 2009 e Pagès 2013 .
Poucos softwares oferecem essa possibilidade "automaticamente". É o caso do SPAD que historicamente, seguindo o trabalho de Ludovic Lebart , foi o primeiro software a oferecê-lo, e o pacote R FactoMineR.
Se as seções anteriores trabalharam em uma amostra da lei conjunta seguida por X 1 , ..., X N , o que dizer da validade de nossas conclusões em qualquer outra amostra da mesma lei?
Vários resultados teóricos permitem responder a esta questão pelo menos parcialmente, essencialmente posicionando-se em relação a uma distribuição gaussiana como referência.
A análise de componentes principais é o mais conhecido dos métodos fatoriais; outros métodos fatoriais existem para analisar outros tipos de tabelas. Cada vez, o princípio geral é o mesmo.
Aplica-se a tabelas de contingência, ou seja, tabelas que cruzam duas variáveis qualitativas. Este tipo de tabela é muito diferente daquele analisado pelo PCA: em particular, as linhas e colunas desempenham papéis simétricos, enquanto a distinção entre linhas e colunas (ou seja, entre indivíduos e variáveis) é importante no PCA.
Aplica-se a tabelas nas quais um conjunto de indivíduos é descrito por um conjunto de variáveis qualitativas. Este tipo de tabela é, portanto, semelhante ao analisado na ACP, sendo as variáveis quantitativas substituídas por variáveis qualitativas. O MCA é frequentemente visto como um caso especial de PCA, mas esse ponto de vista é muito simplista. ACM tem propriedades específicas suficientes para ser considerado um método por si só.
Também podemos apresentar o MCA do PCA como é feito em Pagès 2013 . O interesse é ligar as molas do PCA e do MCA, o que abre caminho para o processamento simultâneo dos dois tipos de variáveis (cf. AFDM e AFM a seguir)
Os dados são constituídos por um conjunto de indivíduos para os quais existem várias variáveis, como no PCA ou no ACM. Mas, aqui, as variáveis são quantitativas e qualitativas. A análise de fator de dados mistos trata simultaneamente os dois tipos de variáveis, fazendo com que desempenhem um papel ativo. AFDM é descrito em Pagès 2013 e Escofier & Pagès 2008 .
Os dados são, aqui novamente, compostos por um conjunto de indivíduos para os quais temos várias variáveis. Mas, desta vez, além de quantitativas e / ou qualitativas, as variáveis estão estruturadas em grupos. Podem ser, por exemplo, os diferentes tópicos de um questionário. O AFM leva essa estrutura de grupo em consideração na análise desses dados. AFM é descrito em detalhes em Pagès 2013 e Escofier & Pagès 2008 .
A Análise de Componentes Principais é comumente usada como ferramenta de compressão linear. O princípio é então reter apenas os primeiros n autovetores resultantes da diagonalização da matriz de correlação (ou covariância), quando a inércia da nuvem projetada nesses n vetores representa q n por cento da inércia da nuvem original, dizemos que temos uma taxa de compressão de 1 - q n por cento, ou que comprimimos para q n por cento. Uma taxa de compressão normal é de 20%.
Os outros métodos usuais de compressão estatística são:
É possível usar o resultado de uma PCA para construir uma classificação estatística das variáveis aleatórias X 1 , ..., X N , usando a seguinte distância ( C n, n ' é a correlação entre X n e X n' ):
PCR, geralmente referido no campo do processamento de sinal e análise de imagem, em vez de seu nome de Karhunen-Loève Transform (TKL), é usado para analisar séries dinâmicas de imagens, ou seja, uma sucessão de imagens que representam o mapeamento de um quantidade, como as cintilografias dinâmicas em medicina nuclear , que permitem observar por gama-câmera o funcionamento de órgãos como o coração ou os rins .
Em uma série de imagens P, cada pixel é considerado como um ponto de um espaço afim de dimensão P cujas coordenadas são o valor do pixel para cada uma das imagens P ao longo do tempo. A nuvem assim formada por todos os pontos da imagem pode ser analisada por PCA (forma um hiperelipsóide P-dimensional) que permite determinar seus eixos principais.
Ao expressar todos os pontos no sistema de coordenadas ortogonais às P dimensões dos eixos do PCA, passamos da série temporal original (os pixels representam o valor em função do tempo) para uma nova série (também de P imagens) no espaço Karhunen-Loève: é a Transformada Karhunen-Loève, que é uma operação reversível: falamos de "TKL" e "TKL inverso" ou "TLK -1 ".
A compressão é possível porque as informações estão contidas quase inteiramente nos primeiros eixos do PCA. Mas a noção de “compressão” implica que as outras imagens correspondentes aos outros eixos sejam deliberadamente ignoradas. Sendo o TKL reversível, a supressão arbitrária dos eixos menos energéticos constitui então uma filtragem que permite reduzir o ruído temporal da série de imagens.
Concretamente, a aplicação de TKL + remoção dos eixos menos significativos + TKL -1 torna possível remover o formigamento aparente (ruído temporal) de uma série de imagens animadas.
Na imagiologia médica funcional, a qualidade visual da visualização cintilográfica do ciclo cardíaco médio é assim melhorada.
Além disso, a análise da respectiva importância dos autovalores da PCA permite abordar o número de diferentes funções fisiológicas. Pudemos assim mostrar que o coração são pode ser totalmente representado com 2 imagens (2 eixos do PCA contêm todas as informações úteis), enquanto para certas patologias a informação útil é distribuída por 3 imagens.
Tal como acontece com a aplicação anterior, com o comprimento de onda substituindo apenas o tempo, o TKL foi proposto em várias ocasiões para extrair informações úteis de uma série de imagens monocromáticas representando as intensidades para diferentes comprimentos de onda. Tais imagens podem ser obtidas em microscopia ótica convencional, confocal ou SNOM ( Near Field Optical Microscope ).
Da mesma forma, o TKL permite evidenciar diferentes cinéticas durante a análise topográfica dinâmica, ou seja, a análise da evolução do relevo ao longo do tempo. Em seguida, torna possível detectar fenômenos invisíveis por simples observação visual, mas com cinética ligeiramente diferente (por exemplo, poluição de uma superfície rugosa por um depósito).
A PCA é uma das técnicas que permitem a redução de dimensões, muito útil no Aprendizado de Máquina para melhorar a qualidade dos modelos e facilitar seu cálculo.
O pacote R FactoMineR inclui, em particular, além do ACP, todas as extensões descritas acima: AFC, ACM, AFDM e AFM). Este software está vinculado ao livro Husson, Lê & Pagès 2009 .
Podemos citar também os pacotes ade4 e adegraphics que permitem a análise e visualização (inter-, PCA intraclasse, etc.) de dados de problemas biológicos.
Exemplo em RO objetivo é realizar uma PCA com dados físico-químicos coletados por 30 estações ao longo do Doubs.
São 7 variáveis físico-químicas de interesse, medidas nas 30 estações: pH, dureza da água, fosfato, nitrato, amônia, oxigênio e demanda biológica de oxigênio. Quais dados são correlacionados? Podemos representar a poluição ao longo do rio?
Sendo os dados expressos em unidades diferentes, é do nosso interesse realizar uma PCA padronizada (centrada e reduzida) nas 7 variáveis físico-químicas.
library(ade4) library(adegraphics) data(doubs) ACP <- dudi.pca(doubs$env[,5:11], center = T, scale = T, scannf=FALSE, nf = 2) #On récupère les 5 variables physico-chimiques, on centre les données, on les réduit, on définit le nombre d'axes pour l'ACP à 2) ACP$eig #On récupère les valeurs propres s.corcircle(ACP$co, xax = 1, yax = 2) #On affiche le cercle des corrélations sur le premier plan factoriel de l'ACP s.label(ACP$li, xax = 1, yax = 2) #On affiche les stations dans le premier plan factoriel de l'ACP s.value(doubs$xy,ACP$li[,1], symbol = "circle", col = c("blue","brown"))#Les stations sont symbolisées par des cercles pour la valeur du 1er axe de l'ACP (la pollution). Les stations peu polluées sont en bleu, les stations plus polluées sont en marronA interpretação da PCA no primeiro eixo do mostra uma correlação negativa entre o nível de oxigênio e a presença de poluentes. Com , podemos representar as estações com seus valores neste eixo de poluição, simbolizado por círculos de cores diferentes.
Estações ao longo do Doubs.
O círculo de correlação (corcírculo) traçado para o primeiro plano fatorial do PCA nos dados de Doubs. O primeiro eixo mostra uma correlação negativa entre o oxigênio e 3 poluentes conhecidos: nitratos (nit), fosfatos (pho), amônia (amm). Podemos dizer que este eixo é caracterizado pela poluição. Água rica em oxigênio não tem poluentes e vice-versa. O segundo eixo é um eixo caracterizado essencialmente pelo pH.
Depois de interpretar o círculo de correlações, podemos dizer que as estações 25, 23, 24 são as mais poluídas. A estação 15 tem um pH alto.
Cada estação é substituída por um círculo tomando o valor do resultado PCA no primeiro eixo. O círculo de correlações indicou que é um eixo de poluição. Notamos que a segunda parte do rio está mais poluída que a primeira. A estação 25 tem o valor máximo de poluição. Isto é consistente com as observações do 1º plano fatorial do PCA.