A análise de dados (também chamada de análise exploratória de dados ou EDA ) é uma família de métodos estatísticos cujas principais características são ser multidimensional e descritiva. No sentido francês, a terminologia “análise de dados” designa, portanto, um subconjunto do que é mais geralmente chamado de estatística multivariada . Certos métodos, na sua maioria geométricos , ajudam a evidenciar as relações que podem existir entre os diferentes dados e a deles derivar informação estatística que permite descrever de forma mais sucinta as principais informações contidas nesses dados. Outras técnicas permitem agrupar os dados de forma a mostrar claramente o que os torna homogêneos e, assim, compreendê-los melhor.
A análise de dados permite processar uma grande quantidade de dados e identificar os aspectos mais interessantes de sua estrutura. O sucesso desta disciplina nos últimos anos deve-se, em grande medida, às representações gráficas disponibilizadas. Esses gráficos podem destacar relacionamentos que são difíceis de capturar pela análise direta de dados; mas, sobretudo, essas representações não estão vinculadas a uma opinião “a priori” sobre as leis dos fenômenos analisados, ao contrário dos métodos da estatística clássica.
Fundações matemáticas de análise de dados começou a se desenvolver no início do XX ° século, mas é o computador que fez esta disciplina operacional, e que ajudou em um uso muito amplo. Matemática e ciência da computação estão intimamente ligadas aqui.
No sentido francês, a terminologia “análise de dados” designa um subconjunto do que é mais geralmente chamado de estatística multivariada . A análise de dados é um conjunto de técnicas descritivas, das quais a principal ferramenta matemática é a álgebra matricial, e que se expressa sem assumir a priori um modelo probabilístico.
Inclui a análise de componente principal (PCA), usada para dados quantitativos, e seus métodos derivados: análise fatorial de correspondência (CFA) usada em dados qualitativos (tabela de associação) e análise fatorial de correspondência. Múltiplos (AFCM ou ACM) generalizando o anterior. A análise canônica e a correlação canônica generalizada , que são referenciais mais teóricos como métodos de fácil aplicação, estendem vários desses métodos e vão além das técnicas de descrição. A Análise de Fatores Múltiplos é adequada para tabelas nas quais as variáveis são estruturadas em grupos e podem ser quantitativas e / ou qualitativas. A classificação automática , a análise discriminante (FDA) ou análise discriminante permitem identificar grupos homogêneos dentro da população sob a ótica das variáveis estudadas.
Além da análise de dados , a análise de componente independente (ICA) mais recente, derivada da física do sinal e inicialmente conhecida como método de separação de fonte cega , está intuitivamente mais próxima dos métodos de classificação não supervisionados. A iconografia de correlações para dados qualitativos e quantitativos, organiza as correlações entre variáveis na forma de gráficos. A análise inter-bateria de Tucker é intermediária entre a análise canônica e a análise de componente principal, a análise de redundância também chamada de análise de componente principal em variáveis instrumentais é semelhante à regressão, uma vez que as variáveis de um dos grupos analisados são consideradas dependentes, as outras como independentes e a função a ser maximizada é a soma dos coeficientes de correlação entre os dois grupos.
Além da escola francesa, a análise de dados multivariados é completada pelo método de perseguição de projeção de John Tukey e métodos de quantificação de Chikio Hayashi , cuja quantificação tipo III é semelhante à análise de correspondência. A análise fatorial anglo-saxônica, ou “ Análise Fatorial ” , aproxima-se da análise em componentes principais, sem ser equivalente, pois utiliza as técnicas de regressão para descobrir as “variáveis latentes”.
Esses métodos permitem, em particular, manipular e sintetizar a informação proveniente de grandes tabelas de dados, utilizando a estimativa das correlações entre as variáveis em estudo. A ferramenta estatística usada é a matriz de correlação ou a matriz de variância-covariância .
Os pais da moderna análise de dados são Jean-Paul Benzécri , Louis Guttman , Chikio Hayashi (projetista dos métodos conhecidos como “ Data Sciences ” ), Douglas Carroll e RN Shepard.
Mas, muito antes de seu tempo, as técnicas básicas de análise de dados já eram conhecidas. As tabelas de contingências , por exemplo, estão presentes no início da história: a armada invencível é descrita por Alvarez Paz Salas e em um livro publicado em 1588 na forma de uma tabela onde as linhas representam as frotas de navios e as colunas por características como tonelagem, número de pessoal armado, etc. Nicolas de Lamoignon de Basville, intendente do rei Luís XIV , contou e caracterizou os conventos e mosteiros da região de Languedoc em 1696.
A classificação encontra seu mestre, entre 1735 e 1758, na pessoa de Carl von Linné, que estabeleceu então os fundamentos da nomenclatura binomial e da taxonomia moderna. Robert R. Sokal e Peter HA Sneath apresentaram em 1963 métodos quantitativos aplicados à taxonomia .
Os conceitos necessários para a análise de dados modernos começaram a ser dominado no início do XIX ° século. Adolphe Quetelet , astrônomo e estatístico belga, usa o que sabe da lei gaussiana à antropometria para examinar a dispersão em torno da média (a variância ) das medidas dos tamanhos de um grupo de homens. Então, Francis Galton , por querer estudar o tamanho de pais e filhos, está interessado na variação conjunta (a covariância e a correlação ) de dois tamanhos, que está na origem do que hoje chamamos de regressão hui.
Quando Karl Pearson e Raphael Weldon tomaram posse da obra de Francis Galton, eles puderam generalizar a regressão de Galton para dados multidimensionais, então Karl Pearson teve a ideia de mudar os eixos de apresentação para expressá-los em função de variáveis independentes em 1901, estabelecendo assim as premissas da análise de componentes principais . Isso foi desenvolvido em 1933 por Harold Hotelling, que definiu a Análise Canônica em 1936 .
Marion Richardson e Frederic Kuder em 1933, buscando melhorar a qualidade dos vendedores da " Procter & Gamble " , utilizam o que hoje se chama de algoritmo ( " Reciprocal averaging " ), bastante conhecido no ACP. Herman Otto Hirschfeld , em sua publicação “ Uma conexão entre correlação e contingência ” , descobre as equações da análise de correspondência.
É a psicometria que mais desenvolve a análise de dados. Quando Alfred Binet definiu seus testes psicométricos para medir a inteligência em crianças, Charles Spearman os utilizou para definir, em 1904, sua teoria dos fatores gerais e específicos que medem a aptidão geral e a aptidão particular para uma atividade, necessária à realização dessa atividade. Louis Leon Thurstone desenvolveu as equações induzidas pela teoria dos fatores em forma de matriz em 1931 e as completou estudando o termo de erro. Também introduz a noção de eixos principais de inércia. Em 1933, Harold Hotelling propôs o uso da iteração para a diagonalização de matrizes e a busca de autovetores.
Jean-Paul Benzécri e Brigitte Escofier-Cordier propuseram a Análise Fatorial de Correspondência em 1962-65, mas em 1954 Chikio Hayashi já havia estabelecido as bases deste método sob o nome de Quantificação do Tipo III.
A análise de correspondência múltipla foi iniciada por Louis Guttman em 1941, Cyril Burt em 1950 e Chikio Hayashi em 1956. Esta técnica foi desenvolvida no Japão em 1952 por Shizuhiko Nishisato sob o nome de “ Dual Scaling ” e na Holanda em 1990 com o nome de " Análise de homogeneidade " pelo coletivo Albert Gifi.
O advento do computador, e principalmente do microcomputador, é um salto tecnológico que possibilita cálculos complexos, diagonalizações, buscas de autovalores em grandes tabelas de dados, com atrasos muito longos na obtenção de resultados. no passado.
A análise de dados é usada em todos os campos quando há muitos dados para serem compreendidos pela mente humana.
Nas ciências humanas , essa técnica é usada para identificar os resultados de pesquisas de opinião, por exemplo, com Análise de Correspondência Múltipla ou Análise Fatorial de Correspondência. A sociologia se baseia na análise de dados para entender a vida e o desenvolvimento de certas populações como o Líbano, cuja evolução é mostrada por dois estudos em 1960 e 1970, apresentados por Jean-Paul Benzécri, e a estrutura do padrão de vida e sua melhoria são analisadas por meio da análise de componentes principais. A análise de correspondência múltipla é freqüentemente usada em sociologia para analisar as respostas a um questionário. Os sociólogos Christian Baudelot e Michel Gollac usam a análise de correspondência múltipla para estudar a relação dos franceses com seu trabalho. Inspirando-se em Pierre Bourdieu para estudar um “campo” específico, o sociólogo Frédéric Lebaron emprega o MCA para analisar o campo dos economistas franceses e Hjellbrekke e seus co-autores aplicam o mesmo método para analisar o campo das elites norueguesas. Da mesma forma, François Denord e seus co-autores usam um ACM para analisar o campo de poder na França de Quem é Quem. Ainda nas obras inspiradas em Pierre Bourdieu, podemos também tomar como exemplo a análise do campo do cinema francês de Julien Duval. Os linguistas usam as técnicas de análise de texto e análise de dados para localizar um membro do espectro político, examinando a frequência de uso de certas palavras. Brigitte Escofier-Cordier estudou alguns elementos do vocabulário usado na peça de Racine , Phèdre , para mostrar como o autor usa as palavras para ancorar seus personagens na hierarquia social. Em economia , os balanços das empresas foram estudados por C. Desroussilles para descrever a estrutura e o tamanho dessas organizações usando classificação ascendente e análise de correspondência. A estrutura do consumo das famílias na CEE é apresentada por Jean-Paul Benzécri et al. nos dois eixos de uma análise de correspondência e um primeiro passo no estabelecimento de uma classificação das atividades econômicas na indústria mostra a utilidade de uma análise de correspondência e classificação hierárquica neste tipo de operação.
Na ciência e na tecnologia, alguns pesquisadores estão adotando esses métodos estatísticos para decifrar várias características do genoma . Outros usam a análise de dados para definir um processo necessário para reconhecer rostos . Em epidemiologia , o Inserm disponibiliza seus dados, os quais Husson et al. via análise fatorial de correspondência para descrever grupos de idade na França de acordo com suas causas de mortalidade . Jean-Paul Benzécri também dá exemplos do uso da análise de correspondência no contexto da aprendizagem , hidrologia e bioquímica . Um exemplo nas ciências ambientais é o estudo dos vestígios de metais no trigo em função dos solos cultivados, que utiliza a análise de correlações canônicas geralmente considerada como uma ferramenta bastante teórica. Na primeira década deste século, o Observatoire des Maladies du Bois de la Vigne procurou medir a evolução de três doenças da videira praticando, entre outros métodos, a análise de correspondências múltiplas e a análise de componentes principais numa epidemiologia vegetal projeto .
O campo do esporte gosta muito de estatística: um médico do esporte se questiona sobre a idade dos praticantes, suas motivações e o esporte que praticam. Em outro estudo, o esporte se interessa pelas motivações dos atletas que vão da amizade e camaradagem à assertividade representada em um eixo, e da natureza e beleza à combatividade em um segundo eixo. O sociólogo busca saber se a sociabilidade dos adeptos de um esporte é influenciada por sua prática, a biometria humana caracteriza a morfologia do atleta de acordo com o esporte que pratica, e no caso dos esportes coletivos a posição que ocupa na equipe, etc.
O microfinanciamento também assumiu a análise de dados para avaliar o risco e identificar as populações de mutuários. O setor de seguros usa análise de dados para conscientização de riscos e preços iniciais.
Representar dados multidimensionais em um espaço de dimensão reduzida é o campo da análise fatorial, análise fatorial de correspondência, análise de componente principal, análise de correspondência múltipla. Esses métodos permitem representar a nuvem de pontos a ser analisada em um plano ou em um espaço tridimensional, sem muita perda de informações e sem pressupostos estatísticos prévios. Em matemática , eles exploram a computação de matrizes e a análise de vetores e valores próprios .
A análise de componentes principais é usada para reduzir p variáveis correlacionadas a um número q de variáveis não correlacionadas de modo que as variáveis q sejam combinações lineares das variáveis p originais, sua variância é máxima e as novas variáveis são ortogonais entre elas seguem uma distância particular. No PCA, as variáveis são quantitativas.
Os componentes, as novas variáveis, definem um subespaço q-dimensional no qual os indivíduos são projetados com perda mínima de informação. Neste espaço, a nuvem de pontos é mais fácil de representar e a análise é mais fácil. Na análise de correspondência, a representação de indivíduos e variáveis não é feita no mesmo espaço.
A medição da qualidade da representação dos dados pode ser realizada a partir do cálculo da contribuição da inércia de cada componente para a inércia total. No exemplo dado nas duas imagens ao lado, o primeiro componente contribui com 45,89% para a inércia total, o segundo com 21,2%.
Quanto mais próximas as variáveis estão dos componentes, mais elas estão correlacionadas com eles. O analista usa essa propriedade para a interpretação dos eixos. No exemplo da fig. 01, os dois componentes principais representam a atividade principal e a atividade secundária mais frequente em que Mulheres (F) e Homens (M) casaram (M) ou solteiros (C) nos Estados Unidos (U) ou na Europa Ocidental (W) compartilhar seu dia. Na figura 02 está ilustrado o círculo de correlações onde as variáveis são representadas de acordo com sua projeção no plano dos dois primeiros componentes. Quanto mais as variáveis são bem representadas, mais perto estão do círculo. O cosseno do ângulo formado por duas variáveis é igual ao coeficiente de correlação entre essas duas variáveis.
Da mesma forma, quanto menor o ângulo gerado pelo indivíduo e o eixo dos componentes, melhor o indivíduo é representado. Se dois indivíduos, bem representados por um eixo, estão próximos, eles estão próximos em seu espaço. Se dois indivíduos estão distantes na projeção, eles estão distantes em seu espaço.
O objetivo do AFC - definido por Jean-Paul Benzécri e suas equipes - é encontrar ligações ou correspondências entre duas variáveis qualitativas (nominais). Essa técnica processa as tabelas de contingência dessas duas variáveis. Na verdade, um AFC é um PCA nessas tabelas derivado da tabela inicial fornecida com a métrica du . O princípio do AFC é idêntico ao do PCA. Os eixos explicativos que fundamentam a tabela de frequências de duas variáveis qualitativas são buscados e apresentados em um gráfico.
Existem pelo menos duas diferenças entre PCA e CFA: a primeira é que podemos representar indivíduos e variáveis no mesmo gráfico, a segunda diz respeito à similaridade. Dois pontos de linha estão próximos na representação gráfica, se os perfis das colunas forem semelhantes. Por exemplo, no gráfico da figura 03, Paris e os Yvelines votaram de maneira semelhante, o que não é óbvio quando olhamos para a tabela de contingência inicial, pois o número de eleitores é bastante diferente nos dois departamentos. Da mesma forma, dois pontos de coluna (no exemplo das FIGS. 03 e 04 os pontos de coluna são os candidatos) são graficamente próximos se os perfis de linha forem semelhantes. No exemplo (fig. 04), os departamentos votaram em Bayrou e Le Pen da mesma forma. Os pontos de linha e de coluna não podem ser comparados de maneira simples.
Quanto à interpretação dos fatores, Jean-Paul Benzécri é muito claro:
“... interpretar um eixo é encontrar o que é análogo por um lado entre tudo o que está escrito à direita da origem, por outro lado entre tudo o que se desvia à esquerda; e expressar, de forma concisa e precisa, a oposição entre os dois extremos ... Freqüentemente, a interpretação de um fator é refinada pela consideração daqueles que vêm depois dele. "
- Jean-Paul Benzécri, Análise de dados: 2 análise de correspondência
A qualidade da representação gráfica pode ser avaliada globalmente pela parte explicada por cada eixo (medição da qualidade geral), pela inércia de um ponto projetado em um eixo dividido pela inércia total do ponto (medição da qualidade para cada modalidade), a contribuição de um eixo para a inércia total ou a razão entre a inércia de uma nuvem (profiles_lines ou profiles_columns) projetada em um eixo pela inércia total da mesma nuvem.
A Análise de Correspondência Múltipla (MCA) é uma extensão do AFC.
O ACM se propõe a analisar p (p ≥ 2) variáveis qualitativas de observações em n indivíduos. Por se tratar de uma análise fatorial resulta na representação dos dados em um espaço de dimensão reduzida gerado pelos fatores. O MCA equivale ao PCA para as variáveis qualitativas e é reduzido ao AFC quando o número de variáveis qualitativas for igual a 2.
Formalmente, um ACM é um AFC aplicado à tabela disjuntiva completa , ou então um AFC aplicado à tabela de Burt , sendo essas duas tabelas retiradas da tabela inicial. Uma tabela disjuntiva completa é uma tabela onde as variáveis são substituídas por suas modalidades e os elementos por 1 se a modalidade é cumprida 0 caso contrário para cada indivíduo. Uma tabela de Burt é a tabela de contingência das p variáveis tomadas em pares.
A interpretação é feita ao nível das modalidades cujas proximidades são examinadas. Os valores próprios são usados apenas para determinar o número de eixos pelo método do cotovelo ou tomando apenas os valores próprios maiores que . A contribuição da inércia das modalidades para a dos diferentes eixos é analisada como na AFC.
A utilização de variáveis adicionais, variáveis que não participam na constituição dos eixos nem no cálculo dos autovalores, pode ajudar na interpretação dos eixos.
A qualidade da representação de um indivíduo em um eixo fatorial é medida por onde é o ângulo formado pela projeção do vetor individual no espaço fatorial com o eixo fatorial. Quanto mais próximo for o valor de 1, melhor será a qualidade.
A análise canônica permite comparar dois grupos de variáveis quantitativas, ambos aplicados aos mesmos indivíduos. O objetivo da análise canônica é comparar esses dois grupos de variáveis para ver se eles descrevem o mesmo fenômeno, caso em que o analista pode prescindir de um dos dois grupos de variáveis.
Um exemplo revelador é o das análises médicas realizadas nas mesmas amostras por dois laboratórios diferentes. A análise canônica generaliza métodos tão diversos quanto regressão linear , análise discriminante e análise de correspondência fatorial .
Mais formalmente, se e são dois grupos de variáveis, a análise canônica procura pares de vetores , combinações lineares das variáveis de e , respectivamente, o mais correlacionado possível. Essas variáveis são chamadas de variáveis canônicas. No espaço, eles são os autovetores das projeções e, respectivamente, no subespaço de e , onde p e q representam o número de variáveis dos dois grupos, gerado pelos dois conjuntos de variáveis. mede a correlação entre os dois grupos. Quanto maior essa medida, mais os dois grupos de variáveis se correlacionam e mais expressam o mesmo fenômeno nos indivíduos.
Na ilustração da figura 08, as correlações entre as variáveis dentro dos dois grupos são representadas pelos correlogramas superiores, a correlação entre os dois grupos é explicada a seguir. Se a cor dominante fosse verde claro, nenhuma correlação teria sido detectada. Na figura 07, os dois grupos de variáveis estão reunidos no círculo de correlações relacionadas às duas primeiras variáveis canônicas.
Finalmente, a análise canônica generalizada no sentido de Caroll (após JDCaroll) estende a análise canônica ordinária ao estudo de p grupos de variáveis (p> 2) aplicados ao mesmo espaço de indivíduos. Admite como casos especiais PCA, AFC e MCA, análise canônica simples, mas também regressão simples e múltipla, análise de variância , análise de covariância e análise discriminante.
Para usar esta técnica, as tabelas não devem ser variáveis características dos indivíduos, mas “distâncias” entre os indivíduos. O analista deseja estudar as semelhanças e diferenças entre esses indivíduos.
O posicionamento multidimensional ( “ escala multidimensional ” ou MDS) é, portanto, um método fatorial aplicável em matrizes de distâncias entre indivíduos. Esse método não faz parte do que costuma ser chamado de análise de dados “estilo francês”. Mas tem as mesmas características dos métodos anteriores: é baseado no cálculo matricial e não requer uma hipótese probabilística. Os dados podem ser medidas de p variáveis quantitativas sobre n indivíduos, e neste caso o analista calcula a matriz de distâncias ou diretamente uma tabela de distâncias entre indivíduos.
No caso clássico denominado métrico, a medida de dissimilaridades usada é uma distância euclidiana. Torna possível aproximar as dissimilaridades entre os indivíduos no espaço de dimensão reduzida. No caso não métrico, os dados são ordinais, do tipo de classificação. O analista está mais interessado na ordem das diferenças do que em sua extensão. O MDS não métrico utiliza um índice de dissimilaridade (equivalente a uma distância mas sem a desigualdade triangular) e permite a aproximação da ordem das entradas na matriz de dissimilaridades pela ordem das distâncias no espaço de dimensão reduzida.
Como no PCA, é necessário determinar o número de dimensões do espaço alvo, e a qualidade da representação, é medida pela razão da soma da inércia do subespaço dimensional reduzido com a inércia total. Na verdade, a métrica MDS é equivalente a um PCA onde os objetos da análise MDS seriam os indivíduos do PCA. No exemplo ao lado, as cidades seriam os indivíduos do PCA e o posicionamento GPS substituiria as distâncias intermunicipais. Mas a análise MDS estende o PCA, uma vez que pode usar funções de similaridade / dissimilaridade menos restritivas do que distâncias.
Com o posicionamento multidimensional, a visualização de matrizes de dissimilaridades, a análise de benchmarks e o particionamento visual de dados ou matrizes de dissimilaridades são operações fáceis de realizar.
A análise de múltiplos fatores (MFA) é dedicada a tabelas nas quais um conjunto de indivíduos é descrito por vários grupos de variáveis, sejam essas variáveis quantitativas, qualitativas ou mistas. Este método é menos conhecido do que os anteriores, mas seu grande potencial de aplicação merece menção especial.
Exemplos de aplicaçãoEm todos esses exemplos, é útil levar em consideração, na própria análise e não apenas na interpretação, a estrutura das variáveis em grupos. Isso é o que o AFM faz:
Esses métodos, desenvolvidos mais recentemente, são menos conhecidos que os anteriores.
A classificação de indivíduos é o domínio da classificação automática e da análise discriminante. Classificar consiste em definir classes, classificar é a operação que permite colocar um objeto em uma classe definida de antemão. A classificação automática é conhecida como classificação não supervisionada de mineração de dados ( " mineração de dados " ); a análise discriminante é uma técnica estatística conhecida como nome de agrupamento de mineração de dados.
O objetivo da classificação automática é dividir todos os dados estudados em um ou mais subconjuntos chamados classes, cada subconjunto deve ser o mais homogêneo possível. Os membros de uma classe são mais parecidos com os outros membros da mesma classe do que os membros de outra classe. Podem ser identificados dois tipos de classificação: por um lado, a classificação (partição ou sobreposição) "plana" e, por outro lado, a partição hierárquica. Em ambos os casos, classificar significa escolher uma medida de similaridade / dissimilaridade, um critério de homogeneidade, um algoritmo e, às vezes, várias classes que constituem a partição.
Classificação "plana"A semelhança (similaridade / dissimilaridade) dos indivíduos é medida por um índice de similaridade, um índice de dissimilaridade ou uma distância. Por exemplo, para dados binários, é frequente a utilização de índices de semelhança como o índice de Jaccard , o índice de Dice, o índice de concordância ou o de Tanimoto . Para dados quantitativos, a distância euclidiana é a mais apropriada, mas a distância de Mahalanobis às vezes é adotada. Os dados são matrizes de p variáveis qualitativas ou quantitativas medidas em n indivíduos, ou dados de distância ou dados de dissimilaridade diretamente.
O critério de homogeneidade de classe é geralmente expresso pela diagonal de uma matriz de variância-covariância interclasse ou intraclasse (inércia). Este critério permite convergir os algoritmos de realocação dinâmica que minimizam a inércia intraclasse ou maximizam a inércia interclasse.
Os algoritmos principais usam realocação dinâmica aplicando o método BW Forgy de centros móveis , ou uma de suas variantes: o método k-means , o método da nuvem dinâmica ou PAM ( " Partitioning Around Medoids (PAM) " ).
Os métodos baseados no método de Condorcet , o algoritmo de maximização da expectativa , as densidades também são usados para construir uma classificação.
Não existe classificação melhor do que as outras, principalmente quando o número de classes na partição não é predeterminado. Portanto, é necessário medir a qualidade da classificação e fazer concessões. A qualidade da classificação pode ser medida através do índice que é a relação entre a inércia interclasses e a inércia total, calculada para diversos valores do número total de classes, sendo o compromisso obtido pelo método do cotovelo.
A interpretação das turmas, possibilitando a compreensão da pontuação, pode ser realizada por meio da análise dos indivíduos que compõem cada turma. O estatístico pode contar os indivíduos em cada classe, calcular o diâmetro das classes - ou seja, a distância máxima entre os indivíduos de cada classe. Ele consegue identificar indivíduos próximos ao centro de gravidade, estabelecer a separação entre duas classes - operação que consiste em medir a distância mínima entre dois membros dessas classes. Ele também pode analisar as variáveis, por exemplo, calculando a frequência de certos valores de variáveis tomadas pelos indivíduos de cada classe, ou caracterizando as classes por certos valores de variáveis tomadas pelos indivíduos de cada classe.
Classificação hierárquicaOs dados de entrada de uma classificação ascendente hierárquica (HAC) são apresentados na forma de uma tabela de dissimilaridades ou uma tabela de distâncias entre os indivíduos.
Primeiro tivemos que escolher uma distância (Euclidiana, Manhattan, Chebyshev ou outro) ou um índice de similaridade (Jacard, Sokal, Sorensen, coeficiente de correlação linear ou outro).
A classificação ascendente propõe classificar os indivíduos por meio de um algoritmo iterativo. Em cada etapa, o algoritmo produz uma partição agregando duas classes da partição obtida na etapa anterior.
O critério de escolha das duas classes depende do método de agregação. O mais utilizado é o método de Ward, que consiste em agregar as duas classes que menos baixam a inércia interclasse. Existem outros índices de agregação, como o do salto mínimo ( " ligação única " ), onde duas partições são agregadas para as quais dois elementos - o primeiro pertencente à primeira classe, o segundo ao segundo - são os mais próximos de acordo com a distância. Predefinido, ou o do diâmetro ( “ ligação completa ” ) para o qual as duas classes a serem agregadas são aquelas que possuem o par de elementos mais distante.
O algoritmo ascendente termina quando há apenas uma classe restante.
A qualidade da classificação é medida pela razão entre a inércia entre as classes e a inércia total.
Estratégias mistas, combinando uma classificação “plana” com uma classificação hierárquica, oferecem algumas vantagens. A realização de um ACH em classes homogêneas obtidas por uma classificação por realocação dinâmica torna possível processar grandes tabelas de vários milhares de indivíduos, o que não é possível por um ACH sozinho. A realização de ACH após amostragem e análise fatorial permite obter classes homogêneas em relação à amostragem.
A análise de fator discriminante (DFA), que é a parte descritiva da análise discriminante, também é conhecida como análise discriminante linear, análise discriminante de Fisher e análise discriminante canônica. Essa técnica projeta classes predefinidas em planos fatoriais que discriminam o máximo possível. A tabela de dados descreve n indivíduos nos quais p variáveis quantitativas e uma variável qualitativa com modalidades q foram medidas. A variável qualitativa permite definir as classes q e o agrupamento dos indivíduos nessas classes. AFD se propõe a encontrar variáveis q-1, chamadas variáveis discriminantes, cujos eixos mais separam as projeções das classes q que cortam a nuvem de pontos.
Como em todas as análises fatoriais descritivas, nenhuma suposição estatística é feita de antemão; é apenas na parte preditiva da análise discriminante que as suposições a priori são feitas.
A medição da qualidade da discriminação é realizada usando o Wilks que é igual à razão do determinante da matriz de variância-covariância intraclasse na determinação da matriz de variância-covariância total. Um Wilks fraco indica forte discriminação por experimentos fatoriais. Por exemplo, nos dados Iris, é 0,0234 nos primeiros dois fatores. Além disso, se o primeiro autovalor for próximo a 1, o AFD é de qualidade.
A correlação entre as variáveis e os fatores permite interpretá-los.
AFD é uma PCA realizada nos baricentros das classes de indivíduos formadas a partir das modalidades da variável qualitativa. É também uma análise canônica entre o conjunto das variáveis quantitativas e aquele constituído pela tabela disjuntiva da variável qualitativa.
Baseando-se no que Henry Rouanet e seus coautores escrevem, a análise descritiva de dados e a análise preditiva podem ser complementares e, às vezes, produzir resultados semelhantes.
A abordagem PLS é mais preditiva do que descritiva, mas as ligações com certas análises que acabamos de ver foram claramente estabelecidas.
O algoritmo de Herman Wold , denominado primeiro NILES ( " Estimativa não linear por Mínimos Quadrados Iterativos " ) e, em seguida, NIPALS ( " Estimativa Não Linear por Mínimos Quadrados Parciais Iterativos " ) foi projetado primeiro para a análise de componentes .
Além disso, o PLS permite encontrar a análise canônica com dois blocos de variáveis, a análise inter-baterias de Tucker, a análise de redundância e a análise canônica generalizada no sentido de Carroll. A prática mostra que o algoritmo PLS converge para os primeiros autovalores no caso da análise inter-baterias de Tucker, análise canônica com dois blocos de variáveis e análise de redundância.
A Regressão de Componentes Principais (PCR) utiliza PCR para reduzir o número de variáveis, substituindo-as pelos componentes principais que têm a vantagem de não serem correlacionados. PLS e PCR são freqüentemente comparados entre si na literatura.
Já mencionado anteriormente neste artigo, a análise canônica é equivalente à regressão linear quando um dos dois grupos se reduz a uma única variável.
A análise de dados moderna não pode ser separada do uso de computadores; muitos programas de software que permitem o uso dos métodos de análise de dados vistos neste artigo podem ser citados. SPSS , Statistica , HyperCube , SAS e CORICO fornecem módulos completos de análise de dados; Software R também com bibliotecas como FactoMineR, Ade4 ou MASS; Braincube, solução de análise de big data para a indústria.