Mediana (estatísticas)

Em teoria de probabilidade e estatística , a mediana é o valor que separa a metade inferior da metade superior de um conjunto ( amostra , população , distribuição de probabilidade ). Intuitivamente, a mediana é, portanto, o ponto médio do todo. É um indicador de tendência central da série. Podemos determinar uma mediana para um conjunto de valores não numéricos, desde que possamos escolher um critério para ordenar esses valores.

Método de cálculo

Abordagem geral

Para determinar a mediana de um conjunto de valores, basta ordenar os valores em uma lista crescente e escolher o valor que está no centro dessa lista. Para uma lista ordenada de n elementos, sendo n ímpar, o valor do elemento na posição (n + 1) / 2 é a mediana. Se o número n de elementos for par, qualquer valor entre os elementos nas posições (n-1) / 2 e (n + 1) / 2 é uma mediana; na prática, no caso de uma lista de números, é a média aritmética destes dois valores centrais que é mais frequentemente utilizada .

A complexidade do algoritmo para calcular a mediana é, portanto, a complexidade do algoritmo de classificação usado, ou seja, O ( n log n ) na melhor das hipóteses .

Exemplos

Outra abordagem

Para determinar a mediana de um conjunto de valores, basta calcular as porcentagens cumulativas crescentes e tomamos o primeiro valor da série cuja porcentagem cumulativa excede 50%.

Este método é mais prático quando você tem um grande número de valores.

Eficiência de algoritmos

Existem algoritmos de complexidade linear (em O ( n )), portanto mais eficientes. São algoritmos que geralmente permitem determinar o k -ésimo elemento de uma lista de n elementos (ver Algoritmo de seleção ); k = n / 2 para a mediana. Estas são adaptações dos algoritmos de classificação, mas que são mais eficientes porque não estamos interessados ​​em todos os valores. Por exemplo, podemos usar o algoritmo de divisão e conquista apenas em operações O ( n ); no caso do algoritmo QuickSelect , altere a classificação rápida ( quicksort ), que geralmente está em O ( n ), mas pode estar em O ( n 2 ) no pior caso.

Na prática, se estivermos procurando a mediana de uma lista de n inteiros, e se tivermos a sorte de descobrir que o valor máximo m é menor que n 2 (essa descoberta custa O ( n )), então a classificação de contagem , implementação muito fácil e cujo custo é, neste caso, O ( m ) operações permite obter a mediana em menos de O ( n 2 ) operações. Este caso aplica-se em particular ao caso de notas de 20 (sem decimais) em uma classe de mais de 5 alunos (5 ao quadrado é maior que 20).

Medição de dispersão estatística

Quando a mediana é usada para localizar valores em estatísticas descritivas, existem diferentes possibilidades para expressar a variabilidade: intervalo , intervalo interquartil e intervalo absoluto . Como a mediana tem o mesmo valor do segundo quartil , seu cálculo é detalhado no artigo sobre quartis .

Medianas em distribuições de probabilidade

Para todas as distribuições de probabilidade real, a mediana m satisfaz a igualdade:

ou seja, em termos de função de distribuição  :

Portanto, para uma distribuição de probabilidade difusa (função de distribuição contínua):

Medianas de algumas distribuições

Para todas as distribuições simétricas , a mediana é igual à expectativa.

Medianas em estatísticas descritivas

A mediana é usada principalmente para distribuições distorcidas porque as representa melhor do que a média aritmética. Considere o conjunto {1, 2, 2, 2, 3, 9}. A mediana é 2, assim como a moda, que é uma medida melhor da tendência central do que a média aritmética de 3,166….

O cálculo da mediana é comumente feito para representar distribuições diferentes e é fácil de entender e calcular. Também é mais robusto do que a média na presença de valores extremos.

Propriedades teóricas

Propriedade ótima

A mediana é também o valor central que minimiza o valor médio dos desvios absolutos. Na série {1, 2, 2, 2, 3, 9} dada anteriormente, isso seria (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5, em vez de 1,944 da média, que, para sua parte, minimiza os desvios quadráticos. Na teoria da probabilidade, o valor c que minimiza

é a média da distribuição de probabilidade da variável aleatória X .

Desigualdade envolvendo médias e medianas

Para distribuições de probabilidade contínuas, a diferença entre a mediana e a expectativa é de no máximo um desvio padrão .

Notas e referências

  1. "Cálculo da média" , Statistics Canada .
  2. Fabrice Mazerolle, "  Median  " ,2012(acessado em 13 de fevereiro de 2012 ) .
  3. [ (en)  Seleção (determinística e aleatória): encontrando a mediana no tempo linear ]

Veja também

Artigos relacionados

links externos