Em teoria de probabilidade e estatística , a mediana é o valor que separa a metade inferior da metade superior de um conjunto ( amostra , população , distribuição de probabilidade ). Intuitivamente, a mediana é, portanto, o ponto médio do todo. É um indicador de tendência central da série. Podemos determinar uma mediana para um conjunto de valores não numéricos, desde que possamos escolher um critério para ordenar esses valores.
Para determinar a mediana de um conjunto de valores, basta ordenar os valores em uma lista crescente e escolher o valor que está no centro dessa lista. Para uma lista ordenada de n elementos, sendo n ímpar, o valor do elemento na posição (n + 1) / 2 é a mediana. Se o número n de elementos for par, qualquer valor entre os elementos nas posições (n-1) / 2 e (n + 1) / 2 é uma mediana; na prática, no caso de uma lista de números, é a média aritmética destes dois valores centrais que é mais frequentemente utilizada .
A complexidade do algoritmo para calcular a mediana é, portanto, a complexidade do algoritmo de classificação usado, ou seja, O ( n log n ) na melhor das hipóteses .
Exemplos
Para determinar a mediana de um conjunto de valores, basta calcular as porcentagens cumulativas crescentes e tomamos o primeiro valor da série cuja porcentagem cumulativa excede 50%.
Este método é mais prático quando você tem um grande número de valores.
Existem algoritmos de complexidade linear (em O ( n )), portanto mais eficientes. São algoritmos que geralmente permitem determinar o k -ésimo elemento de uma lista de n elementos (ver Algoritmo de seleção ); k = n / 2 para a mediana. Estas são adaptações dos algoritmos de classificação, mas que são mais eficientes porque não estamos interessados em todos os valores. Por exemplo, podemos usar o algoritmo de divisão e conquista apenas em operações O ( n ); no caso do algoritmo QuickSelect , altere a classificação rápida ( quicksort ), que geralmente está em O ( n ), mas pode estar em O ( n 2 ) no pior caso.
Na prática, se estivermos procurando a mediana de uma lista de n inteiros, e se tivermos a sorte de descobrir que o valor máximo m é menor que n 2 (essa descoberta custa O ( n )), então a classificação de contagem , implementação muito fácil e cujo custo é, neste caso, O ( m ) operações permite obter a mediana em menos de O ( n 2 ) operações. Este caso aplica-se em particular ao caso de notas de 20 (sem decimais) em uma classe de mais de 5 alunos (5 ao quadrado é maior que 20).
Quando a mediana é usada para localizar valores em estatísticas descritivas, existem diferentes possibilidades para expressar a variabilidade: intervalo , intervalo interquartil e intervalo absoluto . Como a mediana tem o mesmo valor do segundo quartil , seu cálculo é detalhado no artigo sobre quartis .
Para todas as distribuições de probabilidade real, a mediana m satisfaz a igualdade:
ou seja, em termos de função de distribuição :
Portanto, para uma distribuição de probabilidade difusa (função de distribuição contínua):
Para todas as distribuições simétricas , a mediana é igual à expectativa.
A mediana é usada principalmente para distribuições distorcidas porque as representa melhor do que a média aritmética. Considere o conjunto {1, 2, 2, 2, 3, 9}. A mediana é 2, assim como a moda, que é uma medida melhor da tendência central do que a média aritmética de 3,166….
O cálculo da mediana é comumente feito para representar distribuições diferentes e é fácil de entender e calcular. Também é mais robusto do que a média na presença de valores extremos.
A mediana é também o valor central que minimiza o valor médio dos desvios absolutos. Na série {1, 2, 2, 2, 3, 9} dada anteriormente, isso seria (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5, em vez de 1,944 da média, que, para sua parte, minimiza os desvios quadráticos. Na teoria da probabilidade, o valor c que minimiza
é a média da distribuição de probabilidade da variável aleatória X .
Para distribuições de probabilidade contínuas, a diferença entre a mediana e a expectativa é de no máximo um desvio padrão .