Em matemática , o desvio padrão (também expresso como desvio padrão ) é uma medida da dispersão dos valores em uma amostra estatística ou distribuição de probabilidade . É definido como a raiz quadrada da variância ou, equivalentemente, como a raiz quadrada da média dos desvios da média . É escrito em geral com a letra grega σ (“ sigma ”), de acordo com o desvio padrão do nome em inglês. É homogêneo com a variável medida.
Desvios padrão são encontrados em todos os campos onde as probabilidades e estatísticas são aplicadas, em particular no campo dos levantamentos , física , biologia ou finanças . Eles geralmente permitem sintetizar os resultados numéricos de um experimento repetido. Tanto em probabilidades quanto em estatística, é usado para expressar outros conceitos importantes, como o coeficiente de correlação , o coeficiente de variação ou a distribuição ótima de Neyman .
Quando o desvio padrão de uma população é desconhecido, seu valor é aproximado usando estimadores .
Vamos imaginar uma população de 4 pessoas de 2 metros de tamanho. O tamanho médio é de 2 metros. Os desvios da média são 0, então o desvio padrão é 0 metros.
Agora imagine uma população de 4 pessoas de 2m, 1,80m, 2,20m e 2m de tamanho. A média também é = 2 metros. Os desvios da média são agora 0m, 0,20m, 0,20m e 0m. Assim, o desvio padrão é a média quadrática desses desvios, ou seja , que é igual a aproximadamente 0,14m.
O desvio padrão é uma quantidade cuja invenção remonta ao XIX ° século, que viu a estatística desenvolver o Reino Unido .
Foi Abraham de Moivre quem atribuiu a descoberta do conceito de medida de dispersão que aparece em seu livro The Doctrine of Chances em 1718. Mas o termo desvio padrão ( " desvio padrão " ) foi usado pela primeira vez por Karl Pearson em 1893 antes do Sociedade Real. Também foi Karl Pearson quem primeiro usou o símbolo σ para representar o desvio padrão. Em 1908, William Gosset , mais conhecido pelo pseudônimo de Student, definiu o desvio padrão empírico de uma amostra e mostrou que era importante diferenciá-lo do desvio padrão de uma população . A variância é um conceito que apareceu mais tarde, em 1918, em um texto de Ronald Fisher intitulado The Correlation entre Relatives on the Supposition of Mendelian Inheritance .
De uma pesquisa exaustiva ( x 1 , ..., x n ) de uma variável quantitativa para todos os indivíduos de uma população, o desvio padrão é a raiz quadrada da variância, ou seja, diga:
O desvio padrão é homogêneo com a variável medida, ou seja, se por uma mudança de unidade, todos os valores forem multiplicados por um coeficiente α> 0 , o desvio padrão será multiplicado pelo mesmo coeficiente. Por outro lado, o desvio padrão é invariante por deslocamento aditivo: se adicionarmos uma constante a todos os valores registrados, isso não altera o desvio padrão. Essas duas propriedades tornam o desvio padrão um indicador de dispersão .
Em contraste com outros indicadores de dispersão, como o intervalo interquartil , o desvio padrão tem a vantagem de poder ser calculado a partir das médias e desvios padrão sobre uma partição da população, uma vez que a variância geral é a soma da variância das médias e média das variâncias. Isso torna possível calcular o desvio padrão em paralelo .
O desvio padrão é implementado em Python na biblioteca numpycom o método stde em R com a função sd.
O desvio padrão é a distância euclidiana da coordenada do ponto M ( x 1 , ..., x n ) na diagonal direita gerada pelo vetor (1, ..., 1) in , alcançada por suas coordenadas de projeção ortogonal ( x , ..., x ) .
O desvio padrão é, portanto, o mínimo da função que calcula a distância entre M e o ponto de coordenadas ( t , ..., t ) .
O desvio padrão pode ser usado para comparar a homogeneidade de várias populações na mesma variável. Por exemplo, dadas duas turmas do mesmo nível médio e avaliadas segundo os mesmos critérios, a turma com maior desvio padrão das notas será mais heterogênea. No caso de pontuação de 0 a 20, o desvio padrão mínimo é 0 (todas as pontuações idênticas), podendo ser até 10 se metade da turma tiver 0/20 e a outra metade 20/20.
Por outro lado, não podemos comparar os desvios-padrão de diferentes variáveis como elas são, e cujas ordens de magnitude não correspondem necessariamente. Para uma variável quantitativa estritamente positiva, definimos então o coeficiente de variação , igual ao quociente do desvio padrão pela média. Este número adimensional independe da unidade de medida escolhida e permite comparar a dispersão de diferentes variáveis.
Um alto coeficiente de variação pode sinalizar a existência de um outlier. Um critério é rejeitar valores que diferem da média em mais de 3 vezes o desvio padrão. No caso de uma distribuição gaussiana , a probabilidade de tal overshoot é da ordem de 3/1000.
A modelagem probabilística de uma distribuição estatística consiste em definir uma variável aleatória , ou seja, uma aplicação X com uma medida de probabilidade , que permite definir as probabilidades da forma . Os dados dessas probabilidades é a lei de probabilidade de X . A modelagem é precisa se a probabilidade de um evento corresponder à frequência de ocorrência dos valores correspondentes na população testada, de acordo com a lei dos grandes números .
Estamos interessados aqui em variáveis aleatórias reais ou vetoriais com um quadrado integrável, ou seja, cuja expectativa E ( X 2 ) converge. Para uma variável vetorial (com valores em um espaço vetorial normatizado completo ), a expectativa é um vetor do mesmo espaço e o quadrado denota o quadrado da norma. O conjunto dessas variáveis é em si um espaço vetorial .
O desvio padrão de X é a raiz quadrada da variância .
A existência do desvio padrão é assegurada para uma variável aleatória limitada ou admitindo uma função densidade dominada ao infinito por uma função de potência com α > 3 .
No caso de uma variável aleatória discreta cujos valores são indicados x i , com o desvio padrão está escrito como uma série estatística , em que μ é a expectativa da lei de X .
Em particular, se X for uniforme em um conjunto finito , ou seja, se
para todo i entre 1 e n ,tão
.No caso de uma variável aleatória de densidade para a qual as probabilidades são escritas onde f é uma função integrável localmente , para a medida de Lebesgue por exemplo, mas não necessariamente uma função contínua, o desvio padrão de X é definido por onde está a expectativa de x .
Com essas fórmulas e a definição, o cálculo dos desvios padrão para as leis comumente encontradas é fácil. A tabela a seguir fornece os desvios padrão de algumas dessas leis:
Nome da lei | Definições) | Descrição | Desvio padrão |
---|---|---|---|
Lei de bernoulli | p ∈] 0; 1 [ | Lei discreta em {0; 1} com uma probabilidade p de obter 1 | |
Lei binomial | e p ∈] 0; 1 [ | Lei da soma de n variáveis independentes de acordo com a lei de Bernoulli com o mesmo parâmetro p | |
Lei geométrica | p ∈] 0; 1 [ | Lei de classificação da primeira realização em uma sequência de variáveis de Bernoulli independentes com o mesmo parâmetro p | |
Lei de segmento uniforme | a < b | Lei da densidade constante em [ a , b ] | |
Lei exponencial | Lei de densidade com taxa de falha constante λ | ||
Lei de Poisson | Lei sobre o número de realizações independentes em média λ | ||
Lei do χ² | não | Lei da soma de n quadrados de variáveis normais reduzidas independentes |
Se a variável X segue uma distribuição lognormal, então ln X segue uma distribuição normal e o desvio padrão de X está relacionado ao desvio padrão geométrico .
Mas todas as leis da probabilidade não admitem necessariamente um desvio padrão finito: a lei de Cauchy (ou lei de Lorentz) não tem desvio padrão, nem mesmo uma expectativa matemática.
onde ρ ( X , Y ) é o coeficiente de correlação entre duas variáveis X e Y .
Desigualdade triangular O desvio padrão da soma é aumentado pela soma dos desvios padrão: . Além disso, há igualdade se e somente se houver uma relação quase certa de afinidade entre as duas variáveis. Distância euclidiana O desvio padrão de uma variável aleatória real X é a distância euclidiana dessa variável à direita das constantes no espaço das variáveis que admitem uma variância. É, portanto, o mínimo da função , alcançado na constante c = E ( X ) .Na ciência , é comum considerar que as medidas de uma grandeza são distribuídas segundo uma distribuição gaussiana , por acúmulo de erros de medida ou interferência independente em outros fenômenos, em aplicação do teorema do limite central . O histograma dos valores observados então se aproxima de uma curva em sino característica da lei normal . Sendo a curva totalmente definida pelos dados do valor médio e do desvio padrão, estes dois valores permitem definir um intervalo de flutuação que concentra a maior parte das observações.
O cálculo dos quantis isto mostra direito, por exemplo, que para uma quantidade que satisfaça essa distribuição de uma população de indivíduos, com um significativo m e um desvio padrão σ , 95% dos valores observados vai pertencer ao intervalo [ m - 1,96 σ; m + 1,96 σ] . Podemos assim associar probabilidades a intervalos de valores centrados na média e cuja amplitude é um múltiplo do desvio padrão.
Desvio máximo da média | Proporção de valores |
---|---|
68,27% | |
95,45% | |
99,73% |
Na indústria , o desvio padrão é usado no cálculo do índice de qualidade dos produtos manufaturados ou no índice de confiabilidade de um dispositivo de medição .
Em física de partículas , a detecção de eventos é, portanto, quantificada em número de sigmas, representando a diferença entre o valor observado e a média esperada na ausência de um evento. Um resultado é considerado significativo pela obtenção de 5 sigmas, representando uma probabilidade de erro de menos de 0,00006% (ou seja, um nível de confiança de mais de 99,99994%).
No campo da análise técnica dos preços das ações , o desvio padrão é uma medida da volatilidade dos preços. As Bandas de Bollinger são ferramentas que facilitam a análise das previsões de mercado. John Bollinger construiu a curva de média móvel de 20 dias e as curvas, em cada lado dessa curva, localizadas com o dobro do desvio padrão ao longo desses 20 dias. John Bollinger usou uma definição adaptada de desvio padrão. Além disso, o risco de ativos do mercado de ações e o risco de mercado são medidos pelo desvio padrão dos retornos esperados no modelo de precificação de ativos de capital de Harry Markowitz .
Se X é uma variável aleatória de desvio padrão diferente de zero, podemos fazê-la corresponder à variável centrada e reduzida Z definida por . Duas variáveis aleatórias centradas e reduzidas Z 1 e Z 2 são fáceis de comparar, uma vez que E ( Z i ) = 0 e σ Z i = 1 .
O teorema do limite central refere-se ao limite de uma sequência de variáveis aleatórias centradas reduzidas, os coeficientes de assimetria e curtose de uma densidade de probabilidade, E ( Z 3 ) e E ( Z 4 ) , usados para comparar distribuições diferentes.
Se X e Y são duas variáveis aleatórias que admitem um verdadeiro tanto diferente de zero variância, o coeficiente de correlação linear é a proporção em que é a covariância das variáveis X e Y . De acordo com o Cauchy-Schwarz , ; o coeficiente de correlação assume seus valores no intervalo [–1; +1] .
Se as duas variáveis são independentes, o coeficiente de correlação linear é zero, mas o inverso é falso.
Se o coeficiente de correlação linear for 1 ou -1, as duas variáveis estarão quase certamente em uma relação afim.
É graças à desigualdade Bienaymé-Chebyshev que o desvio padrão aparece como uma medida da dispersão em torno da média. De fato, essa desigualdade expressa isso e mostra que a probabilidade de X se desviar de E ( X ) em mais de k vezes o desvio padrão é menor que 1 / k 2 .
Na mecânica quântica , o princípio da incerteza de Heisenberg expresso como o produto dos desvios-padrão da posição xe o pulso p de uma partícula é maior ou igual à constante de Planck reduzida dividida por dois .
Quando não é possível conhecer todos os valores da característica considerada, estamos dentro do arcabouço da teoria estatística . O estatístico então procede por amostragem e estimativa para avaliar as quantidades analisadas, como o desvio padrão.
Um estimador é uma função que torna possível aproximar um parâmetro de uma população usando uma amostra sorteada ao acaso , ou uma quantidade em um fenômeno aleatório com base em várias realizações do mesmo.
No caso de uma amostra de tamanho n , e para a qual a verdadeira média -ou expectativa- µ é conhecida, o estimador é o seguinte:
σX=1não∑eu=1não(xeu-µ)2.{\ displaystyle \ sigma _ {X} = {\ sqrt {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} }.} Infelizmente, muitas vezes não sabemos μ e deve ser estimada a partir da própria amostra através da seguinte estimador: . Geralmente são usados diferentes estimadores do desvio padrão. A maioria desses estimadores é expressa pela fórmula: Sk=1k∑eu=1não(Xeu-X¯)2.{\ displaystyle S_ {k} = {\ sqrt {{\ frac {1} {k}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) ^ { 2}}}.} S n - 1 (ou S ′ ) é o estimador mais usado, mas alguns autores recomendam o uso de S n (ou S ).Duas propriedades importantes dos estimadores são convergência e ausência de polarização .
Para todo k tal que k / n se aproxima de 1, a lei dos grandes números garante que S2
nentão S2
milsão estimadores convergentes de σ 2 . Graças ao teorema da continuidade , afirma que se f é contínua, então . A função raiz quadrada sendo contínua, S k também converge para σ . Em particular, S n e S n - 1 são estimadores convergentes de σ , o que reflete a aproximação de σ por essas duas séries quando n se torna cada vez maior e confirma o estatístico para usar esses estimadores.
O estimador de variância S2
n - 1,5é imparcial. No entanto, a não linearidade da função de raiz quadrada faz com que S n - 1 seja ligeiramente enviesado. Os estimadores S2
ne S n também são tendenciosos. O fato de incluir não n, mas n - 1 no denominador ( correção de Bessel ) no cálculo da variância vem do fato de que determinar a média de x da amostra perde um grau de liberdade, pois a fórmula conecta x aos valores x i . Portanto, temos apenas n - 1 valores independentes após o cálculo de x . No caso em que se busca estimar o desvio padrão de uma distribuição normal, tem-se um estimador não enviesado de σ próximo a S n - 1,5 . A escolha de { n - 1,5} torna possível corrigir o viés adicional vinculado à raiz quadrada.
A precisão, dada pelo erro quadrático médio, é difícil de calcular explicitamente para quaisquer leis. Parece, entretanto, que apesar de um viés maior, S n é mais preciso do que S n –1 .
Para estimar a precisão da estimativa da média de uma variável, o método de cálculo do desvio padrão da distribuição amostral das médias é usado. Também chamado de erro padrão da média ( " Erro padrão " ), denotado , é o desvio padrão das médias de amostras de tamanhos idênticos de uma população. Se n for o tamanho das amostras retiradas de uma população de desvio padrão σ , e se N for o tamanho da população, então . Quando o desvio padrão σ da população é desconhecido, ele pode ser substituído pelo estimador S n –1 . Quando n é grande o suficiente ( n ≥ 30 ), a distribuição amostral segue aproximadamente uma lei de Laplace-Gauss, o que permite deduzir um intervalo de confiança, uma função de , permitindo que a média da população seja localizada em relação à amostra. mau.
Em geral, é muito difícil calcular a lei de distribuição dos desvios-padrão empíricos. Mas se X n é uma sequência de variáveis aleatórias distribuídas de acordo com a distribuição normal , então segue uma lei de χ 2 com n graus de liberdade . Esta lei tem por desvio padrão √ 2 n e portanto o desvio padrão da distribuição das variâncias das variáveis normais tem por expressão .
Nas pesquisas de opinião , o desvio padrão mede a incerteza das variações acidentais de x inerentes à pesquisa, que é chamada de margem de erro devido às variações acidentais.
Além disso, com o método de amostragem representativa, quando os diferentes estratos apresentam desvios padrão muito diferentes, o desvio padrão é utilizado para calcular a distribuição de Neyman ótima que permite avaliar a população nos diferentes estratos de acordo com o seu desvio padrão; em outras palavras, é o tamanho da amostra no estrato i , onde n é o tamanho total da amostra, N i é o tamanho do estrato i , σ i o desvio padrão do estrato i .
Os desvios-padrão obtidos por um programa de computador podem ser incorretos se não se usa um algoritmo adaptado aos dados, como quando se usa um que explora diretamente a fórmula em grandes amostras de valores entre 0 e 1.
Um dos melhores algoritmos é o de BP Welford, que é descrito por Donald Knuth em seu livro The Art of Computer Programming , vol. 2 .
Uma aproximação do desvio padrão da direção do vento é fornecida pelo algoritmo Yamartino que é usado em anemômetros modernos.
Teorema - Se g for contínuo, então:
. Como a função de raiz quadrada é uma função contínua , S n -1 e S n são estimadores convergentes do desvio padrão, ou seja: