Desvio padrão

Em matemática , o desvio padrão (também expresso como desvio padrão ) é uma medida da dispersão dos valores em uma amostra estatística ou distribuição de probabilidade . É definido como a raiz quadrada da variância ou, equivalentemente, como a raiz quadrada da média dos desvios da média . É escrito em geral com a letra grega σ (“ sigma ”), de acordo com o desvio padrão do nome em inglês. É homogêneo com a variável medida.

Desvios padrão são encontrados em todos os campos onde as probabilidades e estatísticas são aplicadas, em particular no campo dos levantamentos , física , biologia ou finanças . Eles geralmente permitem sintetizar os resultados numéricos de um experimento repetido. Tanto em probabilidades quanto em estatística, é usado para expressar outros conceitos importantes, como o coeficiente de correlação , o coeficiente de variação ou a distribuição ótima de Neyman .

Quando o desvio padrão de uma população é desconhecido, seu valor é aproximado usando estimadores .

Exemplos

População de pessoas do mesmo tamanho

Vamos imaginar uma população de 4 pessoas de 2 metros de tamanho. O tamanho médio é de 2 metros. Os desvios da média são 0, então o desvio padrão é 0 metros.

População de pessoas de diferentes tamanhos

Agora imagine uma população de 4 pessoas de 2m, 1,80m, 2,20m e 2m de tamanho. A média também é = 2 metros. Os desvios da média são agora 0m, 0,20m, 0,20m e 0m. Assim, o desvio padrão é a média quadrática desses desvios, ou seja , que é igual a aproximadamente 0,14m. ${\ displaystyle {\ frac {2 + 1.8 + 2.2 + 2} {4}}}$ ${\ displaystyle {\ sqrt {\ frac {0 ^ {2} + 0,2 ^ {2} + 0,2 ^ {2} + 0 ^ {2}} {4}}}}$

História

O desvio padrão é uma quantidade cuja invenção remonta ao XIX ° século, que viu a estatística desenvolver o Reino Unido .

Foi Abraham de Moivre quem atribuiu a descoberta do conceito de medida de dispersão que aparece em seu livro The Doctrine of Chances em 1718. Mas o termo desvio padrão ( " desvio padrão " ) foi usado pela primeira vez por Karl Pearson em 1893 antes do Sociedade Real. Também foi Karl Pearson quem primeiro usou o símbolo σ para representar o desvio padrão. Em 1908, William Gosset , mais conhecido pelo pseudônimo de Student, definiu o desvio padrão empírico de uma amostra e mostrou que era importante diferenciá-lo do desvio padrão de uma população . A variância é um conceito que apareceu mais tarde, em 1918, em um texto de Ronald Fisher intitulado The Correlation entre Relatives on the Supposition of Mendelian Inheritance .

Na população total

Definição

De uma pesquisa exaustiva $( x 1 , ..., x n )$ de uma variável quantitativa para todos os indivíduos de uma população, o desvio padrão é a raiz quadrada da variância, ou seja, diga:

{\ displaystyle \ sigma = {\ sqrt {V}} = {\ sqrt {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ overline { x}}) ^ {2}}} = {\ sqrt {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2} - {\ overline { x}} ^ {2}}}.}

O desvio padrão é homogêneo com a variável medida, ou seja, se por uma mudança de unidade, todos os valores forem multiplicados por um coeficiente $α> 0$ , o desvio padrão será multiplicado pelo mesmo coeficiente. Por outro lado, o desvio padrão é invariante por deslocamento aditivo: se adicionarmos uma constante a todos os valores registrados, isso não altera o desvio padrão. Essas duas propriedades tornam o desvio padrão um indicador de dispersão .

Em contraste com outros indicadores de dispersão, como o intervalo interquartil , o desvio padrão tem a vantagem de poder ser calculado a partir das médias e desvios padrão sobre uma partição da população, uma vez que a variância geral é a soma da variância das médias e média das variâncias. Isso torna possível calcular o desvio padrão em paralelo .

O desvio padrão é implementado em Python na biblioteca numpycom o método stde em R com a função sd.

Expressão como distância

O desvio padrão é a distância euclidiana da coordenada do ponto $M$ $( x 1 , ..., x n )$ na diagonal direita gerada pelo vetor $(1, ..., 1)$ in , alcançada por suas coordenadas de projeção ortogonal $($ $x$ $, ...,$ $x$ $)$ . $\ mathbb {R} ^ {n}$

O desvio padrão é, portanto, o mínimo da função que calcula a distância entre $M$ e o ponto de coordenadas $($ $t$ $, ...,$ $t$ $)$ . ${\ displaystyle t \ mapsto {\ sqrt {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} -t) ^ {2}}}}$

Coeficiente de variação

O desvio padrão pode ser usado para comparar a homogeneidade de várias populações na mesma variável. Por exemplo, dadas duas turmas do mesmo nível médio e avaliadas segundo os mesmos critérios, a turma com maior desvio padrão das notas será mais heterogênea. No caso de pontuação de 0 a 20, o desvio padrão mínimo é 0 (todas as pontuações idênticas), podendo ser até 10 se metade da turma tiver 0/20 e a outra metade 20/20.

Por outro lado, não podemos comparar os desvios-padrão de diferentes variáveis como elas são, e cujas ordens de magnitude não correspondem necessariamente. Para uma variável quantitativa estritamente positiva, definimos então o coeficiente de variação , igual ao quociente do desvio padrão pela média. Este número adimensional independe da unidade de medida escolhida e permite comparar a dispersão de diferentes variáveis.

Um alto coeficiente de variação pode sinalizar a existência de um outlier. Um critério é rejeitar valores que diferem da média em mais de 3 vezes o desvio padrão. No caso de uma distribuição gaussiana , a probabilidade de tal overshoot é da ordem de 3/1000.

Para uma variável aleatória

Definição

A modelagem probabilística de uma distribuição estatística consiste em definir uma variável aleatória , ou seja, uma aplicação $X$ com uma medida de probabilidade , que permite definir as probabilidades da forma . Os dados dessas probabilidades é a lei de probabilidade de $X$ . A modelagem é precisa se a probabilidade de um evento corresponder à frequência de ocorrência dos valores correspondentes na população testada, de acordo com a lei dos grandes números . $\ mathbb {P}$ ${\ displaystyle \ mathbb {P} (X \ in A)}$

Estamos interessados aqui em variáveis aleatórias reais ou vetoriais com um quadrado integrável, ou seja, cuja expectativa $E (X 2 )$ converge. Para uma variável vetorial (com valores em um espaço vetorial normatizado completo ), a expectativa é um vetor do mesmo espaço e o quadrado denota o quadrado da norma. O conjunto dessas variáveis é em si um espaço vetorial . ${\ displaystyle \ mathrm {L} ^ {2} (\ Omega)}$

O desvio padrão de $X$ é a raiz quadrada da variância . ${\ displaystyle \ sigma (X) = {\ sqrt {\ mathbb {E} \ left [\ left (X- \ mathbb {E} [X] \ right) ^ {2} \ right]}} = {\ sqrt {\ mathbb {E} [X ^ {2}] - \ mathbb {E} [X] ^ {2}}}}$

A existência do desvio padrão é assegurada para uma variável aleatória limitada ou admitindo uma função densidade dominada ao infinito por uma função de potência com $α$ $> 3$ . ${\ displaystyle t \ mapsto {\ frac {1} {t ^ {\ alpha}}}}$

Exemplos

No caso de uma variável aleatória discreta cujos valores são indicados $x i$ , com o desvio padrão está escrito como uma série estatística , em que $μ$ é a expectativa da lei de $X$ . ${\ displaystyle p_ {i} = \ mathbb {P} (X = x_ {i})}$ ${\ displaystyle \ sigma: = {\ sqrt {\ sum _ {i = 1} ^ {n} p_ {i} (x_ {i} - \ mu) ^ {2}}} = {\ sqrt {\ left ( \ sum _ {i = 1} ^ {n} p_ {i} {x_ {i}} ^ {2} \ direita) - \ mu ^ {2}}}}$

Em particular, se $X$ for uniforme em um conjunto finito , ou seja, se $(x_ {1}, \ pontos, x_ {n})$

{\ displaystyle p_ {i} = {\ frac {1} {n}}}

para todo

i

entre 1 e

n

tão

{\ displaystyle \ sigma _ {X}: = {\ sqrt {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2} }} = {\ sqrt {{\ frac {1} {n}} \ left (\ sum _ {i = 1} ^ {n} {x_ {i}} ^ {2} \ right) - \ mu ^ { 2}}}}

No caso de uma variável aleatória de densidade para a qual as probabilidades são escritas onde $f$ é uma função integrável localmente , para a medida de Lebesgue por exemplo, mas não necessariamente uma função contínua, o desvio padrão de $X$ é definido por onde está a expectativa de $x$ . ${\ mathbb P} _ {X} \ left (] a, b [\ right) = {\ mathbb P} \ left (X \ in] a, b [\ right) = \ int _ {a} ^ {b } f (x) \, {\ mathrm {d}} x$ ${\ displaystyle \ sigma _ {X}: = {\ sqrt {\ int _ {\ mathbb {R}} (x- \ mu) ^ {2} f (x) \ mathrm {d} x}} = {\ sqrt {\ int _ {\ mathbb {R}} x ^ {2} f (x) \ mathrm {d} x- \ mu ^ {2}}}}$ ${\ displaystyle \ mu = \ int _ {\ mathbb {R}} xf (x) \ mathrm {d} x}$

Com essas fórmulas e a definição, o cálculo dos desvios padrão para as leis comumente encontradas é fácil. A tabela a seguir fornece os desvios padrão de algumas dessas leis:

Nome da lei	Definições)	Descrição	Desvio padrão
Lei de bernoulli	$p \in] 0; 1 [$	Lei discreta em ${0; 1}$ com uma probabilidade $p$ de obter 1	${\ displaystyle \ sigma = {\ sqrt {p (1-p)}}}$
Lei binomial	$n \ in \ mathbb {N} ^ {*}$ e $p \in] 0; 1 [$	Lei da soma de $n$ variáveis independentes de acordo com a lei de Bernoulli com o mesmo parâmetro $p$	${\ displaystyle \ sigma = {\ sqrt {np (1-p)}}}$
Lei geométrica	$p \in] 0; 1 [$	Lei de classificação da primeira realização em uma sequência de variáveis de Bernoulli independentes com o mesmo parâmetro $p$	${\ displaystyle \ sigma = {\ sqrt {\ frac {1-p} {p ^ {2}}}}}$
Lei de segmento uniforme	$a < b$	Lei da densidade constante em $[ a , b ]$	${\ displaystyle \ sigma = {\ frac {ba} {2 {\ sqrt {3}}}}}$
Lei exponencial	${\ displaystyle \ lambda \ in \ mathbb {R} ^ {+ *}}$	Lei de densidade com taxa de falha constante $λ$	${\ displaystyle \ sigma = {\ frac {1} {\ lambda}}}$
Lei de Poisson	${\ displaystyle \ lambda \ in \ mathbb {R} ^ {+ *}}$	Lei sobre o número de realizações independentes em média $λ$ $\ mathbb {N}$	${\ displaystyle \ sigma = {\ sqrt {\ lambda}}}$
Lei do χ²	$não$	Lei da soma de $n$ quadrados de variáveis normais reduzidas independentes	${\ displaystyle \ sigma = {\ sqrt {2n}}}$

Se a variável X segue uma distribuição lognormal, então $ln X$ segue uma distribuição normal e o desvio padrão de X está relacionado ao desvio padrão geométrico .

Mas todas as leis da probabilidade não admitem necessariamente um desvio padrão finito: a lei de Cauchy (ou lei de Lorentz) não tem desvio padrão, nem mesmo uma expectativa matemática.

Propriedades

Positividade O desvio padrão é sempre positivo ou zero. O de uma constante é zero. Invariância por tradução O desvio padrão não muda se somarmos uma constante

b

para a variável aleatória

X

σ x + b = σ X

. Homogeneidade Para qualquer constante positiva

c

e qualquer verdadeira variável aleatória

X

, temos

σ cX = c σ X

. Soma algébrica de duas variáveis O desvio padrão da soma de duas variáveis é escrito como

{\ displaystyle \ sigma _ {X + Y} = {\ sqrt {\ sigma _ {X} ^ {2} + \ sigma _ {Y} ^ {2} +2 \ sigma _ {X} \ sigma _ {Y } \ rho (X, Y)}}}

onde $ρ ( X , Y )$ é o coeficiente de correlação entre duas variáveis X e Y .

Desigualdade triangular O desvio padrão da soma é aumentado pela soma dos desvios padrão:

{\ displaystyle \ sigma _ {X + Y} \ leq \ sigma _ {X} + \ sigma _ {Y}}

. Além disso, há igualdade se e somente se houver uma relação quase certa de afinidade entre as duas variáveis. Distância euclidiana O desvio padrão de uma variável aleatória real

X

é a distância euclidiana dessa variável à direita das constantes no espaço das variáveis que admitem uma variância. É, portanto, o mínimo da função , alcançado na constante

c

= E (

X

)

{\ displaystyle \ mathbb {R} \ rightarrow \ mathbb {R} ^ {+}: c \ rightarrow {\ sqrt {(| Xc | ^ {2})}}}

Usos

Intervalo de flutuação

Na ciência , é comum considerar que as medidas de uma grandeza são distribuídas segundo uma distribuição gaussiana , por acúmulo de erros de medida ou interferência independente em outros fenômenos, em aplicação do teorema do limite central . O histograma dos valores observados então se aproxima de uma curva em sino característica da lei normal . Sendo a curva totalmente definida pelos dados do valor médio e do desvio padrão, estes dois valores permitem definir um intervalo de flutuação que concentra a maior parte das observações.

O cálculo dos quantis isto mostra direito, por exemplo, que para uma quantidade que satisfaça essa distribuição de uma população de indivíduos, com um significativo $m$ e um desvio padrão $σ$ , 95% dos valores observados vai pertencer ao intervalo $[ m - 1,96 σ; m + 1,96 σ]$ . Podemos assim associar probabilidades a intervalos de valores centrados na média e cuja amplitude é um múltiplo do desvio padrão.

Intervalos de flutuação para uma distribuição gaussiana

Desvio máximo da média	Proporção de valores
${\ displaystyle \ pm \ sigma}$	68,27%
${\ displaystyle \ pm 2 \ sigma}$	95,45%
${\ displaystyle \ pm 3 \ sigma}$	99,73%

Na indústria , o desvio padrão é usado no cálculo do índice de qualidade dos produtos manufaturados ou no índice de confiabilidade de um dispositivo de medição .

Em física de partículas , a detecção de eventos é, portanto, quantificada em número de sigmas, representando a diferença entre o valor observado e a média esperada na ausência de um evento. Um resultado é considerado significativo pela obtenção de 5 sigmas, representando uma probabilidade de erro de menos de 0,00006% (ou seja, um nível de confiança de mais de 99,99994%).

No campo da análise técnica dos preços das ações , o desvio padrão é uma medida da volatilidade dos preços. As Bandas de Bollinger são ferramentas que facilitam a análise das previsões de mercado. John Bollinger construiu a curva de média móvel de 20 dias e as curvas, em cada lado dessa curva, localizadas com o dobro do desvio padrão ao longo desses 20 dias. John Bollinger usou uma definição adaptada de desvio padrão. Além disso, o risco de ativos do mercado de ações e o risco de mercado são medidos pelo desvio padrão dos retornos esperados no modelo de precificação de ativos de capital de Harry Markowitz .

Variável centrada reduzida

Se $X$ é uma variável aleatória de desvio padrão diferente de zero, podemos fazê-la corresponder à variável centrada e reduzida $Z$ definida por . Duas variáveis aleatórias centradas e reduzidas $Z$ $1$ e $Z$ $2$ são fáceis de comparar, uma vez que $E ($ $Z$ $i$ $) = 0$ e $σ$ $Z$ $i$ $= 1$ . ${\ displaystyle Z = {\ frac {X - {\ bar {X}}} {\ sigma}}}$

O teorema do limite central refere-se ao limite de uma sequência de variáveis aleatórias centradas reduzidas, os coeficientes de assimetria e curtose de uma densidade de probabilidade, $E ( Z 3 )$ e $E ( Z 4 )$ , usados para comparar distribuições diferentes.

Coeficiente de correlação linear

Se $X$ e $Y$ são duas variáveis aleatórias que admitem um verdadeiro tanto diferente de zero variância, o coeficiente de correlação linear é a proporção em que é a covariância das variáveis $X$ e $Y$ . De acordo com o Cauchy-Schwarz , ; o coeficiente de correlação assume seus valores no intervalo $[-1;$ $+1]$ . ${\ displaystyle \ operatorname {Cor} (X, Y) = {\ frac {\ operatorname {Cov} (X, Y)} {\ sigma _ {X} \ sigma _ {Y}}}}$ ${\ displaystyle \ operatorname {Cov} (X, Y) = \ mathbb {E} [(X- \ mathbb {E} [X]) \, (Y- \ mathbb {E} [Y])] = \ mathbb {E} [XY] - \ mathbb {E} [X] \ mathbb {E} [Y]}$ ${\ displaystyle | \ operatorname {cov} (X, Y) | \ leq \ sigma _ {X} \ sigma _ {Y}}$

Se as duas variáveis são independentes, o coeficiente de correlação linear é zero, mas o inverso é falso.

Se o coeficiente de correlação linear for 1 ou -1, as duas variáveis estarão quase certamente em uma relação afim.

Desigualdade Bienayme-Chebyshev

É graças à desigualdade Bienaymé-Chebyshev que o desvio padrão aparece como uma medida da dispersão em torno da média. De fato, essa desigualdade expressa isso e mostra que a probabilidade de $X$ se desviar de $E ($ $X$ $)$ em mais de $k$ vezes o desvio padrão é menor que $1 /$ $k$ $2$ . ${\ displaystyle P (| XE (X) |> k \ sigma) \ leq {\ frac {1} {k ^ {2}}}}$

Princípio da incerteza

Na mecânica quântica , o princípio da incerteza de Heisenberg expresso como o produto dos desvios-padrão da posição xe o pulso p de uma partícula é maior ou igual à constante de Planck reduzida dividida por dois . ${\ displaystyle \ sigma _ {x} \ sigma _ {p} \ geq {\ frac {\ hbar} {2}}}$

Estimativa

Quando não é possível conhecer todos os valores da característica considerada, estamos dentro do arcabouço da teoria estatística . O estatístico então procede por amostragem e estimativa para avaliar as quantidades analisadas, como o desvio padrão.

Um estimador é uma função que torna possível aproximar um parâmetro de uma população usando uma amostra sorteada ao acaso , ou uma quantidade em um fenômeno aleatório com base em várias realizações do mesmo.

No caso de uma amostra de tamanho $n$ , e para a qual a verdadeira média -ou expectativa- $µ$ é conhecida, o estimador é o seguinte:

σX=1não∑eu=1não(xeu-µ)2.{\ displaystyle \ sigma _ {X} = {\ sqrt {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} }.}

{\ displaystyle \ sigma _ {X} = {\ sqrt {{\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - \ mu) ^ {2}} }.}

Infelizmente, muitas vezes não sabemos

μ

e deve ser estimada a partir da própria amostra através da seguinte estimador: . Geralmente são usados diferentes estimadores do desvio padrão. A maioria desses estimadores é expressa pela fórmula:

{\ displaystyle {\ bar {x}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}}

Sk=1k∑eu=1não(Xeu-X¯)2.{\ displaystyle S_ {k} = {\ sqrt {{\ frac {1} {k}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) ^ { 2}}}.}

{\ displaystyle S_ {k} = {\ sqrt {{\ frac {1} {k}} \ sum _ {i = 1} ^ {n} (X_ {i} - {\ overline {X}}) ^ { 2}}}.}

S n - 1

(ou S ′ ) é o estimador mais usado, mas alguns autores recomendam o uso de

S n

(ou

S

Propriedades dos estimadores

Duas propriedades importantes dos estimadores são convergência e ausência de polarização .

Para todo $k$ tal que $k / n se aproxima de$ 1, a lei dos grandes números garante que $S 2 n$ então $S 2 mil$ são estimadores convergentes de $σ 2$ . Graças ao teorema da continuidade , afirma que se $f$ é contínua, então . A função raiz quadrada sendo contínua, $S$ $k$ também converge para $σ$ . Em particular, $S$ $n$ e $S$ $n$ $- 1$ são estimadores convergentes de $σ$ , o que reflete a aproximação de $σ$ por essas duas séries quando n se torna cada vez maior e confirma o estatístico para usar esses estimadores. ${\ displaystyle \ lim \ limits _ {n \ to \ infty} f (X_ {n}) = f (\ lim \ limits _ {n \ to \ infty} X_ {n})}$

O estimador de variância $S 2 n - 1,5$ é imparcial. No entanto, a não linearidade da função de raiz quadrada faz com que $S n - 1 seja$ ligeiramente enviesado. Os estimadores $S 2 n$ e $S n$ também são tendenciosos. O fato de incluir não $n,$ mas $n - 1$ no denominador ( correção de Bessel ) no cálculo da variância vem do fato de que determinar a média de $x$ da amostra perde um grau de liberdade, pois a fórmula conecta $x$ aos valores $x$ $i$ . Portanto, temos apenas $n$ $- 1$ valores independentes após o cálculo de $x$ . No caso em que se busca estimar o desvio padrão de uma distribuição normal, tem-se um estimador não enviesado de $σ$ próximo a $S$ $n$ $- 1,5$ . A escolha de ${$ $n$ $- 1,5}$ torna possível corrigir o viés adicional vinculado à raiz quadrada. ${\ displaystyle {\ bar {x}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}}$

A precisão, dada pelo erro quadrático médio, é difícil de calcular explicitamente para quaisquer leis. Parece, entretanto, que apesar de um viés maior, $S n$ é mais preciso do que $S n -1$ .

Desvio padrão das médias

Para estimar a precisão da estimativa da média de uma variável, o método de cálculo do desvio padrão da distribuição amostral das médias é usado. Também chamado de erro padrão da média ( " Erro padrão " ), denotado , é o desvio padrão das médias de amostras de tamanhos idênticos de uma população. Se $n$ for o tamanho das amostras retiradas de uma população de desvio padrão $σ$ , e se $N$ for o tamanho da população, então . Quando o desvio padrão $σ$ da população é desconhecido, ele pode ser substituído pelo estimador $S$ $n$ $-1$ . Quando $n$ é grande o suficiente ( $n$ $\geq 30$ ), a distribuição amostral segue aproximadamente uma lei de Laplace-Gauss, o que permite deduzir um intervalo de confiança, uma função de , permitindo que a média da população seja localizada em relação à amostra. mau. ${\ displaystyle \ sigma _ {\ bar {x}}}$ ${\ displaystyle \ sigma _ {\ bar {x}} = {\ frac {\ sigma} {\ sqrt {n}}} {\ sqrt {\ frac {Nn} {N-1}}}}$ ${\ displaystyle \ sigma _ {\ bar {x}}}$

Desvio padrão de desvios padrão empíricos

Em geral, é muito difícil calcular a lei de distribuição dos desvios-padrão empíricos. Mas se $X n$ é uma sequência de variáveis aleatórias distribuídas de acordo com a distribuição normal , então segue uma lei de $χ$ $2$ com $n$ graus de liberdade . Esta lei tem por desvio padrão $\sqrt$ $2$ $n$ e portanto o desvio padrão da distribuição das variâncias das variáveis normais tem por expressão . ${\ displaystyle {\ mathcal {N}} (\ mu, \ sigma ^ {2})}$ ${\ displaystyle n {\ frac {S_ {n} ^ {2}} {\ sigma ^ {2}}}}$ ${\ displaystyle \ sigma _ {S_ {n} ^ {2}} = \ sigma ^ {2} {\ sqrt {\ frac {2} {n}}}}$

Pesquisas de opinião

Nas pesquisas de opinião , o desvio padrão mede a incerteza das variações acidentais de $x$ inerentes à pesquisa, que é chamada de margem de erro devido às variações acidentais. ${\ displaystyle \ sigma _ {\ bar {x}}}$

Além disso, com o método de amostragem representativa, quando os diferentes estratos apresentam desvios padrão muito diferentes, o desvio padrão é utilizado para calcular a distribuição de Neyman ótima que permite avaliar a população nos diferentes estratos de acordo com o seu desvio padrão; em outras palavras, é o tamanho da amostra no estrato $i$ , onde $n$ é o tamanho total da amostra, $N$ $i$ é o tamanho do estrato $i$ , $σ$ $i$ o desvio padrão do estrato $i$ . ${\ displaystyle n_ {i} = n {\ frac {N_ {i} \ sigma _ {i}} {\ sum N_ {j} \ sigma _ {j}}}}$

Em algorítmica

Os desvios-padrão obtidos por um programa de computador podem ser incorretos se não se usa um algoritmo adaptado aos dados, como quando se usa um que explora diretamente a fórmula em grandes amostras de valores entre 0 e 1. ${\ displaystyle {\ sqrt {{\ frac {1} {n}} \ left (\ sum _ {i = 1} ^ {n} {x_ {i}} ^ {2} \ right) - \ left ({ {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i}} \ right) ^ {2}}}}$

Um dos melhores algoritmos é o de BP Welford, que é descrito por Donald Knuth em seu livro The Art of Computer Programming , vol. 2 .

Uma aproximação do desvio padrão da direção do vento é fornecida pelo algoritmo Yamartino que é usado em anemômetros modernos.

Notas e referências

Notas

Temos de fato: ${\ displaystyle {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ bar {x}}) ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} ^ {2} + {\ bar {x}} ^ {2} -2x_ {i} {\ bar {x}}) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2} + {\ bar {x}} ^ {2} -2 {\ bar {x }} ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} ^ {2} - {\ bar {x}} ^ {2}. }$
Se n estudantes têm 0/20 e n estudantes têm 20/20, ou seja, a amostra contém n vezes o valor 20 e n vezes o valor 0, a média é ; deixe $X$ $= 10$ e $X$ $2$ $= 100$ . Os valores quadrados, anotados $X$ $2$ , são n vezes 400 en vezes 0. A média de $X$ $2$ é, portanto, igual . Deduzimos que a variância é igual a 100 e o desvio padrão é 10. ${\ displaystyle {\ tfrac {n \ vezes 20} {n + n}}}$
${\ displaystyle {\ overline {X ^ {2}}} = 200}$
A segunda igualdade é dada pelo teorema de König-Huygens .
Todas essas propriedades são consequência direta do teorema de Huygens e das propriedades da expectativa matemática.
A desigualdade decorre da igualdade do quadro anterior e do coeficiente de correlação . ${\ displaystyle -1 \ leq \ rho (X, Y) \ leq 1}$
De acordo com o teorema da continuidade, temos:
Teorema - Se $g$ for contínuo, então: ${\ displaystyle X_ {n} {\ xrightarrow {\ mathbb {P}}} X \ Longrightarrow g (X_ {n}) {\ xrightarrow {\ mathbb {P}}} g (X)}$
. Como a função de raiz quadrada é uma função contínua , $S n -1$ e $S n$ são estimadores convergentes do desvio padrão, ou seja: ${\ displaystyle S_ {n-1} {\ xrightarrow {\ mathbb {P}}} \ sigma {\ text {et}} S_ {n} {\ xrightarrow {\ mathbb {P}}} \ sigma}$
por definição da lei de $χ 2$

Referências

Livros especializados

Bernstein 1996 , p. 127
do rodeio 2010 , p. 506
Saporta 2006 , p. 279-280
Saporta 2006 , p. 121
(em) David R. Anderson , Dennis J. Sweeney e Thomas A. Williams , " estatísticas " , Encyclopaedia Britannica Ultimate Reference Suite ,2010, Estatisticas
Saporta 2006 , p. 16
Saporta 2006 , p. 30
Rioul 2008 , p. 45
Saporta 2006 , p. 31
Saporta 2006 , p. 38
Saporta 2006 , p. 39
Saporta 2006 , p. 33
do rodeio 2010 , p. 71
(em) Warren H. Finlay , The Mechanics of Inhaled Pharmaceutical Aerosols: An Introduction , San Diego, Academic Press,2001, 320 p. ( ISBN 978-0-12-256971-5 , leitura online ) , p. 5
Dodge 2010 , p. 60
Saporta 2006 , p. 23-25
Saporta 2006 , p. 26
Rioul 2008 , p. 146
Saporta 2006 , p. 43-44
Jean-Pierre Petit , La Bourse: Rupture et Renouveau , Paris, Odile Jacob economy,2003, 285 p. ( ISBN 978-2-7381-1338-2 , leitura online ) , p. 36
Gautier et al. 1975 , p. 387
Saporta 2006 , p. 66
Rioul 2008 , p. 157
Rioul 2008 , p. 175
Rioul 2008 , p. 178
Saporta 2006 , p. 25
Jacquard 1976 , p. 28-29
Saporta 2006 , p. 289
Tufféry 2010 , p. 655
Rioul 2008 , p. 253
rodeio 2010 , p. 508-509
Dodge 2010 , p. 472
Vessereau 1976 , p. 56

Artigos de jornal

(em) Ronald Aylmar Fisher , " The Correlation entre Relatives on the Supposition of Mendelian Inheritance " , Philosophical Transactions of the Royal Society of Edinburgh , vol. 52,1918, p. 399-433 ( leia online [PDF] )
Sylvie Méléard, “ Random: Introdução à teoria e cálculo das probabilidades ” [PDF] (acessado em 7 de maio de 2012 ) , p. 57,94
P. Ferignac , “ Controle de recepção quantitativo ou por medição. », Journal of Applied Statistics , vol. 7, n o 21959( leia online [PDF] , acessado em 26 de março de 2012 )
P. Ferignac , “ Erros de medição e controle de qualidade. », Journal of Applied Statistics , vol. 13, n o 21965( leia online [PDF] , acessado em 26 de março de 2012 )
Rolf Heuer , “ An End to the Year Full of Suspense ”, CERN Weekly Bulletin , vol. 2012, n o 3,2012( leia online , consultado em 27 de abril de 2012 )
(in) John Bollinger , " Bollinger Bands Introduction " (acessado em 27 de abril de 2012 )
P Fery , “ Risco e cálculo socioeconômico ”, Centro de Análise Estratégica ,2010( leia online [PDF] , acessado em 8 de abril de 2012 )
Yves Meyer , “ Princípio da incerteza, bases de Hilbert e álgebras de operador. », Seminário Bourbaki , vol. 662,Fevereiro de 1986( leia online [PDF] , acessado em 4 de abril de 2012 )
Emmanuel Grenier “, Qual é a fórmula 'certa' para o desvio padrão? », Revue Modulad , n o 37,dezembro de 2007( leia online [PDF] , acessado em 18 de fevereiro de 2012 )
Richard M. Brugger , " Uma Nota sobre Estimativa Imparcial do Desvio Padrão " , The American Statistician , Vol. 23, n o 4,1 ° de outubro de 1969, p. 32-32 ( ISSN 0003-1305 , DOI 10.1080 / 00031305.1969.10481865 , ler online , acessado em 29 de março de 2019 )
W.E. Deming , “ Alguns métodos da pesquisa. », Journal of Applied Statistics , vol. 12, n o 4,1964( leia online [PDF] , acessado em 9 de abril de 2012 )
(em) John D. Cook, " Theoretical explain for numerical results " (acessado em 20 de abril de 2012 )
(em) John D. Cook, " Comparando três métodos de cálculo do desvio padrão " (acessado em 20 de abril de 2012 )
(em) BP Welford , " classificação foi Method for Calculating Corrected Sums of Squares and Products " , Technometrics , vol. 4, n o 3,Agosto de 1962, p. 419-420 ( leia online [PDF] , acessado em 4 de abril de 2012 )
(em) John D. Cook, " Accurately computing running variance " (acessado em 20 de abril de 2012 )
(em) RJ Yamartino , " Uma comparação de vários estimadores de" passagem única "do desvio padrão da direção do vento " , Jornal do clima e meteorologia aplicada , voo. 23, Janeiro de 1984, p. 1362-1366 ( leia online [PDF] , consultado em 27 de abril de 2012 )
(em) Mike Bagot, " Avaliação de Recursos Eólicos Urbanos de Victoria " [PDF] (acessado em 24 de abril de 2012 )

Outras referências

" Basics of Descriptive Statistics " , em www.che.utah.edu (acessado em 18 de abril de 2019 )

Veja também

Bibliografia

Gilbert Saporta , Probabilidade, Análise de Dados e Estatística , Paris, Éditions Technip,2006, 622 p. [ detalhe das edições ] ( ISBN 978-2-7108-0814-5 , apresentação online ), segunda edição
Alain Monfort , Curso de Estatística Matemática , Paris, edições Economica,1997, 333 p. ( ISBN 2-7178-3217-3 ).
(pt) Encyclopaedia Britannica Ultimate Reference Suite , Chicago, Encyclopædia Britannica,2010.
Olivier Rioul , Teoria das probabilidades , Paris, edições de ciências Hermes,2008, 364 p. ( ISBN 978-2-7462-1720-1 ).
(pt) Yadolah Dodge , The Concise Encyclopaedia of Statistics , New York, Springer,2010, 622 p. ( ISBN 978-0-387-31742-7 , leia online ).
Stéphane Tufféry , Data Mining e estatísticas de tomada de decisão: inteligência de dados , Paris, edições Technip,2010, 705 p. ( ISBN 978-2-7108-0946-3 , leia online ).
(pt) Peter L. Bernstein , Against the Gods: The Remarkable Story of Risk , Nova York, John Wiley & sons, inc ,1996, 383 p. ( ISBN 978-0-471-12104-6 ).
Albert Jacquard , Les Probabilities , Paris, Presses Universitaires de France , col. "Que sais-je" ( n o 1571),1976, 125 p. ( ISBN 2-13-036532-9 ).
C. Gautier , G. Girard , D. Gerll , C. Thiercé e A. Warusfel , Aleph1 Analyze , Paris, edições Hachette,1975, 465 p. ( ISBN 2-01-001370-0 ).
André Vessereau , La statistique , Paris, Presses Universitaires de France , col. "Que sais-je" ( N O 281),1976, 128 p. ( ISBN 2-13-052942-9 ).
(pt) Richard Herrnstein e Charles Murray , The Bell Curve: Intelligence and Class Structure in American Life , Nova York, Simon & Schuster Ltd,1994, 896 p. ( ISBN 978-0-684-82429-1 ) , Apêndice 1, "Estatísticas para pessoas que têm certeza de que não conseguem aprender estatísticas"

links externos

(pt) Algoritmos para calcular a variância

Desvio padrão

Exemplos

População de pessoas do mesmo tamanho

População de pessoas de diferentes tamanhos

História

Na população total

Definição

Expressão como distância

Coeficiente de variação

Para uma variável aleatória

Definição

Exemplos

Propriedades

Usos

Intervalo de flutuação

Variável centrada reduzida

Coeficiente de correlação linear

Desigualdade Bienayme-Chebyshev

Princípio da incerteza

Estimativa

Propriedades dos estimadores

Desvio padrão das médias

Desvio padrão de desvios padrão empíricos

Pesquisas de opinião

Em algorítmica

Notas e referências

Notas

Referências

Veja também

Bibliografia

Artigos relacionados

links externos