Estimador (estatísticas)

Em estatística , um estimador é uma função que permite avaliar um parâmetro desconhecido relacionado a uma lei de probabilidade (como sua expectativa ou sua variância ). Por exemplo, pode ser usado para estimar certas características de uma população total a partir de dados obtidos em uma amostra , como durante uma pesquisa . A definição e o uso de tais estimadores constituem a estatística inferencial .

A qualidade dos estimadores é expressa por sua convergência, seu viés, sua eficiência e sua robustez. Vários métodos permitem obter estimadores de diferentes qualidades.

Ilustrações de conceito

Se estivermos tentando estimar a altura média de crianças de 10 anos, podemos realizar uma pesquisa em uma amostra da população de 10 anos (por exemplo, abordando escolas em vários ambientes diferentes). A altura média calculada nesta amostra, chamada de média empírica, será um estimador da altura média de crianças de 10 anos.

Se buscarmos estimar a área total ocupada por pousio em um determinado país, podemos fazer um levantamento em várias porções do território de mesmo tamanho, calcular a área média ocupada por pousio e aplicar uma regra de proporcionalidade .

Se quisermos determinar a porcentagem de eleitores determinados a votar no candidato A, podemos realizar uma pesquisa em uma amostra representativa. A porcentagem de votos a favor de A na amostra é uma estimativa da porcentagem de eleitores que estão determinados a votar em A na população total.

Se estamos tentando avaliar a população total de peixes em um lago, podemos usar o método CMR ( captura-marca-recaptura ): começamos coletando n peixes, anulamos para poder identificá-los depois, soltar -los, deixe misturar com outros peixes. Em seguida, pegamos uma amostra de peixes do lago e calculamos a proporção p de peixes anelados. O valor n / p é um estimador da população total de peixes no lago. Se não houver peixes anilhados na amostra, é feito outro sorteio.

Um estimador é muitas vezes uma média, uma população total, uma proporção ou uma variância .

Definição formal

Deixe ser um espaço de probabilidade . Estamos interessados ​​em uma variável aleatória X de distribuição de probabilidade desconhecida. Assumimos que faremos várias observações dessa variável aleatória.

Formalmente, vamos observar a implementação de uma tupla ( X 1 , ..., X n ) de variáveis independentes e identicamente distribuídos que seguem a mesma lei que X . Este tupla é referida como uma amostra de n elementos da variável aleatória X .

Queremos saber um parâmetro θ que depende da lei de X (por exemplo, sua expectativa ou sua variância). Para fazer isso, definimos um estimador como uma variável aleatória mensurável com respeito a uma amostra de n elementos X . Em outras palavras, um estimador é uma função que faz corresponder a cada realização possível x 1 , ..., x n da amostra com n elementos o valor que se chama estimativa ou estimativa .

Definição  - 

Formalmente, um estimador pode aceitar apenas um número fixo n de argumentos. Na prática, geralmente consideramos uma série de estimadores para cada tamanho de amostra, também chamado de estimador.

Um estimador obviamente nunca deve depender de θ , depende apenas de observações empíricas (ou seja, da realização da amostra).

Qualidade de um estimador

Um estimador é um valor calculado em uma amostra aleatória , portanto, o valor é uma variável aleatória com expectativa e variação . Entende-se então que seu valor pode oscilar dependendo da amostra. Ele tem uma chance muito baixa de coincidir exatamente com o valor θ que supostamente representa. O objetivo é, portanto, controlar o erro cometido tomando o valor de para o de θ .

Tendência

Uma variável aleatória flutua em torno de sua expectativa. Podemos portanto desejar que a expectativa de seja igual a θ , ou que em “média” o estimador não se engane.

Definição  - 

Quando a expectativa do estimador é igual a θ , ou seja, o viés é zero, o estimador é considerado não enviesado.

O estimador escolhido acima para a altura média de crianças de 10 anos é um estimador imparcial.

Em seu livro Dynamic programming , Richard Bellman ataca violentamente a busca excessivamente sistemática de estimadores não tendenciosos, lembrando com a ajuda de exemplos que estimadores enviesados podem ter convergência mais rápida e, portanto, maior eficiência prática .

Erro quadrático médio

O erro quadrático médio é a expectativa do quadrado do erro entre o valor verdadeiro e seu valor estimado.

Definição  - 

Convergência

Também queremos ser capazes, aumentando o tamanho da amostra, de reduzir o erro cometido tomando θ em seu lugar . Se for este o caso, dizemos que o estimador é convergente (também vemos consistente ), ou seja, que converge para o seu valor verdadeiro. A definição precisa em matemática é a seguinte:

Definição  -  O estimador é convergente se converge em probabilidade para θ , como segue: .

É interpretado como o fato de que a probabilidade de afastamento do valor a ser estimado em mais de ε tende para 0 à medida que o tamanho da amostra aumenta.

Finalmente, há um tipo de convergência mais forte, convergência quase segura, definida como segue para um estimador:

Definição  -  O estimador é fortemente convergente se convergir quase certamente para θ , ou seja:

Exemplo: A média empírica é um estimador convergente da expectativa de uma variável aleatória. A lei dos grandes números fraca garante que a média convirja em probabilidade para a expectativa e a lei dos grandes números que converge quase com certeza.

Eficiência

A variável aleatória flutua em torno de sua expectativa. Quanto menor a variância , menores são as variações. Portanto, tentamos manter a variação o mais baixa possível. Um estimador imparcial para o qual o limite de Cramér-Rao se torna igualdade é considerado eficiente.

Robustez

Acontece que durante uma pesquisa, um valor extremo e raro aparece (por exemplo, uma criança de 10 anos medindo 1,80  m ). Queremos que esse tipo de valor altere o valor do estimador apenas muito ligeiramente. Dizemos então que o estimador é robusto .

Exemplo: Voltando ao exemplo da criança, a média não é um estimador robusto porque adicionar a criança muito alta modificará muito o valor do estimador. A mediana, por outro lado, não é modificada nesse caso.

Estimadores clássicos

É colocado no caso simples de uma selecção aleatória de n indivíduos numa população que compreende N . Estamos interessados ​​no caráter quantitativo Y com média Y e variância Var ( Y ) . Na amostra sorteada, o caráter quantitativo é y , sua média é y e sua variância é . Os valores de y e σ 2 variam dependendo da amostra e, portanto, são variáveis ​​aleatórias, cada uma com uma expectativa, uma variância e um desvio padrão .

Estimador da média de Y

Geralmente consideramos como estimador de Y o valor: . chamado médio empírico de Y . Provamos que é um estimador imparcial, ou seja,

Estimador de variância de Y

Pode-se pensar que σ 2 é um bom estimador de Var ( Y ) . No entanto, cálculos (ver desvio padrão ) provam que este estimador é enviesado, a expectativa de σ 2 é sempre menor que Var ( Y ) . Provamos que um estimador imparcial de Var ( Y ) é:

Podemos notar que, para N grandes, o cálculo com substituição e o cálculo sem substituição fornecem resultados quase equivalentes. (o quocienteN - 1/NÃOé então próximo de 1). Portanto, geralmente consideramos, para o estimador imparcial de V ( Y ), o valor: chamado variância empírica sem polarização Y .

Eficiência, convergência e intervalo de confiança

Como y flutua em torno de sua expectativa depende de sua variância Var ( y ) . Essa variação é calculada usando Var ( Y ) .

Podemos notar que, para N muito grande na frente de n , os dois valores estão muito próximos. Posteriormente, estaremos, portanto, apenas interessados ​​no caso de desenho com substituição, considerando que N é muito grande.

Podemos ver que quanto maior n é, menor é V ( y ) . Portanto, quanto maior for a amostra, maior o estimador ele é eficaz.

A desigualdade Bienaymé-Tchebychev especifica que, para qualquer real ε estritamente positivo , de modo a Ou converge para 0 quando n se aproxima do infinito. É o mesmo  : o estimador ali está convergindo.

Finalmente, segue do teorema do limite central que para n relativamente grande, a variável aleatória y segue (aproximadamente) uma lei normal de expectativa Y e de variânciaV ( Y )/não, variação que pode ser estimada como próxima a s 2/não. Para qualquer distribuição normal, em 95% dos casos, a variável aleatória se afasta de sua expectativa por menos de duas vezes seu desvio padrão. No caso da pesquisa, isso significa que há 95% de chance de que o estimador y se desvie de Y em menos de . O intervalo é denominado intervalo de confiança de 95%. Observe que, para dividir o comprimento do intervalo de confiança por 10, que consiste em aumentar a precisão do estimador, o tamanho da amostra deve ser multiplicado por 10 2 = 100.

Costumamos falar sobre a precisão de um levantamento: é a relação entre o desvio padrão ea média da variável aleatória Y . Se a pesquisa tem precisão de 2%, por exemplo, é porque essa proporção é de 2%. Isso significa que o intervalo de confiança de 95% é [0,96 Y , 1,04 Y ]

Influência das técnicas de pesquisa nos estimadores

Dividir a população em estratos homogêneos pode reduzir significativamente o valor da variância do estimador e, portanto, torná-lo mais eficiente.

A utilização de sorteio aleatório com probabilidades desiguais, a realização de um inquérito em várias etapas ou por cluster altera obviamente as fórmulas calculadas anteriormente.

Finalmente, o uso de informações auxiliares às vezes possibilita fazer uma correção no estimador para aproximá-lo do valor real.

Construção de estimadores

Método de máxima verossimilhança

Como o próprio nome sugere, este método consiste em maximizar uma função chamada função de verossimilhança , contendo o parâmetro que queremos estimar. Assim, terá uma boa chance de estar muito próximo desse parâmetro.

A função de verossimilhança, tendo em vista uma amostra n ( x 1 , ..., x i , ..., x n )  :

O estimador obtido por este método é geralmente o melhor possível, mas pode ser tedioso e acima de tudo requer o domínio de regras matemáticas mais difíceis do que o método dos momentos (veja abaixo).

Método dos momentos

O método dos momentos permite estimar parâmetros: para isso, definimos a igualdade entre os respectivos momentos teóricos e empíricos e, resolvendo as equações escritas, expressamos os parâmetros em função desses momentos.

Estimadores e lei de probabilidade

Ser capaz de estimar uma expectativa e uma variância torna possível estimar os parâmetros de uma distribuição ( lei normal , lei de Poisson ,  etc. ).

Em probabilidade, às vezes tentamos validar uma lei de probabilidade teórica usando um experimento estatístico. No caso de uma variável discreta finita, tomamos como estimador de cada probabilidade p k , a frequência f k na amostra. Como os valores de f k são variáveis ​​aleatórias, é normal que esses estimadores não coincidam completamente com os valores de p k . Para verificar se as diferenças encontradas são significativas ou não, são realizados testes de adequação, sendo o mais conhecido o teste do χ² .

Notas e referências

Veja também

Bibliografia

Artigos relacionados

links externos