Família exponencial

Uma família exponencial é um objeto matemático que é, em probabilidade e estatística , uma classe de distribuições de probabilidade cuja forma geral é dada por:

{\ displaystyle f_ {X} (x; \ theta) = a (x) \, b (\ theta) \, \ exp \ left (\ eta (\ theta) \ cdot T (x) \ right)}

onde está a variável aleatória, um parâmetro e seu parâmetro natural. $X$ $\ theta$ $\ eta$

Propriedades algébricas

As famílias exponenciais exibem certas propriedades algébricas notáveis.

A caracterização de uma distribuição familiar exponencial permite reformular a distribuição a partir dos chamados parâmetros naturais .

Na estatística frequentista, facilitam a obtenção de estatísticas amostrais , ou seja, as estatísticas naturais suficientes da família, que resumem uma amostra de dados a partir de um número reduzido de valores.

Na estatística bayesiana , eles possuem priores conjugados que facilitam a atualização das chamadas distribuições "subjetivas".

Além disso, a distribuição preditiva posterior de uma variável aleatória de família exponencial (com prioridade conjugada) pode sempre ser escrita na forma fechada (desde que o fator de normalização da família exponencial possa ser escrito na forma close). Deve-se notar, entretanto, que frequentemente essas distribuições não são da família exponencial . Exemplos comuns: a lei t Student , a distribuição beta-binomial ou multinomial de Dirichlet .

Famílias exponenciais aparecem naturalmente na busca por distribuições durante aplicações estatísticas, em particular em métodos bayesianos .

A família exponencial inclui muitas das distribuições mais comuns: normal , exponencial , gama , χ 2 , beta , Dirichlet, Bernoulli , multinomial Bernoulli, Poisson , Wishart , Wishart inverso , etc. Outras distribuições comuns apenas formam uma família exponencial se certos parâmetros são fixos e de valor conhecido, como as distribuições binomial e multinomial (para um número fixo de sorteios em ambos os casos) e binomial negativo (para um número de falhas). Fixo) . Entre as distribuições de uso comum que não são de uma família exponencial, podemos citar a lei t de Student, a maioria das misturas , bem como a família de distribuições uniformes de limites não fixos.

Origem e terminologia

A noção de família exponencial foi desenvolvida em 1935/36 por Georges Darmois , EJG Pitman e Bernard Koopman.
O termo classe exponencial é algumas vezes usado no mesmo sentido.

A rigor, uma distribuição é definida pelos valores específicos das constantes usadas em sua formulação: por exemplo, a distribuição normal fornece uma distribuição normal com uma média e um desvio padrão . Uma “família” de distribuições é definida por um ou mais parâmetros variáveis: por exemplo, as famílias de Poisson . Esta família pode ser considerada exponencial quando a função densidade / probabilidade assume uma forma algébrica particular entre a variável aleatória e os parâmetros: a separação de fatores. ${\ displaystyle {\ mathcal {N}} (10; 200)}$ ${\ displaystyle \ mu = 10}$ ${\ displaystyle \ sigma = 10 {\ sqrt {2}}}$ ${\ displaystyle P (\ lambda)}$

Na prática, entretanto, ouvimos falar da família exponencial, onde devemos mencionar as famílias exponenciais; assim como falamos de distribuição para dizer "família de distribuições". Assim, comumente dizemos que a distribuição normal se refere à família de distribuições normais com média e variância desconhecidas . ${\ mathcal {N}} (\ mu, \ sigma ^ {2})$

A famosa distribuição binomial é, na verdade, uma família de distribuições irmãs caracterizadas por um parâmetro n (número de sorteios) e um parâmetro p (probabilidade de sucesso).

Se n e p receberam um valor particular (por exemplo: n = 20, p = 0,1), é uma distribuição binomial única. ${\ displaystyle {\ mathcal {B}} (20,0.1)}$
Se n recebeu um determinado valor ( n = 20), mas p pode variar, é uma família de distribuições binomiais, caracterizada pelo parâmetro p . n é uma constante e não um parâmetro.
Se n e p forem livres para variar, será uma família maior de distribuições binomiais, com parâmetros n e p .

As três situações são geralmente chamadas de "distribuição binomial", mas apenas a segunda constitui uma família exponencial.

O caso da distribuição uniforme deve ser observado.
- Às vezes, a frase "número aleatório extraído de uma distribuição uniforme" refere-se à distribuição uniforme contínua entre 0 e 1. Este mesmo é descrito como um caso especial da distribuição Beta. Visto que o Beta pertence a uma família exponencial, alguns seriam tentados a concluir que o Uniforme também pertence a uma família exponencial. Mas, na realidade, esse exemplo é apenas uma distribuição uniforme particular e não uma família. ${\ displaystyle {\ mathcal {U}} ([0; 1])}$
- Já a família de distribuições uniformes é caracterizada pela natureza paramétrica de um ou de ambos os limites. Nenhuma dessas famílias é uma família exponencial.

Definição

Uma família exponencial é um conjunto de distribuições cuja lei de probabilidade (discreta ou contínua) pode ser escrita na forma de fatores separáveis:

{\ displaystyle f_ {X} (x; \ theta) = a (\ theta) \, b (x) \, \ exp \ left (\ eta (\ theta) \ cdot T (x) \ right)}

onde , , e são especificados. $T (x)$ ${\ displaystyle b (x)}$ ${\ displaystyle \ eta (\ theta)}$ ${\ displaystyle a (\ theta)}$

Freqüentemente, a densidade será escrita na forma alternativa

{\ displaystyle f_ {X} (x; \ theta) = b (x) \, \ exp \ left (\ eta (\ theta) \ cdot T (x) -A (\ theta) \ right)}

ou mesmo

{\ displaystyle f_ {X} (x; \ theta) = \ exp \ left (\ eta (\ theta) \ cdot T (x) -A (\ theta) + B (x) \ right)}

O valor é o parâmetro da família. $\ theta$

A variável aleatória pode representar um vetor de várias medidas. Nesse caso, é função de várias variáveis. Seja escalar ou vetorial, e mesmo que exista um único parâmetro, funciona e pode assumir a forma de vetores. $x$ $T (x)$ $x$ ${\ displaystyle \ eta (\ theta)}$ $T (x)$

Forma canônica

Diz-se que a família exponencial está na forma canônica (ou natural ) quando . Sempre é possível converter uma família exponencial em forma canônica, definindo um parâmetro transformado : ${\ displaystyle \ eta (\ theta) = 0}$ ${\ displaystyle \ theta '= \ eta (\ theta)}$

{\ displaystyle f_ {X} (x; \ eta) = b (x) \, \ exp \ left (\ eta \ cdot T (x) \ - \ A (\ eta) \ right)}

O valor $η$ é um parâmetro natural da família.

A forma canônica não é única, pois pode ser multiplicada por uma constante diferente de zero, desde que multiplicada pela constante inversa. ${\ displaystyle \ eta (\ theta)}$ $T (x)$

A função (alternativamente ) é definida automaticamente pela escolha das outras funções: ela garante que a distribuição seja normalizada (a soma ou a integral sobre todos os valores deve dar uma probabilidade igual a 1). Observe que essas duas funções são sempre funções de . Isso significa que se não for bijetivo , ou seja, se vários valores de fornecerem o mesmo valor de , então todos os valores com a mesma imagem também terão o mesmo valor para ou . ${\ displaystyle A (\ theta)}$ ${\ displaystyle a (\ theta)}$ $\ eta$ ${\ displaystyle \ eta (\ theta)}$ $\ theta$ ${\ displaystyle \ eta (\ theta)}$ $\ theta$ ${\ displaystyle \ eta (\ theta)}$ ${\ displaystyle A (\ theta)}$ ${\ displaystyle a (\ theta)}$

Família exponencial de vetores

A definição acima, embora expressa à primeira vista em termos de um parâmetro escalar, permanece válida para um parâmetro vetorial de números reais . A distribuição é dita ser de uma família exponencial vetorial se a função densidade (ou probabilidade, para a discreta) for escrita: ${\ displaystyle {\ vec {\ theta}} = \ left (\ theta _ {1}, \ theta _ {2}, \ ldots, \ theta _ {d} \ right) ^ {T}}$

{\ displaystyle f_ {X} (x; {\ vec {\ theta}}) = b (x) \, a ({\ vec {\ theta}}) \, \ exp \ left (\ sum _ {i = 1} ^ {s} \ eta _ {i} ({\ vec {\ theta}}) \, T_ {i} (x) \ right)}

ou, em forma compacta:

{\ displaystyle f_ {X} (x; {\ vec {\ theta}}) = b (x) \, a ({\ vec {\ theta}}) \, \ exp \ left ({\ vec {\ eta }} ({\ vec {\ theta}}) \ cdot {\ vec {T}} (x) \ right)}

A soma é escrita como o produto escalar das funções vetoriais e . ${\ displaystyle {\ vec {\ eta}} (\ theta)}$ ${\ displaystyle {\ vec {T}} (x)}$

Também podemos encontrar uma forma alternativa do tipo:

{\ displaystyle f_ {X} (x; {\ vec {\ theta}}) = b (x) \, \ exp \ left ({\ vec {\ eta}} ({\ vec {\ theta}}) \ cdot {\ vec {T}} (x) -A ({\ vec {\ theta}}) \ right)}

Como antes, a família exponencial está na forma canônica se , para tudo . ${\ displaystyle \ eta _ {i} ({\ vec {\ theta}}) = \ theta _ {i}}$ $eu$

Família exponencial de vetor de curva

Uma família exponencial vetorial é chamada de curva se a dimensão do vetor de parâmetros for menor que a dimensão do vetor , o número de funções do vetor de parâmetros na representação fatorada. $d$ ${\ vec \ theta}$ $s$ ${\ displaystyle {\ vec {\ eta}} ({\ vec {\ theta}}) = \ left (\ eta _ {1} ({\ vec {\ theta}}), \ eta _ {2} ({ \ vec {\ theta}}), \ ldots, \ eta _ {s} ({\ vec {\ theta}}) \ right) ^ {T}}$

Observe que as distribuições de família exponencial mais comuns não são curvas, então muitos algoritmos projetados para a família exponencial implicitamente ou explicitamente assumem que a distribuição não é curva.

A função de normalização ou sempre pode ser escrita como uma função de , quaisquer que sejam as transformações de en . A seguinte família exponencial está na "forma natural" (parametrizada por seu parâmetro natural): ${\ displaystyle A ({\ vec {\ theta}})}$ ${\ displaystyle a ({\ vec {\ theta}})}$ ${\ displaystyle {\ vec {\ eta}}}$ ${\ vec \ theta}$ ${\ displaystyle {\ vec {\ eta}}}$

{\ displaystyle f_ {X} (x; {\ vec {\ eta}}) = b (x) \, \ exp \ left ({\ vec {\ eta}} \ cdot {\ vec {T}} (x ) -A ({\ vec {\ eta}}) \ right)}

ou :

{\ displaystyle f_ {X} (x; {\ vec {\ eta}}) = b (x) \, a ({\ vec {\ eta}}) \, \ exp \ left ({\ vec {\ eta }} \ cdot {\ vec {T}} (x) \ direita)}

Variável de vetor

Assim como um parâmetro escalar pode ser generalizado para um parâmetro vetorial, uma variável aleatória simples (escalar) pode ser generalizada para uma distribuição conjunta em um vetor de variáveis aleatórias: cada notação escalar é então substituída por um vetor . Deve-se notar que a dimensão do vetor aleatório não corresponde necessariamente à dimensão do vetor de parâmetros, nem (para uma função exponencial curva) à dimensão do parâmetro natural e à estatística suficiente . $x$ ${\ displaystyle {\ vec {x}} = \ left (x_ {1}, x_ {2}, \ ldots, x_ {k} \ right)}$ ${\ displaystyle k}$ ${\ displaystyle d}$ $s$ ${\ displaystyle {\ vec {\ eta}}}$ ${\ displaystyle T ({\ vec {x}})}$

A distribuição é então escrita:

{\ displaystyle f_ {X} ({\ vec {x}}; {\ vec {\ theta}}) = b ({\ vec {x}}) \, \ exp \ left ({\ vec {\ eta} } ({\ vec {\ theta}}) \ cdot {\ vec {T}} ({\ vec {x}}) - A ({\ vec {\ theta}}) \ right)}

ou :

{\ displaystyle f_ {X} ({\ vec {x}}; {\ vec {\ theta}}) = b ({\ vec {x}}) \, a ({\ vec {\ theta}}) \ , \ exp \ left ({\ vec {\ eta}} ({\ vec {\ theta}}) \ cdot {\ vec {T}} (\ mathbf {x}) \ right)}

Propriedades

As funções $T ( x )$ , $η ( θ )$ e $A ( η )$ que aparecem nas definições não são totalmente arbitrárias. Eles desempenham um papel importante para a análise estatística.

$T ( x )$ é uma estatística suficiente (ou exaustiva ) da distribuição. Uma estatística suficiente é uma função que resume perfeitamente os dados medidos $x$ como parte de uma amostra retirada desta distribuição: mesmo se outro conjunto de dados $y$ for completamente diferente de $x$ , mas $T ( x ) = T ( y )$ , então a densidade estimada a partir das observações será o mesmo, ou seja, terá o mesmo parâmetro.

A dimensão de $T ( x )$ é igual ao número de parâmetros de $η$ .

A estatística suficiente de uma coleção de dados independentes e distribuídos de forma idêntica ( iid ) é a soma das estatísticas individuais suficientes. Na estimação Bayesiana, contém todas as informações necessárias para calcular a distribuição posterior dos parâmetros, condicionada às observações. Na estimativa clássica, é suficiente construir um estimador dos parâmetros.

$η$ é o parâmetro natural da distribuição. O conjunto de valores de $η$ para o qual a função $f X ( x | θ )$ é finita é chamado de espaço paramétrico natural . Podemos mostrar que este espaço paramétrico natural é sempre convexo .

$A ( η )$ às vezes é chamada de função de partição logarítmica porque é o logaritmo do fator de normalização $a ( η )$ (a "função de partição" dos estatísticos):

{\ displaystyle a (\ eta) = \ left \ {\ int _ {x} b (x) \ \ exp [\ \ eta (\ theta) \ cdot T (x) \] \ operatorname {d} \! x \ right \} ^ {- 1}}

{\ displaystyle A (\ eta) = \ ln \ left \ {\ int _ {x} b (x) \ \ exp [\ \ eta (\ theta) \ cdot T (x) \] \ operatorname {d} \ ! x \ right \}}

A utilidade da função

A

surge quando é necessário calcular a média , a variância e os outros momentos da estatística suficiente

T ( x )

: basta diferenciar

A ( η )

. Por exemplo, queremos calcular a expectativa do logaritmo de uma variável aleatória Gamma. Como

ln ( x )

é um componente da estatística suficiente da distribuição Gama , a expectativa é facilmente calculada derivando .

{\ displaystyle \ mathbb {E} [\ ln x]}

{\ displaystyle A (\ eta) = \ ln \ Gamma (r) -r \ ln \ lambda \,}

$b ( x )$ é a medida básica . É usado para calcular uma prioridade não informativa (= entropia máxima).

Factoring

Uma maneira de caracterizar uma família exponencial é fatorá-la em um produto de termos, cada um contendo um único tipo de variável, parâmetro ou variável aleatória. Esses fatores estão presentes diretamente ou na exponenciação (base ou expoente). Em geral, os fatores multiplicados juntos devem, portanto, ter uma das seguintes formas:

$f (x)$	${\ displaystyle c ^ {f (x)}}$	${\ displaystyle {[f (x)]} ^ {c}}$	${\ displaystyle {[f (x)]} ^ {g (\ theta)}}$	${\ displaystyle {[f (x)]} ^ {h (x) g (\ theta)}}$
${\ displaystyle g (\ theta)}$	${\ displaystyle c ^ {g (\ theta)}}$	${\ displaystyle {[g (\ theta)]} ^ {c}}$	${\ displaystyle {[g (\ theta)]} ^ {f (x)}}$	${\ displaystyle {[g (\ theta)]} ^ {h (x) j (\ theta)}}$

onde $f ( x )$ e $h ( x )$ são quaisquer funções de $x$ , $g ( θ )$ e $j ( θ )$ são quaisquer funções de $θ$ ; e $c$ é um termo arbitrário "constante" (ou seja, não tendo $x$ nem $θ$ ).

A forma é aceitável porque isso leva em consideração o expoente. O mesmo para . ${\ displaystyle {[f (x)]} ^ {g (\ theta)}}$ ${\ displaystyle {[f (x)]} ^ {g (\ theta)} = {\ rm {e}} ^ {g (\ theta) \ ln f (x)} \,}$ ${\ displaystyle {[f (x)]} ^ {h (x) g (\ theta)} = {\ rm {e}} ^ {h (x) g (\ theta) \ ln f (x)} = {\ rm {e}} ^ {[h (x) \ ln f (x)] g (\ theta)} \,}$

Esses fatores são, no entanto, limitados em número. Por exemplo, a expressão é igual a um produto de dois fatores "permitidos". No entanto, sua forma fatorada ${\ displaystyle {[f (x) g (\ theta)]} ^ {h (x) j (\ theta)}}$ ${\ displaystyle {[f (x)]} ^ {h (x) j (\ theta)} [g (\ theta)] ^ {h (x) j (\ theta)}}$

{\ displaystyle {[f (x)]} ^ {h (x) j (\ theta)} [g (\ theta)] ^ {h (x) j (\ theta)} = \ exp \ left ([h (x) \ ln f (x)] j (\ theta) + h (x) [j (\ theta) \ ln g (\ theta)] \ right) \ ,,}

não tem o formulário obrigatório. (Por outro lado, esse tipo de expressão constitui uma família exponencial curva , que permite vários termos fatorados no expoente.)

Uma soma incluindo os dois tipos de variáveis, como por exemplo o fator $[1+ f ( x ) g ( θ )]$ , nem sempre se presta à fatoração. Esta é a razão pela qual a lei de Cauchy e t de Student , por exemplo, não são de uma família exponencial.

Exemplos de fatoração

A distinção entre parâmetros e constantes é fundamental para determinar se uma "distribuição" é ou não de uma família exponencial.

Parâmetro escalar

A variável aleatória normal de $μ$ médio desconhecido mas de variância constante $σ 2$ tem a função de densidade

{\ displaystyle f _ {\ sigma} (x; \ mu) = {\ frac {1} {{\ sqrt {2 \ pi}} | \ sigma |}} {\ rm {e}} ^ {- (x - \ mu) ^ {2} / 2 \ sigma ^ {2}}}

Perguntando

{\ displaystyle b _ {\ sigma} (x) = {\ frac {1} {{\ sqrt {2 \ pi}} | \ sigma |}} {\ rm {e}} ^ {- x ^ {2} / 2 \ sigma ^ {2}}, \, T _ {\ sigma} (x) = {\ frac {x} {\ sigma}} \, A _ {\ sigma} (\ mu) = {\ frac { \ mu ^ {2}} {2 \ sigma ^ {2}}} \, \ eta _ {\ sigma} (\ mu) = {\ frac {\ mu} {\ sigma}}, \,}

vemos que é uma família exponencial, com um único parâmetro $µ$ .

Se $σ = 1$ , está na forma canônica, porque então $η ( μ ) = μ$ .

Parâmetro de vetor

No caso da normal de média desconhecida $μ$ e variância desconhecida $σ 2$ , a função de densidade

{\ displaystyle f (x; \ mu, \ sigma) = {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} {\ rm {e}} ^ {- (x- \ mu) ^ {2} / 2 \ sigma ^ {2}}}

é uma família exponencial com parâmetro vetorial $( μ , σ )$ que é escrito na forma canônica pela configuração

{\ displaystyle b (x) = {1 \ over {\ sqrt {2 \ pi}}}, \, {\ boldsymbol {T}} (x) = {\ binom {x} {x ^ {2}}} , \, {\ boldsymbol {\ eta}} (\ mu, \ sigma) = {\ begin {pmatrix} {\ frac {\ mu} {\ sigma ^ {2}}} \\ - {\ frac {1} {2 \ sigma ^ {2}}} \ end {pmatriz}}, \, A (\ mu, \ sigma) = {\ mu ^ {2} \ over 2 \ sigma ^ {2}} + \ ln | \ sigma | = A ({\ boldsymbol {\ eta}}) = - \ eta _ {1} ^ {2} / 4 \ eta _ {2} +1/2 \ ln | 1/2 \ eta _ {2} |}

Distribuição discreta

A distribuição binomial com um número constante de sorteios n é um exemplo de uma família exponencial discreta. Sua densidade de probabilidade

{\ displaystyle f (x) = {\ binom {n} {x}} p ^ {x} (1-p) ^ {nx}, \ quad x \ in \ {0,1,2, \ ldots, n \}}

é fatorado em

{\ displaystyle f (x) = {\ binom {n} {x}} \ exp \ left [x \ ln \ left ({p \ over 1-p} \ right) + n \ ln \ left (1-p \ certo, certo]}

Seu parâmetro natural é

{\ displaystyle \ eta = \ ln {p \ over 1-p}}

chamada de função logit .

Matriz de famílias exponenciais

Esta tabela mostra uma seleção de distribuições atuais e sua reescrita em família exponencial com parâmetros naturais, de forma geral.

{\ displaystyle f_ {X} (\ mathbf {x} | {\ boldsymbol {\ theta}}) = b (\ mathbf {x}) \ \ exp \ left (\ {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (\ mathbf {x}) -A ({\ boldsymbol {\ eta}}) \ \ right) \, \!}

Preferimos a forma funcional com uma função de partição logarítmica $A ( η )$ , porque os momentos da estatística suficiente são facilmente calculados derivando esta última função. Também demos a função $A ( θ )$ .

São de família exponencial, as distribuições normal , exponencial , log-normal , Gama , qui-quadrado , Beta , Dirichlet , Bernoulli , multinomial , Poisson , geométrica , inverso-gaussiana , von Mises e von Mises-Fisher .
São de família exponencial apenas se um parâmetro for fixo ("constante"): o Pareto com limite inferior $x m$ fixo; binômios e multinomiais com um número fixo de sorteios n ; binômios negativos com um número fixo de falhas (ou parâmetro de parada) r .

Como regra geral, o domínio de definição, ou suporte , permanece constante entre todas as distribuições de uma família exponencial. Isso explica porque a variação dos parâmetros fixados acima (como o binômio com número variável de sorteios) torna a família não exponencial - o parâmetro em questão afeta o suporte (neste caso, ele altera o valor mínimo ou máximo possível). É pela mesma razão que a família Uniform também não é exponencial.

O conjunto de parâmetros de forma de Weibull k é uma família exponencial. No entanto, o parâmetro de forma não altera o meio. Nesse caso, é a forma particular de sua função densidade ( k aparece no expoente de um expoente) que impede a fatoração de Weibull se k varia.

Não são da família exponencial: as distribuições F de Fisher-Snedecor , Cauchy , hipergeométrica e logística . Da mesma forma, a maioria das distribuições que resultam da mistura finita ou infinita de distribuições não são famílias exponenciais: as misturas gaussianas, as distribuições de "cauda grande" construídas por composição como t de Student (composição de uma distribuição normal por uma lei gama), Beta-binomial e Dirichlet-multinomial.

Distribuição	parâmetro $θ$	parâmetro natural $η$	função inversa $θ ( η )$	medida de base $b ( x )$	estatística suficiente $T ( x )$	partição log $A ( η )$	$A ( θ )$
Bernoulli	$p$	${\ displaystyle \ ln {\ frac {p} {1-p}}}$ (função logit )	${\ displaystyle {\ frac {1} {1 + {\ rm {e}} ^ {- \ eta}}} = {\ frac {{{\ rm {e}}} ^ {\ eta}} {1 + {\ rm {e}} ^ {\ eta}}}}$ (função de logística )	1	$x$	${\ displaystyle \ ln (1 + {\ rm {e}} ^ {\ eta})}$	${\ displaystyle - \ ln (1-p)}$
binomial ( n constante)	p	${\ displaystyle \ ln {\ frac {p} {1-p}}}$	${\ displaystyle {\ frac {1} {1 + {\ rm {e}} ^ {- \ eta}}} = {\ frac {{{\ rm {e}}} ^ {\ eta}} {1 + {\ rm {e}} ^ {\ eta}}}}$	${\ displaystyle \ mathbf {C} _ {n} ^ {x}}$	$x$	${\ displaystyle n \ ln (1 + {\ rm {e}} ^ {\ eta})}$	${\ displaystyle -n \ ln (1-p)}$
Peixe	λ	${\ displaystyle \ ln \ lambda}$	${\ displaystyle \ exp (\ eta)}$	${\ displaystyle {\ frac {1} {x!}}}$	$x$	${\ displaystyle \ exp (\ eta)}$	$λ$
Binomial negativo ( r constante)	p	$ln ( p )$	${\ displaystyle \ exp (\ eta)}$	${\ displaystyle \ Gamma _ {r} ^ {x}}$	$x$	${\ displaystyle -r \ ln (1- \ exp (\ eta))}$	$- r ln (1- p )$
Exponencial	$λ$	$-Λ$	${\ displaystyle - \ eta}$	1	$x$	${\ displaystyle - \ ln (- \ eta)}$	${\ displaystyle - \ ln \ lambda}$
Pareto (mínimo $x m$ constante)	$α$	${\ displaystyle - \ alpha -1}$	${\ displaystyle -1- \ eta}$	1	$ln ( x )$	${\ displaystyle - \ ln (-1- \ eta)}$ ${\ displaystyle + (1+ \ eta) \ ln x _ {\ mathrm {m}}}$	${\ displaystyle - \ ln \ alpha}$ ${\ displaystyle - \ alpha \ ln x _ {\ mathrm {m}}}$
Weibull ( constante k )	$λ$	$-Λ k$	${\ displaystyle (- \ eta) ^ {1 / k}}$	${\ displaystyle x ^ {k-1}}$	$x k$	${\ displaystyle \ ln (- \ eta) - \ ln k}$	${\ displaystyle k \ ln \ lambda - \ ln k}$
Laplace ( constante μ )	$b$	${\ displaystyle - {\ frac {1} {b}}}$	${\ displaystyle - {\ frac {1} {\ eta}}}$	1	${\ displaystyle \| x- \ mu \|}$	${\ displaystyle \ ln \ left (- {\ frac {2} {\ eta}} \ right)}$	$ln (2 b )$
Qui-quadrado	$ν$	${\ displaystyle {\ frac {\ nu} {2}} - 1}$	${\ displaystyle 2 (\ eta +1)}$	${\ displaystyle {\ rm {e}} ^ {- x / 2}}$	$ln ( x )$	${\ displaystyle \ ln \ Gamma (\ eta +1)}$ ${\ displaystyle + (\ eta +1) \ ln 2}$	${\ displaystyle \ ln \ Gamma \ left ({\ frac {\ nu} {2}} \ right)}$ ${\ displaystyle + {\ frac {\ nu} {2}} \ ln 2}$
Normal (variação constante)	$µ$	${\ displaystyle {\ frac {\ mu} {\ sigma}}}$	$σ η$	${\ displaystyle {\ frac {1} {{\ sqrt {2 \ pi}} \ sigma}} {\ rm {e}} ^ {- {\ frac {x ^ {2}} {2 \ sigma ^ {2 }}}}}$	${\ displaystyle {\ frac {x} {\ sigma}}}$	${\ displaystyle - {\ frac {\ eta ^ {2}} {2}}}$	${\ displaystyle {\ frac {\ mu ^ {2}} {2 \ sigma ^ {2}}}}$
Normal	$μ , σ 2$	${\ displaystyle {\ begin {bmatrix} {\ dfrac {\ mu} {\ sigma ^ {2}}} \\ [10pt] - {\ dfrac {1} {2 \ sigma ^ {2}}} \ end { bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} - {\ dfrac {\ eta _ {1}} {2 \ eta _ {2}}} \\ [15pt] - {\ dfrac {1} {2 \ eta _ {2 }}} \ end {bmatrix}}}$	${\ displaystyle {\ frac {1} {\ sqrt {2 \ pi}}}}$	${\ displaystyle {\ begin {bmatrix} x \\ x ^ {2} \ end {bmatrix}}}$	${\ displaystyle - {\ frac {\ eta _ {1} ^ {2}} {4 \ eta _ {2}}} - {\ frac {1} {2}} \ ln (-2 \ eta _ {2 })}$	${\ displaystyle {\ frac {\ mu ^ {2}} {2 \ sigma ^ {2}}} + \ ln \ sigma}$
Log-normal	$μ , σ 2$	${\ displaystyle {\ begin {bmatrix} {\ dfrac {\ mu} {\ sigma ^ {2}}} \\ [10pt] - {\ dfrac {1} {2 \ sigma ^ {2}}} \ end { bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} - {\ dfrac {\ eta _ {1}} {2 \ eta _ {2}}} \\ [15pt] - {\ dfrac {1} {2 \ eta _ {2 }}} \ end {bmatrix}}}$	${\ displaystyle {\ frac {1} {{\ sqrt {2 \ pi}} x}}}$	${\ displaystyle {\ begin {bmatrix} \ ln x \\ (\ ln x) ^ {2} \ end {bmatrix}}}$	${\ displaystyle - {\ frac {\ eta _ {1} ^ {2}} {4 \ eta _ {2}}} - {\ frac {1} {2}} \ ln (-2 \ eta _ {2 })}$	${\ displaystyle {\ frac {\ mu ^ {2}} {2 \ sigma ^ {2}}} + \ ln \ sigma}$
Inverso normal	$μ , λ$	${\ displaystyle {\ begin {bmatrix} - {\ dfrac {\ lambda} {2 \ mu ^ {2}}} \\ [15pt] - {\ dfrac {\ lambda} {2}} \ end {bmatrix}} }$	${\ displaystyle {\ begin {bmatrix} {\ sqrt {\ dfrac {\ eta _ {2}} {\ eta _ {1}}}} \\ [15pt] -2 \ eta _ {2} \ end {bmatrix }}}$	${\ displaystyle {\ frac {1} {{\ sqrt {2 \ pi}} x ^ {3/2}}}}$	${\ displaystyle {\ begin {bmatrix} x \\ [5pt] {\ dfrac {1} {x}} \ end {bmatrix}}}$	${\ displaystyle -2 {\ sqrt {\ eta _ {1} \ eta _ {2}}} - {\ frac {1} {2}} \ ln (-2 \ eta _ {2})}$	${\ displaystyle - {\ frac {\ lambda} {\ mu}} - {\ frac {1} {2}} \ ln \ lambda}$
Gamma-Normal	$α , β , μ , λ$	${\ displaystyle {\ begin {bmatrix} \ alpha - {\ frac {1} {2}} \\ - \ beta - {\ dfrac {\ lambda \ mu ^ {2}} {2}} \\\ lambda \ mu \\ - {\ dfrac {\ lambda} {2}} \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} \ eta _ {1} + {\ frac {1} {2}} \\ - \ eta _ {2} + {\ dfrac {\ eta _ {3} ^ {2} } {4 \ eta _ {4}}} \\ - {\ dfrac {\ eta _ {3}} {2 \ eta _ {4}}} \\ - 2 \ eta _ {4} \ end {bmatrix} }}$	${\ displaystyle {\ dfrac {1} {\ sqrt {2 \ pi}}}}$	${\ displaystyle {\ begin {bmatrix} \ ln \ tau \\\ tau \\\ tau x \\\ tau x ^ {2} \ end {bmatrix}}}$	${\ displaystyle \ ln \ Gamma \ left (\ eta _ {1} + {\ frac {1} {2}} \ right)}$ ${\ displaystyle - {\ frac {1} {2}} \ ln \ left (-2 \ eta _ {4} \ right)}$ ${\ displaystyle - \ left (\ eta _ {1} + {\ frac {1} {2}} \ right) \ ln \ left ({\ dfrac {\ eta _ {3} ^ {2}} {4 \ eta _ {4}}} - \ eta _ {2} \ right)}$	${\ displaystyle \ ln \ Gamma \ left (\ alpha \ right) - \ alpha \ ln \ beta \|}$ ${\ displaystyle - {\ frac {1} {2}} \ ln \ lambda}$
Gama	$r , λ$	${\ displaystyle {\ begin {bmatrix} r-1 \\ - \ lambda \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\ - \ eta _ {2} \ end {bmatrix}}}$	1	${\ displaystyle {\ begin {bmatrix} \ ln x \\ x \ end {bmatrix}}}$	${\ displaystyle \ ln \ Gamma (\ eta _ {1} +1)}$ ${\ displaystyle - (\ eta _ {1} +1) \ ln (- \ eta _ {2})}$	${\ displaystyle \ ln \ Gamma (r) -r \ ln \ lambda}$
Gama	$k , θ$	${\ displaystyle {\ begin {bmatrix} k-1 \\ [5pt] - {\ dfrac {1} {\ theta}} \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\ [5pt] - {\ dfrac {1} {\ eta _ {2}}} \ end {bmatrix}}}$	1			${\ displaystyle \ ln \ Gamma (k) + k \ ln \ theta}$
Gama inversa	$r , λ$	${\ displaystyle {\ begin {bmatrix} -r-1 \\ - \ lambda \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} - \ eta _ {1} -1 \\ - \ eta _ {2} \ end {bmatrix}}}$	1	${\ displaystyle {\ begin {bmatrix} \ ln x \\ 1 / x \ end {bmatrix}}}$	${\ displaystyle \ ln \ Gamma (- \ eta _ {1} -1)}$ ${\ displaystyle - (- \ eta _ {1} -1) \ ln (- \ eta _ {2})}$	${\ displaystyle \ ln \ Gamma (r) -r \ ln \ lambda}$
Qui-quadrado inverso	$ν , σ 2$	${\ displaystyle {\ begin {bmatrix} - {\ dfrac {\ nu} {2}} - 1 \\ [10pt] - {\ dfrac {\ nu \ sigma ^ {2}} {2}} \ end {bmatrix }}}$	${\ displaystyle {\ begin {bmatrix} -2 (\ eta _ {1} +1) \\ [10pt] {\ dfrac {\ eta _ {2}} {\ eta _ {1} +1}} \ end {bmatrix}}}$	1	${\ displaystyle {\ begin {bmatrix} \ ln x \\ 1 / x \ end {bmatrix}}}$	${\ displaystyle \ ln \ Gamma (- \ eta _ {1} -1)}$ ${\ displaystyle - (- \ eta _ {1} -1) \ ln (- \ eta _ {2})}$	${\ displaystyle \ ln \ Gamma \ left ({\ frac {\ nu} {2}} \ right) \|}$ ${\ displaystyle - {\ frac {\ nu} {2}} \ ln {\ frac {\ nu \ sigma ^ {2}} {2}}}$
Beta	$α , β$	${\ displaystyle {\ begin {bmatrix} \ alpha \\\ beta \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} \ eta _ {1} \\\ eta _ {2} \ end {bmatrix}}}$	${\ displaystyle {\ frac {1} {x (1-x)}}}$	${\ displaystyle {\ begin {bmatrix} \ ln x \\\ ln (1-x) \ end {bmatrix}}}$	${\ displaystyle \ ln \ Gamma (\ eta _ {1}) + \ ln \ Gamma (\ eta _ {2})}$ ${\ displaystyle - \ ln \ Gamma (\ eta _ {1} + \ eta _ {2})}$	${\ displaystyle \ ln \ Gamma (\ alpha) + \ ln \ Gamma (\ beta)}$ ${\ displaystyle - \ ln \ Gamma (\ alpha + \ beta)}$
Dirichlet	$α 1 , ..., α k$	${\ displaystyle {\ begin {bmatrix} \ alpha _ {1} -1 \\\ vdots \\\ alpha _ {k} -1 \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\\ vdots \\\ eta _ {k} +1 \ end {bmatrix}}}$	1	${\ displaystyle {\ begin {bmatrix} \ ln x_ {1} \\\ vdots \\\ ln x_ {k} \ end {bmatrix}}}$	${\ displaystyle \ sum _ {i = 1} ^ {k} \ ln \ Gamma (\ eta _ {i} +1)}$ ${\ displaystyle - \ ln \ Gamma \ left (\ sum _ {i = 1} ^ {k} \ left (\ eta _ {i} +1 \ right) \ right)}$	${\ displaystyle \ sum _ {i = 1} ^ {k} \ ln \ Gamma (\ alpha _ {i}) \|}$ ${\ displaystyle - \ ln \ Gamma \ left (\ sum _ {i = 1} ^ {k} \ alpha _ {i} \ right)}$
Normal multivariado	$μ , Σ$	${\ displaystyle {\ begin {bmatrix} {\ boldsymbol {\ Sigma}} ^ {- 1} {\ boldsymbol {\ mu}} \\ [5pt] - {\ frac {1} {2}} {\ boldsymbol { \ Sigma}} ^ {- 1} \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} - {\ frac {1} {2}} {\ boldsymbol {\ eta}} _ {2} ^ {- 1} {\ boldsymbol {\ eta}} _ {1} \ \ [5pt] - {\ frac {1} {2}} {\ boldsymbol {\ eta}} _ {2} ^ {- 1} \ end {bmatrix}}}$	${\ displaystyle (2 \ pi) ^ {- k / 2}}$	${\ displaystyle {\ begin {bmatrix} \ mathbf {x} \\ [5pt] \ mathbf {x} \ mathbf {x} ^ {\ mathrm {T}} \ end {bmatrix}}}$	${\ displaystyle - {\ frac {1} {4}} {\ boldsymbol {\ eta}} _ {1} ^ {\ rm {T}} {\ boldsymbol {\ eta}} _ {2} ^ {- 1 } {\ boldsymbol {\ eta}} _ {1}}$ ${\ displaystyle - {\ frac {1} {2}} \ ln \ left \| -2 {\ boldsymbol {\ eta}} _ {2} \ right \|}$	${\ displaystyle {\ frac {1} {2}} {\ boldsymbol {\ mu}} ^ {\ rm {T}} {\ boldsymbol {\ Sigma}} ^ {- 1} {\ boldsymbol {\ mu}} \|}$ ${\ displaystyle + {\ frac {1} {2}} \ ln \| {\ boldsymbol {\ Sigma}} \|}$
Wishart	$V , n$	${\ displaystyle {\ begin {bmatrix} - {\ frac {1} {2}} \ mathbf {V} ^ {- 1} \\ [5pt] {\ dfrac {np-1} {2}} \ end { bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} - {\ frac {1} {2}} {{\ boldsymbol {\ eta}} _ {1}} ^ {- 1} \\ [5pt] 2 \ eta _ {2 } + p + 1 \ end {bmatrix}}}$	1	${\ displaystyle {\ begin {bmatrix} \ mathbf {X} \\\ ln \| \ mathbf {X} \| \ end {bmatrix}}}$	${\ displaystyle - \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) \ ln \| - {\ boldsymbol {\ eta}} _ {1} \|}$ ${\ displaystyle + \ ln \ Gamma _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) =}$ ${\ displaystyle - {\ frac {n} {2}} \ ln \| - {\ boldsymbol {\ eta}} _ {1} \| + \ ln \ Gamma _ {p} \ left ({\ frac {n} { 2}} \ direita) =}$ ${\ displaystyle \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ ln 2+ \ ln \| \ mathbf {V} \|)}$ ${\ displaystyle + \ ln \ Gamma _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right)}$	${\ displaystyle {\ frac {n} {2}} (p \ ln 2+ \ ln \| \ mathbf {V} \|)}$ ${\ displaystyle + \ ln \ Gamma _ {p} \ left ({\ frac {n} {2}} \ right)}$
Wishart	$A ( η )$ é dado em três formas, a fim de facilitar o cálculo dos momentos. NOTA : Lembre-se de que $Tr ( A'B ) = vec ( A ) • vec ( B )$ ; ou seja, o traço de um produto de matriz é como um produto escalar . Os parâmetros da matriz são considerados vetores na forma exponencial. Além disso, $V$ e $X$ são simétricos.
Wishart reverso	$Ψ , m$	${\ displaystyle {\ begin {bmatrix} - {\ frac {1} {2}} {\ boldsymbol {\ Psi}} \\ [5pt] - {\ dfrac {m + p + 1} {2}} \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} -2 {\ boldsymbol {\ eta}} _ {1} \\ [5pt] - (2 \ eta _ {2} + p + 1) \ end {bmatrix}}}$	1	${\ displaystyle {\ begin {bmatrix} \ mathbf {X} ^ {- 1} \\\ ln \| \ mathbf {X} \| \ end {bmatrix}}}$	${\ displaystyle \ ln \ Gamma _ {p} \ left (- \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) \ right) +}$ ${\ displaystyle \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) \ ln \| - {\ boldsymbol {\ eta}} _ {1} \| =}$ ${\ displaystyle \ ln \ Gamma _ {p} \ left ({\ frac {m} {2}} \ right) - {\ frac {m} {2}} \ ln \| - {\ boldsymbol {\ eta}} _ {1} \| =}$ ${\ displaystyle \ ln \ Gamma _ {p} \ left (- \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) \ right) -}$ ${\ displaystyle \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ ln 2- \ ln \| {\ boldsymbol {\ Psi}} \|)}$	${\ displaystyle {\ frac {m} {2}} (p \ ln 2- \ ln \| {\ boldsymbol {\ Psi}} \|)}$ ${\ displaystyle + \ ln \ Gamma _ {p} \ left ({\ frac {m} {2}} \ right)}$
multinomial ( constante n ) (= Multi-Bernoulli se n = 1) versão 1	$p 1 , ..., p k$ com ${\ displaystyle \ sum _ {i = 1} ^ {k} p_ {i} = 1}$	${\ displaystyle {\ begin {bmatrix} \ ln p_ {1} \\\ vdots \\\ ln p_ {k} \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} {\ rm {e}} ^ {\ eta _ {1}} \\\ vdots \\ {\ rm {e}} ^ {\ eta _ {k}} \ end { bmatrix}}}$ ${\ displaystyle \ textstyle \ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}} = 1}$	${\ displaystyle {\ frac {n!} {\ prod _ {i = 1} ^ {k} x_ {i}!}}}$	${\ displaystyle {\ begin {bmatrix} x_ {1} \\\ vdots \\ x_ {k} \ end {bmatrix}}}$	0	0
Multinomial ( constante n ) versão 2	$p 1 , ..., p k -1$ com ${\ displaystyle p_ {k} =}$ ${\ displaystyle 1- \ sum _ {i = 1} ^ {k-1} p_ {i}}$	${\ displaystyle {\ begin {bmatrix} \ ln {\ dfrac {p_ {1}} {p_ {k}}} \\ [10pt] \ vdots \\ [5pt] \ ln {\ dfrac {p_ {k-1 }} {p_ {k}}} \\ [15pt] 0 \ end {bmatriz}}}$	${\ displaystyle {\ begin {bmatrix} {\ dfrac {{\ rm {e}} ^ {\ eta _ {1}}} {\ sum _ {i = 1} ^ {k} {\ rm {e}} ^ {\ eta _ {i}}}} \\ [10pt] \ vdots \\ [5pt] {\ dfrac {{\ rm {e}} ^ {\ eta _ {k}}} {\ sum _ {i = 1} ^ {k} {\ rm {e}} ^ {\ eta _ {i}}}} \ end {bmatrix}}}$	${\ displaystyle {\ frac {n!} {\ prod _ {i = 1} ^ {k} x_ {i}!}}}$	${\ displaystyle {\ begin {bmatrix} x_ {1} \\\ vdots \\ x_ {k} \ end {bmatrix}}}$	${\ displaystyle \ ln \ left (\ sum _ {i = 1} ^ {k} {\ rm {e}} ^ {\ eta _ {i}} \ right)}$	${\ displaystyle - \ ln p_ {k}}$

A variante do multinomial resulta do fato de que os parâmetros $p i$ são restringidos por . Existem, portanto, apenas k -1 parâmetros independentes. ${\ displaystyle \ sum _ {i = 1} ^ {k} p_ {i} = 1}$

Na versão 1, vemos k parâmetros naturais e uma relação simples entre os parâmetros padrão e naturais. No entanto, k -1 apenas dos parâmetros naturais são independentes e, de repente, o conjunto de k parâmetros naturais não é identificável. A restrição nos parâmetros normais é transposta de forma idêntica nos parâmetros naturais.

Observe que a versão 1 não é uma família exponencial padrão. É uma família exponencial curva, uma vez que parâmetros independentes k -1 são incorporados em um espaço k- dimensional. As propriedades básicas das famílias exponenciais não se aplicam às famílias exponenciais curvas. Por exemplo, vemos que a função de partição de log $A ( x )$ tem o valor 0.

A versão 2 mostra uma maneira simples de tornar os parâmetros identificáveis definindo $p k$ . Isso força o último parâmetro natural ao valor constante 0. As outras fórmulas são escritas de forma a não usar $p k$ , de forma que o modelo tenha apenas k -1 parâmetros, tanto na forma normal quanto na forma canônica.

Formulários

Inferência estatística

Estimativa clássica: completude

O teorema Pitman –Koopman– Darmois mostra que entre as famílias de distribuições cujo domínio não depende do parâmetro a ser estimado, apenas as famílias exponenciais oferecem uma estatística suficiente cuja dimensão permanece limitada quando o tamanho da amostra aumenta.

Concretamente, sejam $X k$ , (onde k = 1, 2, 3, ... n ) variáveis aleatórias independentes e distribuídas de forma idêntica. Sua distribuição deve ser de uma família exponencial para que exista uma estatística suficiente $T ( X 1 , ..., X n )$ cujo número de componentes escalares não aumenta com o tamanho da amostra n : sua dimensão não mudará quando coletamos mais dados.

Estimativa bayesiana: distribuições conjugadas

Na inferência bayesiana , uma distribuição a priori de um parâmetro a ser estimado é multiplicada por uma função de verossimilhança (então normalizada) para chegar a uma distribuição a posteriori .

Uma priora conjugada é uma distribuição a priori que, depois de combinada com a função de verossimilhança, dá uma distribuição a posteriori do mesmo tipo, o que torna particularmente fácil calcular a posterior. Por exemplo, para estimar a probabilidade de sucesso p de uma distribuição binomial, se tomarmos uma distribuição beta como a prioress, a posterior será outra distribuição beta. Da mesma forma, a estimativa do parâmetro de um Poisson por um Gamma prioress dá um Gamma posterior. Prioresas conjugadas são frequentemente muito práticas, devido à sua flexibilidade.

Quando a função de verossimilhança tem uma família exponencial, há uma prioridade conjugada, que geralmente também será de uma família exponencial. Como regra geral, uma função de verossimilhança não será de uma família exponencial e, portanto, não haverá uma prioridade conjugada. A posterior deve ser calculada por métodos numéricos.

A prioress conjugada $π$ (para "prior") no parâmetro $η$ de uma família exponencial é dada por

{\ displaystyle \ pi ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}}, \ nu) = f ({\ boldsymbol {\ chi}}, \ nu) \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}} - \ nu \, A ({\ boldsymbol {\ eta}})) = f ({\ boldsymbol {\ chi}}, \ nu ) a ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}),}

$ν > 0$ representa o número virtual de observações fornecidas pela priora.
${\ displaystyle {\ boldsymbol {\ chi}} \ in \ mathbb {R} ^ {s}}$ ( $s$ sendo a dimensão de $η$ ) representa a contribuição dessas pseudo-observações na estatística suficiente composta de todas as observações e pseudo-observações.

$χ$ e $ν$ são hiperparâmetros (parâmetros que controlam parâmetros).

$f ( χ , ν )$ é a constante de normalização, determinada automaticamente pelas demais funções, que serve para garantir que $π ( η | χ , ν )$ seja uma função densidade.
$A ( η )$ (resp. $A ( η )$ ) são as mesmas funções que na distribuição $p ( x | χ )$ para a qual $π$ é a prioridade conjugada.

Para ver que esta distribuição a priori é uma priora conjugada, vamos calcular a posterior.

Seja a função densidade (ou probabilidade) de uma observação, de família exponencial, escrita como parâmetro natural:

{\ displaystyle p (x | {\ boldsymbol {\ eta}}) = b (x) a ({\ boldsymbol {\ eta}}) \ exp \ left (\ {\ boldsymbol {\ eta}} ^ {\ rm {T}} \ mathbf {T} (x) \ \ right) \, \!}

A probabilidade dos dados $X = ( x 1 , ..., x n )$ é dada por:

{\ displaystyle p (\ mathbf {X} | {\ boldsymbol {\ eta}}) = \ left (\ prod _ {i = 1} ^ {n} b (x_ {i}) \ right) a ({\ boldsymbol {\ eta}}) ^ {n} \ exp \ left (\ {\ boldsymbol {\ eta}} ^ {\ rm {T}} \ left (\ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}) \ right) \ \ right)}

Portanto, aplicando a distribuição a priori acima:

{\ displaystyle {\ begin {alinhados} \ pi ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}}, \ nu) & = f ({\ boldsymbol {\ chi}}, \ nu) a ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}) & \ propto a ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}) \ end {alinhado}}}

nós derivamos o posterior:

{\ displaystyle {\ begin {align} p ({\ boldsymbol {\ eta}} | \ mathbf {X}, {\ boldsymbol {\ chi}}, \ nu) & \ propto p (\ mathbf {X} | \ boldsymbol {\ eta}}) \ pi ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}}, \ nu) \\ & = \ left (\ prod _ {i = 1} ^ {n } b (x_ {i}) \ right) a ({\ boldsymbol {\ eta}}) ^ {n} \ exp \ left (\ {\ boldsymbol {\ eta}} ^ {\ rm {T}} \ left (\ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}) \ right) \ \ right) f ({\ boldsymbol {\ chi}}, \ nu) a ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}) \\ & \ propto a ({\ boldsymbol { \ eta}}) ^ {n} \ exp \ left (\ {\ boldsymbol {\ eta}} ^ {\ rm {T}} \ left (\ sum _ {i = 1} ^ {n} \ mathbf {T } (x_ {i}) \ right) \ \ right) a ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} { \ boldsymbol {\ chi}}) \\ & \ propto a ({\ boldsymbol {\ eta}}) ^ {\ nu + n} \ exp \ left (\ {\ boldsymbol {\ eta}} ^ {\ rm { T}} \ left ({\ boldsymbol {\ chi}} + \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}) \ right) \ \ right) \ end {alinhado} }}

Assim, o posterior tem a mesma forma que a prioresa:

{\ displaystyle p ({\ boldsymbol {\ eta}} | \ mathbf {X}, {\ boldsymbol {\ chi}}, \ nu) = \ pi ({\ boldsymbol {\ eta}} | [{\ boldsymbol { \ chi}} + \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i})], [\ nu + n])}

Observe que as observações $X$ entram na fórmula apenas por meio , em outras palavras, das estatísticas suficientes das observações. Isso confirma que o valor da estatística suficiente determina completamente a distribuição posterior . Os valores individuais das observações não são necessários; qualquer conjunto de dados com o mesmo valor para a estatística suficiente produzirá a mesma distribuição. Agora, lembre-se que a dimensão da estatística suficiente não aumenta com o tamanho da amostra: ela tem no máximo o número de componentes de $η$ (ou seja, o número de parâmetros da distribuição de um único dado). ${\ displaystyle \ mathbf {T} (\ mathbf {X}) = \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i})}$

Os novos hiperparâmetros são

{\ displaystyle {\ boldsymbol {\ chi}} \ implica {\ boldsymbol {\ chi}} + \ mathbf {T} (\ mathbf {X}) = {\ boldsymbol {\ chi}} + \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i})}

{\ displaystyle \ nu \ implica \ nu + n}

A atualização bayesiana requer apenas o conhecimento do número de observações e do valor estatístico suficiente dos dados.

Testes de hipótese: testes uniformemente mais poderosos

Para uma família exponencial com um único parâmetro $θ$ , se $η ( θ )$ for não decrescente, a razão de verossimilhança é uma função monotônica não decrescente da estatística suficiente $T ( x )$ . Consequentemente, há um teste de hipótese "uniformemente mais poderoso" para testar $H 0 : θ \geq θ 0$ contra $H 1 : θ < θ 0 .$

Modelo linear generalizado

A família exponencial é a base das funções de distribuição usadas no modelo linear generalizado , que inclui a maioria dos modelos de regressão em estatística e econometria .

Momentos e cumulantes de estatísticas suficientes

Cálculo de cumulantes de T por diferenciação

A função geradora de momento de $T ( x )$ é definida como

{\ displaystyle m_ {T} (u) \ equiv \ mathbb {E} [{\ rm {e}} ^ {u'T (x)} | \ eta] = \ int _ {x} b (x) { \ rm {e}} ^ {(\ eta + u) 'T (x) -A (\ eta)} \ mathrm {d} x = {\ rm {e}} ^ {A (\ eta + u) - A (\ eta)}}

Portanto, $K ( u | η ) = A ( η + u ) - A ( η )$ é a função de geração de cumulante de $T$ .

NB: Na subfamília exponencial natural (onde

T ( x ) = x

), é a função geradora dos momentos de

x

Por definição da função geradora dos cumulantes,

{\ displaystyle \ mathbb {E} (T_ {j}) = {\ frac {\ parcial A (\ eta)} {\ parcial \ eta _ {j}}} \ {\ textrm {et}} \ \ mathrm { cov} (T_ {i}, T_ {j}) = {\ frac {\ parcial ^ {2} A (\ eta)} {\ parcial \ eta _ {i} \, \ parcial \ eta _ {j}} }.}

Momentos de ordem superior e cumulantes são fornecidos por derivadas superiores. Esta técnica é particularmente útil quando $T$ é uma função complicada, cujos momentos são difíceis de calcular por integração.

Esse resultado pode ser demonstrado sem recorrer à teoria dos cumulantes .

Exemplo: qualquer um

{\ displaystyle p (x) = a (\ eta) b (x) {\ rm {e}} ^ {\ eta T (x)}}

Por restrição de normalização,

{\ displaystyle 1 = \ int _ {x} p (x) \, \ mathrm {d} x = \ int _ {x} a (\ eta) b (x) {\ rm {e}} ^ {\ eta T (x)} \ mathrm {d} x = a (\ eta) \ int _ {x} b (x) {\ rm {e}} ^ {\ eta T (x)} \ mathrm {d} x}

Derivamos os dois lados em comparação com $η$ :

{\ displaystyle {\ begin {alinhados} 0 & = a (\ eta) {\ frac {d} {d \ eta}} \ int _ {x} b (x) {\ rm {e}} ^ {\ eta T (x)} \, \ mathrm {d} x + a '(\ eta) \ int _ {x} b (x) {\ rm {e}} ^ {\ eta T (x)} \ mathrm {d } x \\ & = a (\ eta) \ int _ {x} b (x) \ left ({\ frac {d} {d \ eta}} {\ rm {e}} ^ {\ eta T (x )} \ right) \, \ mathrm {d} x + a '(\ eta) \ int _ {x} b (x) {\ rm {e}} ^ {\ eta T (x)} \ mathrm {d } x \\ & = a (\ eta) \ int _ {x} b (x) {\ rm {e}} ^ {\ eta T (x)} T (x) \, \ mathrm {d} x + a '(\ eta) \ int _ {x} b (x) e ^ {\ eta T (x)} \, \ mathrm {d} x \\ & = \ int _ {x} T (x) a ( \ eta) b (x) {\ rm {e}} ^ {\ eta T (x)} \, \ mathrm {d} x + {\ frac {a '(\ eta)} {a (\ eta)} } \ int _ {x} a (\ eta) b (x) {\ rm {e}} ^ {\ eta T (x)} \ mathrm {d} x \\ & = \ int _ {x} T ( x) p (x) dx + {\ frac {a '(\ eta)} {a (\ eta)}} \ int _ {x} p (x) \ mathrm {d} x \\ & = \ mathbb { E} [T (x)] + {\ frac {a '(\ eta)} {a (\ eta)}} \\ & = \ mathbb {E} [T (x)] + {\ frac {\ mathrm {d}} {\ mathrm {d} \ eta}} \ ln a (\ eta) \ end {alinhado}}}

Portanto,

{\ displaystyle \ mathbb {E} [T (x)] = - {\ frac {\ mathrm {d}} {\ mathrm {d} \ eta}} \ ln a (\ eta) = {\ frac {\ mathrm {d}} {\ mathrm {d} \ eta}} A (\ eta).}

Exemplos Lei gama

A distribuição Gama é definida pela função de densidade

{\ displaystyle p (x) = {\ frac {\ lambda ^ {r}} {\ Gamma (r)}} x ^ {r-1} {\ rm {e}} ^ {- \ lambda x}.}

A tabela acima fornece parâmetros naturais

{\ displaystyle \ eta _ {1} = r-1,}

{\ displaystyle \ eta _ {2} = - \ lambda,}

cujos recíprocos são

{\ displaystyle r = \ eta _ {1} +1,}

{\ displaystyle \ lambda = - \ eta _ {2}.}

As estatísticas suficientes são $(ln x , x )$ , e a função de partição de log é

{\ displaystyle A (\ eta _ {1}, \ eta _ {2}) = \ ln \ Gamma (\ eta _ {1} +1) - (\ eta _ {1} +1) \ ln (- \ eta _ {2}).}

Estamos procurando a média da estatística suficiente. Para $η 1$ :

{\ displaystyle {\ begin {alinhados} \ mathbb {E} [\ ln x] & = {\ frac {\ parcial A (\ eta _ {1}, \ eta _ {2})} {\ parcial \ eta _ {1}}} = {\ frac {\ partial} {\ partial \ eta _ {1}}} \ left (\ ln \ Gamma (\ eta _ {1} +1) - (\ eta _ {1} + 1) \ ln (- \ eta _ {2}) \ right) \\ & = \ psi (\ eta _ {1} +1) - \ ln (- \ eta _ {2}) \\ & = \ psi (r) - \ ln \ lambda, \ end {alinhado}}}

onde $ψ ( x )$ é a função digamma (derivada de log gama).

Da mesma forma, para $η 2$ :

{\ displaystyle {\ begin {alinhado} \ mathbb {E} [x] & = {\ frac {\ parcial A (\ eta _ {1}, \ eta _ {2})} {\ parcial \ eta _ {2 }}} = {\ frac {\ partial} {\ partial \ eta _ {2}}} \ left (\ ln \ Gamma (\ eta _ {1} +1) - (\ eta _ {1} +1) \ ln (- \ eta _ {2}) \ right) \\ & = - (\ eta _ {1} +1) {\ frac {1} {- \ eta _ {2}}} (- 1) = {\ frac {\ eta _ {1} +1} {- \ eta _ {2}}} \\ & = {\ frac {r} {\ lambda}}, \ end {alinhado}}}

Para encontrar a variância de $x$ , devemos diferenciar novamente:

{\ displaystyle {\ begin {alinhados} \ operatorname {Var} (x) & = {\ frac {\ partial ^ {2} A (\ eta _ {1}, \ eta _ {2})} {\ partial \ eta _ {2} ^ {2}}} = {\ frac {\ partial} {\ partial \ eta _ {2}}} {\ frac {\ eta _ {1} +1} {- \ eta _ {2 }}} \\ & = {\ frac {\ eta _ {1} +1} {\ eta _ {2} ^ {2}}} \\ & = {\ frac {r} {\ lambda ^ {2} }}. \ end {alinhado}}}

Todos esses cálculos podem ser feitos por integração, a partir da função gama , mas isso exige mais esforço.

Lei de logística assimétrica

Let Ser uma variável real aleatória $X$ com uma distribuição logística assimétrica.

{\ displaystyle p _ {\ theta} (x) = {\ frac {\ theta {\ rm {e}} ^ {- x}} {(1 + {\ rm {e}} ^ {- x}) ^ {\ theta +1}}}}

onde $θ > 0$ é um parâmetro de forma. Essa densidade é fatorada da seguinte forma:

{\ displaystyle {\ frac {{\ rm {e}} ^ {- x}} {1 + {\ rm {e}} ^ {- x}}} \ exp (- \ theta \ log (1 + e ^ {-x}) + \ log (\ theta))}

É, portanto, uma família exponencial de parâmetro natural $η = - θ$ , então uma estatística suficiente é $T = log (1 + e - x )$ , e a função de partição logarítmica vale $A ( η ) = -log ( θ ) = - Log (- η )$ .

Assim, pela primeira equação,

{\ displaystyle \ mathbb {E} (\ log (1 + {\ rm {e}} ^ {- X})) = \ mathbb {E} (T) = {\ frac {\ parcial A (\ eta)} {\ partial \ eta}} = {\ frac {\ partial} {\ partial \ eta}} [- \ log (- \ eta)] = {\ frac {1} {- \ eta}} = {\ frac { 1} {\ theta}},}

e pelo segundo,

{\ displaystyle \ mathrm {Var} (\ log (1 + {\ rm {e}} ^ {- X})) = {\ frac {\ parcial ^ {2} A (\ eta)} {\ parcial \ eta ^ {2}}} = {\ frac {\ partial} {\ partial \ eta}} \ left [{\ frac {1} {- \ eta}} \ right] = {\ frac {1} {(- \ eta) ^ {2}}} = {\ frac {1} {\ theta ^ {2}}}.}

Neste exemplo, o uso do método simplifica os cálculos, uma abordagem direta que aumenta muito as igualdades.

Lei de Wishart

A distribuição de Wishart é definida para matrizes aleatórias. Este último exemplo trata de um caso em que a integração seria particularmente difícil. NB: a derivação em si é difícil, pois requer cálculo matricial , mas a integração é pior.

A tabela fornece o parâmetro natural

{\ displaystyle {\ boldsymbol {\ eta}} _ {1} = - {\ frac {1} {2}} \ mathbf {V} ^ {- 1},}

{\ displaystyle \ eta _ {2} = {\ frac {np-1} {2}},}

cuja transformação recíproca é

{\ displaystyle \ mathbf {V} = - {\ frac {1} {2}} {{\ boldsymbol {\ eta}} _ {1}} ^ {- 1},}

{\ displaystyle n = 2 \ eta _ {2} + p + 1}

As estatísticas suficientes são $( X , ln | X |)$ .

A função de partição de log é dada em diferentes formas, a fim de facilitar a diferenciação e transformações. Usaremos os seguintes formulários:

{\ displaystyle A ({\ boldsymbol {\ eta}} _ {1}, n) = - {\ frac {n} {2}} \ ln | - {\ boldsymbol {\ eta}} _ {1} | + \ ln \ Gamma _ {p} \ left ({\ frac {n} {2}} \ right),}

{\ displaystyle A (\ mathbf {V}, \ eta _ {2}) = \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ ln 2+ \ ln | \ mathbf {V} |) + \ ln \ Gamma _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right).}

Expectativa de

X

(associada a

η 1

)

A derivada em relação a $η 1 é$ baseada no cálculo da matriz de igualdade :

{\ displaystyle {\ frac {\ partial \ ln | a \ mathbf {X} |} {\ partial \ mathbf {X}}} = (\ mathbf {X} ^ {- 1}) ^ {\ rm {T} }}

Desde então :

{\ displaystyle {\ begin {align} \ mathbb {E} [\ mathbf {X}] & = {\ frac {\ partial A ({\ boldsymbol {\ eta}} _ {1}, \ ldots)} {\ parcial {\ boldsymbol {\ eta}} _ {1}}} = {\ frac {\ partial} {\ partial {\ boldsymbol {\ eta}} _ {1}}} \ left [- {\ frac {n} {2}} \ ln | - {\ boldsymbol {\ eta}} _ {1} | + \ ln \ Gamma _ {p} \ left ({\ frac {n} {2}} \ right) \ right] \ \ & = - {\ frac {n} {2}} ({\ boldsymbol {\ eta}} _ {1} ^ {- 1}) ^ {\ rm {T}} = {\ frac {n} {2 }} (- {\ boldsymbol {\ eta}} _ {1} ^ {- 1}) ^ {\ rm {T}} \\ & = n (\ mathbf {V}) ^ {\ rm {T}} \\ & = n \ mathbf {V} \ end {alinhado}}}

porque $V$ é simétrico.

Esperança de

ln | X |

(associado a

η 2

)

Primeiro, desenvolvemos a parte da partição de log que contém a função gama multivariada :

{\ displaystyle \ ln \ Gamma _ {p} (y) = \ ln \ left (\ pi ^ {p (p-1) / 4} \ prod _ {j = 1} ^ {p} \ Gamma \ left [ y + (1-j) / 2 \ right] \ right) = p (p-1) / 4 \ ln \ pi + \ sum _ {j = 1} ^ {p} \ ln \ Gamma \ left [y + (1 -j) / 2 \ direita]}

Apresentamos a função digamma . ${\ displaystyle \ psi (x) = {\ frac {d} {dx}} \ ln \ Gamma (x)}$

Desde então :

{\ displaystyle {\ begin {alinhados} \ mathbb {E} [\ ln | \ mathbf {X} |] & = {\ frac {\ partial A (\ ldots, \ eta _ {2})} {\ partial \ eta _ {2}}} = {\ frac {\ partial} {\ partial \ eta _ {2}}} \ left [- \ left (\ eta _ {2} + {\ frac {p + 1} {2 }} \ right) (p \ ln 2+ \ ln | \ mathbf {V} |) + \ ln \ Gamma _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2 }} \ right) \ right] \\ & = {\ frac {\ partial} {\ partial \ eta _ {2}}} \ left [\ left (\ eta _ {2} + {\ frac {p + 1 } {2}} \ right) (p \ ln 2+ \ ln | \ mathbf {V} |) + p (p-1) / 4 \ ln \ pi + \ sum _ {j = 1} ^ {p} \ ln \ Gamma \ left (\ eta _ {2} + {\ frac {p + 1} {2}} + (1-j) / 2 \ right) \ right] \\ & = p \ ln 2+ \ ln | \ mathbf {V} | + \ sum _ {j = 1} ^ {p} \ psi \ left [\ eta _ {2} + {\ frac {p + 1} {2}} + (1-j ) / 2 \ right] \\ & = p \ ln 2+ \ ln | \ mathbf {V} | + \ sum _ {j = 1} ^ {p} \ psi \ left [{\ frac {np-1} {2}} + {\ frac {p + 1} {2}} + (1-j) / 2 \ direita] \\ & = p \ ln 2+ \ ln | \ mathbf {V} | + \ sum _ {j = 1} ^ {p} \ psi \ left [{\ frac {n} {2}} + (1-j) / 2 \ right] \\ & = p \ ln 2+ \ ln | \ mathbf { V} | + \ sum _ {j = 1} ^ {p} \ psi \ left ({\ frac {n + 1-j} {2}} \ right) \ end {alinhado}}}

Essas duas expectativas são necessárias para derivar as equações de adaptação variacional de uma rede bayesiana que tem uma distribuição de Wishart (que é a prioridade conjugada da normal multivariada ).

Entropia máxima

Distribuição de probabilidade máxima de entropia (in)

Estamos procurando a distribuição com entropia máxima, condicionalmente a uma série de restrições nas expectativas. A resposta é uma família exponencial.

A entropia informacional de uma distribuição de probabilidade dF ( x ) é calculada com relação a outra distribuição de probabilidade (ou, mais geralmente, uma medida positiva), de modo que as duas medidas sejam mutuamente absolutamente contínuas . Seja uma medida básica dH ( x ) com o mesmo suporte que dF ( x ).

A entropia de dF ( x ) em relação a dH ( x ) é definida como

{\ displaystyle S [dF | dH] = - \ int {dF \ over dH} \ ln {dF \ over dH} \, dH = \ int \ ln {dH \ over dF} \, dF}

onde dF / dH e dH / dF são os derivados de Radon - Nikodym .

Note-se que a definição usual da entropia de uma distribuição discreta sobre um conjunto de Y , isto é , assume implicitamente que a medida dH escolhido é a medida de contagem de Y .

{\ displaystyle \ mathbf {S} = - \ sum _ {i \ in Y} p_ {i} \ ln p_ {i}}

Da mesma forma, para uma distribuição contínua, H ( x ) = x dá

{\ displaystyle S = - \ int {dF \ over dx} \ ln {dF \ over dx} \, dx = - \ int f (x) \ ln f (x) \, dx}

Let Ser uma amostra de quantidades observáveis (variáveis aleatórias) T j .
A distribuição de entropia máxima dF com respeito a dH , condicionalmente que a expectativa de T j é igual at j , será um membro da família exponencial tendo dH como sua medida base e ( T 1 , ..., T n ) para estatística (s) suficiente (s).

Este resultado é deduzido pelo cálculo das variações usando multiplicadores de Lagrange . A normalização é garantida pela imposição da restrição T 0 = 1. Os parâmetros naturais da distribuição são os multiplicadores de Lagrange associados a t j e o fator de normalização é o multiplicador de Lagrange associado a T 0 .

Notas e referências

G. Darmois , " Sobre as leis da probabilidade com estimativa exaustiva ", CR Acad. Sci. Paris , vol. 200,1935, p. 1265-1266.
(em) E. Pitman e J. Wishart , " Sufficient statistics and intrinsic exatidão " , Mathematical Proceedings of the Cambridge Philosophical Society , vol. 32, n o 4,1936, p. 567–579 ( DOI 10.1017 / S0305004100019307 ).
(em) B Koopman , " We Admitting distribution Sufficient statistic " , Transactions of the American Mathematical Society , vol. 39, n o 3,1936, p. 399–409 ( DOI 10.2307 / 1989758 , JSTOR 1989758 , Math Reviews 1501854 ).
Kupperman, M. (1958) "Probabilities of Hypotheses and Information-Statistics in Sampling from Exponential-Class Populations", Annals of Mathematical Statistics , 9 (2), 571–575 JSTOR : 2237349 .
(em) Erling etersen , " Sufficiency and Exponential Families for Discrete Sample Spaces " , Journal of the American Statistical Association , vol. 65, n o 331,Setembro 1970, p. 1248–1255 ( DOI 10.2307 / 2284291 , JSTOR 2284291 , Math Reviews 268992 ).

Veja também

Medida de Gibbs

Bibliografia

(pt) EL Lehmann , Casella, G., Theory of Point Estimation ,1998, 2ª ed., Seç. 1,5 p.
(pt) Robert W. Keener , Teoria Estatística: Notas para um Curso de Estatística Teórica , Springer,2006, 27–28, 32–33 p.
(pt) Ludwig Fahrmeier , Tutz , G., Modelagem estatística multivariada baseada em modelos lineares generalizados , Springer,1994, 18–22, 345–349 p.

links externos