O princípio dos grandes desvios , na teoria da probabilidade , diz respeito ao comportamento assintótico das caudas de sequência da lei da probabilidade. Algumas idéias iniciais da teoria foram fornecidas por Laplace e Cramér ; desde então, uma definição formal foi introduzida em 1966 por Varadhan . A teoria dos grandes desvios formaliza as ideias heurísticas de concentração de medidas e generaliza a noção de convergência do direito .
A teoria do grande desvio diz respeito ao declínio exponencial das medidas de probabilidade de certos tipos de cauda ou eventos de cauda , quando o número de observações é arbitrariamente grande.
Uma série de caras ou caudas independentes (não tendenciosas). Denote por x i o resultado do i -ésimo lançamento, onde face dá X i = -1 e bateria dá X i = 1 . Seja M N a média após N lances, ou seja
.Assim, M N está entre -1 e 1. Usando a lei dos grandes números , deduzimos que M N está cada vez mais próximo de 0, com probabilidade crescente, à medida que N é cada vez mais grande. Deixe-nos dar uma explicação mais precisa. Para um valor fixo 0 < x <1 , calcule a probabilidade . Vamos definir
.Então, pela desigualdade de Chernoff , podemos mostrar isso . Este limite é ótimo no sentido de que I ( x ) não pode ser substituído por um número maior que garantiria a desigualdade para qualquer N estritamente positivo (embora o limite exponencial ainda possa ser reduzido a um fator subexponencial próximo da ordem de 1 / √ N ). A probabilidade diminui exponencialmente rapidamente quando N é grande, a uma taxa dependente de x .
No exemplo acima, com lançamento de moeda, cada lançamento é independente dos outros e as probabilidades são iguais para cada lançamento. Em outras palavras, as variáveis aleatórias X i são iid (independentes e distribuídas de forma idêntica). Para variáveis iid cujo common law satisfaz uma determinada condição de crescimento, a teoria dos grandes desvios garante que existe o seguinte limite:
A função I ( x ) é chamada de " função taxa (in) " ou "função de Cramér" ou às vezes "entropia". A existência de tal limite dá o decaimento exponencial mencionado anteriormente e implica que, para N grande, é da forma:
Observe que a desigualdade dada no primeiro parágrafo, em comparação com esta fórmula assintótica, não é mais válida em casos mais gerais.
No caso iid, se a lei de probabilidade das variáveis X i é conhecida, existe uma expressão explícita da função taxa, dada pela transformada de Cramér definida por
onde a função λ ( θ ) é chamada de função geradora dos cumulantes , dada por
Aqui, está a expectativa com relação à distribuição de probabilidade de X i e X é uma de X i . Se a lei de X for normal , a função de taxa é uma parábola.
Se a condição iid for enfraquecida, especialmente se as variáveis X i não forem independentes, mas satisfizerem a propriedade de Markov , o resultado de grande desvio anterior pode ser generalizado.
Ou X um espaço polaca e uma sequcia de medidas de probabilidade de X ou { um N } uma sequência de números reais tais que estritamente positivo , e, finalmente, é uma função inferior semicontínua em X . O seguinte verifica o princípio de grandes desvios com uma velocidade { a N } e uma taxa I , se e somente se para qualquer conjunto Boreliano mensurável
onde E e E ° significam, respectivamente, o adesivo e o interior de E .
Teorema (demonstrado por Donsker e Varadhan em 1976)
Seja X um espaço de Banach separável , uma lei de probabilidade em X que admite momentos exponenciais finitos, ( X i ) { i > 1} variáveis aleatórias iid de distribuição e de média . Então, para qualquer Boreliano E de X ,
onde I é a transformação de Cramér (ou transformação de Legendre ou transformação de Fenchel-Legendre ) definida por
Os primeiros resultados rigorosos relativos a grandes desvios devem-se ao matemático sueco Harald Cramér , que os aplicou para modelar problemas de seguro. Do ponto de vista das seguradoras, as receitas são mensais a uma taxa constante (pagamentos mensais), mas as despesas são aleatórias. Para que a empresa seja lucrativa após um período de vários meses, a soma total das receitas deve ser maior do que as despesas totais. Portanto, para estimar os pagamentos mensais, devemos nos perguntar: "Quais pagamentos mensais q devemos escolher para que, após N meses, as despesas totais C = Σ X i sejam menores que Nq ?" “ O que é claramente a mesma pergunta a teoria dos grandes desvios. Cramér deu uma solução para essa questão para variáveis aleatórias iid com uma função de taxa como uma série inteira .
Os resultados acima foram obtidos mais tarde por Herman Chernoff e outros, incluindo SRS Varadhan (que ganhou o Prêmio Abel por este trabalho ), D. Ruelle e OE Lanford .
Os princípios de grandes desvios podem ser aplicados de forma eficaz para recuperar informações de um modelo probabilístico. Assim, a teoria dos grandes desvios encontra aplicações na teoria da informação e no gerenciamento de riscos . Na física, a aplicação mais conhecida da teoria dos grandes desvios é na termodinâmica e na mecânica estatística (em conexão com a entropia correspondente à função de taxa).
A média é chamada de média empírica das variáveis iid X i . Observe a verdadeira média. Pela lei dos grandes números , para todo δ > 0 , obtemos
.Assim, o evento (anotado na definição formal) descreve o desvio entre M N e m .
Caso de lei normalSe X i são as variáveis aleatórias iid de distribuição normal centrada reduzida, então M N tem distribuição . Então
Os grandes desvios são então dados por:
.Isso significa que | M N | se desvia do seu comportamento típico que tomam valores grandes com um (pequeno) de probabilidade de ordem exp (- nÔ 2 /2) .
A função taxa está relacionada à entropia na mecânica estatística. Isso pode ser visto heuristicamente da seguinte maneira. Na mecânica estatística, a entropia de um determinado estado macroscópico está associada ao número de estados microscópicos que correspondem a esse estado macroscópico. Em nosso exemplo de sorteio, a média M N pode designar um estado macroscópico particular. E a sequência de cara ou coroa que dá um valor de M N constitui um estado microscópico particular que a compõe. Mais simplesmente, um estado macroscópico com um grande número de estados microscópicos que o compõem tem uma alta entropia. E um estado com alta entropia é mais provável de ser alcançado. O estado macroscópico de média zero (tantas caudas quanto caudas) tem o maior número de estados microscópicos e é o estado com a maior entropia. Por outro lado, a função de taxa mede a probabilidade de ocorrência de uma determinada condição macroscópica. Quanto menor a função de taxa, mais provável é que o estado macroscópico apareça. Em nosso lançamento de moeda, a função de taxa é de 0 a 0. Nesse caso, podemos assimilar a função de taxa como o oposto da entropia.