Amostragem preferencial

A amostragem preferencial na amostragem de importância em inglês é um método de redução de variância que pode ser usado no método de Monte Carlo . A ideia subjacente à amostragem preferencial, EP a seguir, é que certos valores tomados por uma variável aleatória em uma simulação têm mais efeito do que outros no estimador desejado. Se esses valores grandes ocorrerem com mais frequência, a variância de nosso estimador pode ser reduzida.

Portanto, o método PE é escolher uma distribuição que “incentive” os valores importantes. Usar uma distribuição enviesada levará a um estimador enviesado se o aplicarmos diretamente às simulações. No entanto, as diferentes simulações são ponderadas a fim de corrigir esse viés; o estimador EP é então imparcial. O peso dado a cada simulação é a razão de verossimilhança, que é a densidade Radon-Nikodym da distribuição verdadeira versus a distribuição enviesada.

O ponto fundamental na implementação de uma simulação utilizando o PE é a escolha da distribuição enviesada. Escolher ou criar um bom elenco tendencioso é a arte dos EPs. A vantagem pode ser uma grande economia de tempo computacional, enquanto a desvantagem de uma má distribuição pode ser cálculos mais longos do que uma simples simulação de Monte-Carlo.

Teoria

Em Monte-carlo

Queremos estimar uma quantidade G , que é expressa na forma de uma integral:

Consideramos aqui uma integração na dimensão 1, mas podemos generalizar para qualquer dimensão.

O princípio básico dos métodos de Monte-Carlo é ver a integral anterior como

onde X é uma variável aleatória uniformemente distribuída em [ a; b ] e sua densidade.

Se tivermos uma amostra , distribuída de forma idêntica e independente (iid) de acordo com , podemos estimar G por:

É um estimador imparcial (isto é ) e consistente (de acordo com a lei dos grandes números) de G. Sua variação é:

com a variância da variável aleatória

Princípio da amostragem preferencial

A ideia principal da amostragem preferencial é substituir na simulação a densidade uniforme por uma densidade alternativa (ou densidade enviesada ), notada , que tenta imitar a função g . Com isso, as estampas uniformes, que não favorecem nenhuma região, são substituídas por estampas mais “fiéis”. Assim, a amostragem é feita de acordo com a importância da função g  : é inútil desenhar nas regiões onde g assume valores não significativos, para, pelo contrário, concentrar-se nas regiões de alta importância. Esperamos reduzir a variância dessa forma . Em outras palavras, se um dado nível de erro é fixo, a amostragem preferencial permite reduzir teoricamente o número de simulações N em relação a um método clássico de Monte-Carlo.

A integral a ser estimada é reescrita como:

que equivale a:

onde colocamos (chamada de razão de verossimilhança ) e onde X é simulado de acordo com a densidade . É fácil generalizar os resultados anteriores: o estimador de G é

onde é uma amostra iid de acordo com a densidade . A variância do estimador é dada por

com finalmente

Portanto, o problema é se concentrar em obter uma densidade enviesada de forma que a variância do estimador EP seja menor que a do método clássico de Monte-Carlo. A densidade que minimiza a variância (o que a torna zero sob certas condições) é chamada de densidade polarizada ótima . Este último é igual a

mas esta escolha é ineficaz, porque procuramos precisamente o denominador. No entanto, pode-se esperar reduzir a variância escolhendo uma densidade reproduzindo a função g .

Quase monte carlo

Para estimar a integral , também podemos dispensar todo o formalismo probabilístico anterior. Em vez de usar variáveis ​​aleatórias, usamos sequências de baixa discrição (sequências de Sobol, por exemplo). Na dimensão 1, a abordagem mais simples é

Como no Monte Carlo usual, essa aproximação da integral converge tanto mais rápido quanto a função g se aproxima de uma constante. Se g for rigorosamente constante, basta tomar N = 1 para ter a integral exata. Reduzir a variância de g também é crucial aqui; para este fim, a amostragem preferencial é usada da seguinte forma:

onde fizemos a mudança da variável y = F ( x ) com . Parece claro que se então a função a ser integrada à direita está próxima da constante 1 (portanto, de baixa variância).

Para fazer a ligação com a interpretação probabilística da seção anterior, notamos que se define até um fator K que desaparece no quociente. Podemos, portanto, impor isso , o que torna uma densidade de probabilidade em [ a , b ]. A mudança de variável é então interpretada naturalmente como uma mudança de probabilidade e temos a simplificação:

Essa técnica é imediatamente generalizada em qualquer dimensão.

Aplicação: estimativa de uma probabilidade

Considere que queremos estimar por simulação a probabilidade p t de um evento onde X é uma variável aleatória de distribuição e função de densidade . Esse problema se resume à apresentação geral no sentido de que implementa uma integral a ser estimada. Uma amostra distribuída de forma idêntica e independente (iid) é desenhada nesta lei. Denotamos por k t o número de realizações maior que t . A variável k t é uma variável aleatória seguindo uma distribuição binomial dos parâmetros K e p t  :

o que significa, em particular, que : a frequência empírica, portanto, converge para sua probabilidade associada p t .

A amostragem preferencial entra em jogo aqui para diminuir a variância da estimativa de Monte-Carlo da probabilidade p t . Na verdade, p t é dado por

onde, nós posamos de novo

A última igualdade da equação anterior sugere o estimador do seguinte:

É um estimador EP de p t que não tem vieses. Esta sendo definida, o procedimento de estimativa é para gerar uma amostra iid a partir da densidade e para cada realização superior t para calcular o peso W . O resultado será a média obtida com K impressões. A variação deste estimador é:

Aqui, novamente, a densidade deve ser perfilada da melhor forma possível , a fim de reduzir a variância.

Exemplos numéricos

Integração da função beta usando uma distribuição triangular

Detalhe do método

Queremos estimar a seguinte quantidade:

que passa a ser a função beta do parâmetro (5; 3), que é G = 1/105 = 0,0095238095238095. Isso corresponde ao caso geral com a = 0, b = 1 e .

Simulamos uma amostra de acordo com a lei uniforme padrão para obter o estimador Monte-Carlo clássico:

e o estimador de sua variância:

Inspirando-nos na forma geral da função beta, podemos substituir a distribuição uniforme padrão pela distribuição triangular .

Parece um triângulo baseado no segmento [0; 1] e "culminando" em (2/3; 2). Sua densidade é

Simulamos uma amostra nesta lei, pelo método da transformada inversa , e, ao definir , o estimador EP é dado por

e o estimador de sua variância é

Na tabela, vemos que o uso do PE sistematicamente permite reduzir a variância da estimativa em relação à estimativa de Monte-Carlo de mesmo tamanho (ou seja, a n dado). Notamos também que a variância da estimativa é proporcional a 1 / n  : indo de n = 1000 para n = 10.000 (multiplicação por 10 do tamanho), reduzimos a variância por um fator de 10.

Comparação do método de Monte-Carlo e amostragem preferencial
Monte-Carlo Clássico Amostragem preferencial
não estimador tendência variância estimador tendência variância
500 0,009843 -3,19E-004 1.32E-007 0,009712 -1,88E-004 2.50E-008
1000 0,009735 -2,12E-004 6,53E-008 0,009680 -1,57E-004 1.26E-008
2500 0,009628 -1,04E-004 2.60E-008 0,009576 -5,18E-005 5,36E-009
5000 0,009717 -1,93E-004 1,31E-008 0,009542 -1,83E-005 2.71E-009
10.000 0,009634 -1,10E-004 6,52E-009 0,009544 -1,99E-005 1.35E-009

Espera-se melhorar ainda mais o desempenho considerando uma densidade “mais próxima” da densidade f . O principal problema será fazer simulações. Nos casos mais simples, como a lei triangular, o método da transformação inversa pode ser suficiente; em casos mais complexos, o método de rejeição deve ser usado .

Integração de um Gaussiano

A dificuldade de integrar tal função é que a variável de integração assume valores . Nesse caso, usar uma densidade de probabilidade uniforme é impossível, porque a probabilidade de ocorrência de seria . No entanto, em uma integração Monte-Carlo bruta , não há conhecimento a priori da forma da função, e todos os valores de x devem ter uma probabilidade igual. Assim, a amostragem preferencial é um método que permite integrar funções para uma variável de integração entre a , quando a própria distribuição utilizada permite fornecer valores em .

Veja também

Links internos

  • Método Monte-Carlo
  • (en) J. Morio e M. Balesdent , Estimation of Rare Event Probabilities in Complex Aerospace and Other Systems: uma abordagem prática , Cambridge, Elsevier Science,2015, 216  p. ( ISBN  978-0-08-100091-5 )
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">