Validação cruzada

A validação cruzada ( validação cruzada  " ) é, no aprendizado de máquina , um método para estimar a confiabilidade de um modelo baseado em uma técnica de amostragem .

Utilidade da validação cruzada

Suponha que temos um modelo estatístico com um ou mais parâmetros desconhecidos e um conjunto de dados de treinamento no qual aprender (ou "treinar") o modelo. O processo de treinamento otimiza os parâmetros do modelo para que corresponda ao máximo possível aos dados de treinamento. Se tomarmos então uma amostra de validação independente, supostamente da mesma população que a amostra de treinamento, geralmente resultará que o modelo não modela os dados de validação tão bem como os dados de treinamento: falamos sobre overfitting . No entanto, uma amostra de validação independente nem sempre está disponível. Além disso, de uma amostra de validação para outra, o desempenho de validação do modelo pode variar. A validação cruzada permite derivar vários conjuntos de validação da mesma base de dados e, assim, obter uma estimativa mais robusta, com viés e variância, do desempenho de validação do modelo.

Técnicas de validação

Existem muitas variantes de validação, mas podemos primeiro distinguir:

Tabela de distribuição de dados para validação cruzada em k = 3 blocos
k Bloco 1 bloco 2 bloco 3
1 validação Aprendendo Aprendendo
2 Aprendendo validação Aprendendo
3 Aprendendo Aprendendo validação

Depois de efectuada a validação do modelo, é então necessário passar à prova com o conjunto de provas previamente reservado.

Gerenciando bancos de dados não balanceados

Em tarefas de classificação , a distribuição de classes no banco de dados pode ser desequilibrada, ou seja, o número de observações por classe pode não ser o mesmo de uma classe para outra: se denotarmos o número de observações da -ésima classe, então existe tal isso . Neste caso, para evitar que o desempenho de validação (e aprendizagem) seja influenciado por uma distribuição de classes em mudança de uma validação (resp. Aprendizagem) definida para outra, é recomendado usar uma validação cruzada estratificada ("validação cruzada estratificada") . A estratificação consiste em garantir que a distribuição das classes seja a mesma em todos os conjuntos de treinamento e validação utilizados. Ou seja, se a base de dados inicial apresenta, por exemplo, 3 observações da classe 1 para 7 observações da classe 2, então cada conjunto de validação (resp. Aprendizagem) deve apresentar esta relação de 3 para 7.

No caso de validação cruzada com blocos, é simplesmente uma questão de distribuir as classes da mesma forma de um bloco para outro. Os conjuntos de validação e treinamento que derivarão dele herdarão esta distribuição.

Veja também

Links internos

Referências

  1. Payam Refaeilzadeh, Lei Tang, Huan Liu, “  Cross-Validation  ” ( ArquivoWikiwixArchive.isGoogle • Que faire? ) (Acessado em 20 de abril de 2020 )
  2. Andrew W. Moore, validação cruzada para detecção e prevenção de sobreajuste


<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">