Processo padrão entre setores para mineração de dados

O CRISP-DM ( Cross Industry Standard Process for Data Mining ) é um modelo de processo de mineração de dados que descreve uma abordagem comumente usada para resolver problemas de domínio .

Pesquisas realizadas em 2002, 2004, 2007, 2014 e 2020 mostram que este é o principal método utilizado pelos mineradores de dados. Este método foi criado por um consórcio formado pelas empresas NCR, SPSS e Daimler-Benz. O processo define uma hierarquia que consiste em fases principais, tarefas gerais, tarefas especializadas e instâncias de processo.

Fases principais

O CRISP-DM divide o processo de mineração de dados em seis fases principais:

História

O método CRISP-DM foi desenhado em 1996. Em 1997, desenvolveu-se como um projeto da União Europeia financiado pelo programa ESPRIT . O projeto é liderado por quatro empresas: ISL, NCR Corporation , Daimler-Benz e OHRA. Este núcleo do consórcio traz diferentes experiências para o projeto: a ISL, posteriormente adquirida e integrada à SPSS Inc., produz seus pacotes de software de análise preditiva de mesmo nome, agora integrados ao grupo IBM. A gigante da computação NCR Corporation criou a divisão Teradata especializada em data warehouses e seu próprio pacote de software de mineração de dados. A Daimler-Benz tinha uma grande equipe de mineradores de dados. OHRA , uma seguradora, tinha acabado de começar a explorar o potencial de uso de mineração de dados.

A primeira versão do método foi lançada com o número de versão CRISP-DM 1.0 em 1999.

CRISP-DM 2.0

Dentro julho de 2006, o consórcio anuncia que começará a trabalhar em uma segunda versão do CRISP-DM. O26 de setembro de 2006, CRISP-DM SIG se reúne para discutir melhorias para CRISP-DM 2.0 e o roteiro resultante. Desde a22 de junho de 2011, o site redireciona para uma página no site da IBM dedicada ao SPSS.

Benefícios

Notas

links externos

Referências

  1. (in) C. Shearer, "  The CRISP-DM model: the new blueprint for data mining  " ( ArquivoWikiwixArchive.isGoogle • O que fazer ) [PDF] (acessado em 9 de abril de 2013 ) . J Data Warehousing 2000; 5: 13-22.
  2. Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll
  3. Gregory Piatetsky-Shapiro (2004) Pesquisa de Metodologia KDnuggets
  4. Gregory Piatetsky-Shapiro (2007) Pesquisa de Metodologia KDnuggets
  5. (en-US) "  CRISP-DM, ainda a principal metodologia para análises, mineração de dados ou projetos de ciência de dados  " , em KDnuggets (acessado em 21 de abril de 2021 )
  6. (en-US) Jeff Saltz , "  CRISP-DM ainda é a estrutura mais popular para a execução de projetos de ciência de dados  " , sobre Gerenciamento de projetos de ciência de dados ,30 de novembro de 2020(acessado em 21 de abril de 2021 )
  7. Robert Nisbet, John Elder, Gary Miner Handbook of Statistical Analysis & Data Mining Applications (Academic Press) página 35
  8. (em) Gavin Harper , "  Methods for data mining HTS  " , Drug Discov. Hoje , vol.  11, n os  15-16,agosto de 2006, p.  694-699 ( PMID  16846796 , DOI  10.1016 / j.drudis.2006.06.006 , leia online ).
  9. “  CRISP-DM 1.0  ” ( ArquivoWikiwixArchive.isGoogle • O que fazer? ) (Acessado em 9 de abril de 2013 ) .
  10. “  CRISP-DM SIG  ” ( ArquivoWikiwixArchive.isGoogle • O que fazer? ) (Acessado em 9 de abril de 2013 ) .
  11. “  KDD Process Model  ” ( ArquivoWikiwixArchive.isGoogle • O que fazer? ) (Acessado em 9 de abril de 2013 )