Lago de dados

Um lago de dados (Inglês lago de dados ) é um método de armazenamento de dados em massa usado pelos grandes dados ( big data em francês). Esses dados são mantidos em seus formatos originais ou são muito pouco transformados. O Data Lake prioriza o armazenamento rápido e grande de dados heterogêneos ao adotar uma arquitetura de cluster. Ele não é otimizado para consultas SQL como o DBMS relacional tradicional e afasta-se das propriedades ACID tradicionais. Temos falado sobre NoSQL DBMS desde 2010 .

Portanto, encontramos em um data lake dados de diferentes tipos e fontes, como:

Esses dados são mantidos no data lake para análise posterior. É uma solução de gerenciamento de dados híbrida e variada com o objetivo de armazenar de forma rápida e econômica uma grande quantidade de dados brutos.

A principal qualidade do Data Lake é sua flexibilidade. Deve ser capaz de armazenar dados, independentemente de seu formato. Quando um dado é integrado ao Data Lake, ele recebe um identificador exclusivo e é marcado usando um conjunto de tags de metadados estendidos. Quando surge uma necessidade, o Data Lake é varrido para encontrar informações relevantes. A análise desses dados permite, então, agregar valor e atender a essa necessidade.

Origem do termo

O conceito de Data Lake foi mencionado pela primeira vez em 2010 por James Dixon, CTO da Penthao, como uma solução para armazenar dados sem pré-processamento e sem saber exatamente qual será o uso futuro deles. A imagem do lago, permitindo explicar, que diferentes fontes podem alimentá-lo de forma natural e crua, e que os usuários podem mergulhar ali para explorá-lo e trazer amostras para examinar.

Usos e funções

Os data lakes facilitam o acesso e a análise de dados para tarefas como:

O data lake é, portanto, uma ferramenta de gerenciamento de dados e metadados em vários campos que requerem o armazenamento e a análise de grandes volumes de dados. Associado a meios de análise em tempo real e inteligência artificial que possibilita melhor aproveitamento da informação e aproveitamento de oportunidades.

Essa ferramenta traz algumas vantagens como racionalização do armazenamento de dados, redução dos custos de armazenamento e facilita o acesso para análise e tomada de decisão de forma holística. Em termos de racionalização, o data lake permite, sim, reduzir o tempo gasto e os custos relacionados com a preparação dos dados antes do seu armazenamento, desde que o seu formato original seja preservado.

Há também uma redução nas despesas operacionais com o uso do data lake como repositório de dados mais antigos. Sem o data lake, seria necessário optar pelo data warehouse (data warehouse) para armazená-los, ou então essa solução é mais cara. Por fim, por meio da garantia da ferramenta de que os dados são confiáveis ​​e relevantes,

Vários ambientes fornecem serviços abrangentes para gerenciar um data lake. A maioria deles é baseada na tecnologia Hadoop e fornece instalações locais ( MapR , Cloudera , Hortonworks ) ou na nuvem ( Microsoft Azure , Google Cloud Platform , Amazon S3 ).

Vantagens e desvantagens

O Data Lake é acima de tudo um meio de armazenamento, cujas vantagens são:

Se bem utilizado, permite:

No entanto, a solução também tem algumas desvantagens:

Hoje, existem diferentes maneiras de armazenar dados além do Data Lake , como data warehouse ( data warehouse ) ou Datamart .

Referências

  1. Alain Clapaud, "  What is Data Lake, the new 'Big Data' concept in vogue  " , no Le Journal du Net ,15 de outubro de 2015(acessado em 22 de junho de 2016 )
  2. (in) "  As cinco principais diferenças entre Data Lakes e Data Warehouses  " , em Blue-Granite.com ,26 de janeiro de 2015(acessado em 15 de setembro de 2017 )
  3. "  Data Lake: definição e guia definitivo | Talend  ” , no software de integração de dados de código aberto em tempo real Talend (acessado em 2 de novembro de 2020 )
  4. (em) "  Pentaho, Hadoop e Data Lakes  " , no blog de James Dixon ,14 de outubro de 2010(acessado em 15 de novembro de 2020 )
  5. + Bastien L , “  Data Lake: definição, vantagens e desvantagens para a empresa  ” , em LeBigData.fr ,10 de julho de 2017(acessado em 15 de novembro de 2020 )
  6. "  Data lake as a Service: Amazon e Microsoft float, Google under water  " , em journaldunet.com ,24 de maio de 2018(acessado em 22 de dezembro de 2018 )
  7. (en-US) Daniel Gutierrez , “  Data Swamp or Data Lake? Cinco perguntas importantes antes de mergulhar  ” , em insideBIGDATA ,23 de setembro de 2015(acessado em 9 de dezembro de 2019 )
  8. “  Data Lake Governance  ” em www.ibm.com (acessado em 9 de dezembro de 2019 )
  9. (en-US) Andrew Brust , "  How to Prevent A Data Lake from Becoming a Data Swamp  " , em DATAVERSITY ,14 de julho de 2017(acessado em 15 de dezembro de 2019 )
  10. Collibra , “  Data Lake vs. Data Swamp - Pushing the Analogy  ” , em Collibra (acessado em 15 de dezembro de 2019 )
  11. Philippe Nieuwbourg , "  O conceito de" lago de dados "- lago de dados: explicação do texto  " , em Decideo - Notícias sobre Big Data, Business Intelligence, Data Science, Data Mining (acessado em 15 de dezembro de 2019 )

Artigos relacionados