Desenvolvido por | Apache Software Foundation |
---|---|
Primeira versão | 21 de setembro de 2014 |
Última versão | 1.4.7 (dezembro de 2017) |
Depósito | https://gitbox.apache.org/repos/asf?p=sqoop.git |
Escrito em | Java |
Meio Ambiente | Máquina Virtual JAVA |
Licença | Licença Apache versão 2.0 |
Local na rede Internet | https://sqoop.apache.org/ |
Sqoop é uma interface de linha de comando de aplicativo para transferência de dados entre bancos de dados relacionais e o Hadoop . Ele suporta o carregamento diferencial de uma única tabela ou consulta SQL , bem como tarefas salvas que podem ser executadas várias vezes para importar atualizações feitas em um banco de dados desde a última importação. As importações também podem ser usadas para preencher tabelas no Hive ou HBase . As exportações podem ser usadas para colocar dados do Hadoop em um banco de dados relacional. O nome Sqoop é uma palavra-chave consistindo em sql e hadoop. março de 2012 Sqoop se tornou um projeto Apache de alto nível .
A Informatica fornece um conector para Sqoop a partir da versão 10.1. A Informatica oferece suporte para ações de importação e exportação, que costumam ser usadas para integração de dados no Hadoop.
Pentaho também forneceu conectores de código aberto baseados em Sqoop ( Sqoop Importat e Sqoop à Export ) em seu ETL desde a versão 4.5 do software. A Microsoft usa um conector baseado em Sqoop para ajudar a transferir dados do Microsoft SQL Server para bancos de dados Hadoop. A Couchbase, Inc. também fornece um conector Couchbase Server-Hadoop por meio do Sqoop.
Em 2015, Ralph Kimball descreveu Sqoop da seguinte maneira, sob o título The Future of ETL : “ Várias grandes mudanças devem ocorrer no ambiente ETL. Primeiro, os feeds de dados das fontes originais devem suportar larguras de banda enormes, pelo menos gigabytes por segundo. Saiba mais sobre o carregamento de dados do Sqoop no Hadoop. Se essas palavras não significam nada para você, você tem que ler! Comece com a Wikipedia. " ( " Várias mudanças significativas devem ocorrer no ambiente ETL. Primeiro, o fluxo de dados das fontes originais deve suportar uma largura de banda enorme, pelo menos vários gigabytes por segundo. Pergunte sobre o carregamento de dados Sqoop no Hadoop. Se essas palavras não toque um sino, você tem que ler! Comece com a Wikipedia. ” ).