开发手册 欢迎您!
软件开发者资料库

Sqoop - 介绍

Sqoop简介 - 从简单和简单的步骤学习Sqoop,从基本到高级概念,包括简介,安装,导入,导入所有表,导出,Sqoop作业,Codegen,Eval,列表数据库,列表。

传统的应用程序管理系统,即使用RDBMS的应用程序与关系数据库的交互,是生成大数据的源之一.由RDBMS生成的此类大数据存储在关系数据库结构中的关系数据库服务器中.

当大数据存储和分析器(如MapReduce,Hive, Hadoop生态系统的HBase,Cassandra,Pig等已经出现,它们需要一个工具来与关系数据库服务器进行交互,以便导入和导出驻留在其中的大数据.在这里,Sqoop占据了Hadoop生态系统中的一个位置,以便在关系数据库服务器和Hadoop的HDFS之间提供可行的交互.

Sqoop :  "SQL到Hadoop和Hadoop到SQL"

Sqoop是一种用于在Hadoop和关系数据库服务器之间传输数据的工具.它用于将关系数据库(如MySQL,Oracle)中的数据导入Hadoop HDFS,并从Hadoop文件系统导出到关系数据库.它由Apache Software Foundation提供.

Sqoop如何工作?

下图描述了Sqoop的工作流程.

Sqoop Work

Sqoop Import

导入工具将各个表从RDBMS导入HDFS.表中的每一行都被视为HDFS中的记录.所有记录都作为文本数据存储在文本文件中,或者作为Avro和序列文件中的二进制数据存储.

Sqoop导出

导出工具导出一组从HDFS返回到RDBMS的文件.作为Sqoop输入提供的文件包含记录,这些记录在表中称为行.这些被读取并解析为一组记录,并用用户指定的分隔符分隔.