Sqoop教程

Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如:MySQL,Oracle到Hadoop的HDFS,并从Hadoop的文件系统导出数据到关系数据库。

传统的应用管理系统,也就是与关系型数据库的使用RDBMS应用程序的交互,是产生大数据的来源之一。这样大的数据,由关系数据库生成的,存储在关系数据库结构关系数据库服务器。

当大数据存储器和分析器,如MapReduce, Hive, HBase, Cassandra, Pig等,Hadoop的生态系统等应运而生图片,它们需要一个工具来用的导入和导出的大数据驻留在其中的关系型数据库服务器进行交互。在这里,Sqoop占据着Hadoop生态系统提供关系数据库服务器和Hadoop HDFS之间的可行的互动。

Sqoop:“SQL 到 Hadoop 和 Hadoop 到SQL”

Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如MySQL,Oracle到Hadoop的HDFS从Hadoop文件系统导出数据到关系数据库。它是由Apache软件基金会提供。

Sqoop是怎么样工作的?

下图描述了Sqoop的工作流程。

Sqoop教程

Sqoop导入

导入工具从RDBMS到HDFS导入单个表。表中的每一行被视为HDFS的记录。所有记录被存储在文本文件的文本数据或者在Avro和序列文件的二进制数据。

Sqoop导出

导出工具从HDFS导出一组文件到一个RDBMS。作为输入到Sqoop文件包含记录,这被称为在表中的行。那些被读取并解析成一组记录和分隔使用用户指定的分隔符。


猿狮妹
2022-11-21
Sqoop教程 Sqoop 教程 在线教程
热门教程
1 Sqoop教程 Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如:MySQL,Oracle到Hadoop的HDFS,并从Hadoop的文件系统导出到关系数据库数据。
2 Sqoop安装 由于Sqoop是Hadoop的一个子项目,它只能工作在Linux操作系统。这里需要按照下面系统上给定安装Sqoop的步骤。 第1步:验证JAVA安装 在安装Sqoop之前,需要确定是否已经在系统上安装Java。用
3 Sqoop导入所有表 本章介绍如何导入从RDBMS数据库服务器到HDFS所有表。每个表的数据存储在一个单独的目录,目录名与表名相同。 语法 以下语法用于导入所有表。 $ sqoop import - all - tables ( generic - args )
4 Sqoop代码生成 本章介绍代码生成工具的重要性。从面向对象应用程序的观点来看,每一个数据库表具有包含setter和getter的方法来初始化DAO类对象。此工具(-codegen)自动生成DAO类。 它产生的DAO类在
5 Sqoop导入 本章介绍了如何从MySQL数据库中的数据导入到Hadoop的HDFS。 导入工具导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文本数据或者在阿夫罗(Avro
6 Sqoop Eval工具 本章介绍了如何使用Sqoop eval工具。它允许用户执行用户定义的查询,对各自的数据库服务器和预览结果在控制台中。这样,用户可以期望得到的表数据来导入。使用eval我们可以评估任
7 Sqoop列出所有表 本章将介绍如何使用Sqoop列出的MySQL数据库服务器一个特定的数据库中的所有表。 Sqoop的list-tables工具解析并执行针对特定数据库的SHOW TABLES查询。此后,它列出了在数据库中存在的表。
8 Sqoop导出 本章介绍如何将数据从HDFS导出到RDBMS数据库。目标表必须存在于目标数据库中。这是作为输入到Sqoop的文件包含记录,这被称为在表中的行。那些被读取并解析成一组记录和分隔与用户
9 Sqoop作业 本章介绍如何创建和维护Sqoop作业。 Sqoop作业创建并保存导入和导出命令。它指定参数来识别并调用已保存的工作。这种重新调用或重新执行用在增量导入,可以从RDBMS表到HDFS导入更新
10 Sqoop列出数据库 本章介绍了如何使用Sqoop列出数据库。 Sqoop列表数据库工具解析并执行对数据库服务器的SHOW DATABASES查询。此后,它列出了在服务器上的所有数据库。 语法 以下语法用于Sqoop列表数据库
  • Copyright © 2021 猿狮院, All rights reserved.