大数据Sqoop学习基础
来源:海牛大数据 时间:2020-11-23 15:45:36 编辑:简单
围绕大数据的诸多生态圈技术组件,本质上来说,一个组件的出现,都是为了解决某种场景下的具体的需求。而在企业级的大数据平台当中,往往需要综合考量,配置合理的解决方案。今天海牛大数据就来为大家讲讲大数据Sqoop学习基础。
Sqoop简介
Sqoop是Apache开源的一款工具,主要是针对关系型数据库与Hadoop集群之间的数据传输。它可以将关系型数据库中的数据导入至Hadoop集群中(即:导入至HDFS),也可以将Hadoop集群(HDFS)中数据导出至关系型数据库中。
本质上来说,Sqoop可以理解为一款ETL工具,它具有高效和大批量数据传输的特性。原生Sqoop都是采用指令形式提交和触发任务,因此Sqoop入门,往往先从指令学起。
Sqoop指令
1、sqoop import指令
将关系型数据库单表导入hadoop集群的hdfs中。在导入过程中可自动创建集群接收表,可处理空数据问题等等。
2、sqoop import-all-tables指令
将关系型数据库中,整库中所有表导入hadoop集群。在导入过程中所有表必须有主键,只能导入所有表的所有列,所有表不能有where条件。
3、sqoop export指令
将hadoop集群数据导出至关系型数据库中。在导入和导出过程中可设置并发导出,但是不宜太大,有时数据库无法承受。
4、sqoop job指令
job指令可以为确认好的导入或导出指令创建一个别名。再次运行时,通过sqoop job指令运行别名即可。省略了大段的指令代码。
5、sqoop metastore指令
可以将本地的sqoop job任务,作为共享任务。远程机器可以通过sqoop job--meat-connect连接到开启共享的任务并执行,实现远程调用。
6、sqoop list-databases指令
可查看连接下所有的数据库列表,方便确认连接源。
7、sqoop list-tables指令
可查看连接下,所有表的列表。
8、sqoop eval指令
能够通过eval进行数据查询或者其它DML操作,可进一步确认数据源的正确性。
9、sqoop merge指令
可对已导入集群的同一表的不同数据块进行合并,确保数据为最新记录。
大数据Sqoop学习基础,以上就是简单的介绍了。Sqoop这个组件,在大数据平台当中,主要负责数据传输环节,因此也是ETL过程当中不可或缺的重要技能。
海牛大数据专注于大数据课程开发及培训,"因为专注,所以专业"。如果您想要了解更多大数据的知识,您可以浏览我们的网站,我们会为您提供更专业服务。