Hadoop术语:20个最重要的Hadoop术语
来源:海牛大数据 时间:2021-01-25 15:38:25 编辑:简单
如今,数据科学,大数据,Hadoop等不再是流行语。随着生成的数据量的增加,处理和分析大数据的需求不断增长。Hadoop已被广泛用于无处不在的大数据处理,并且它已成为大数据技术的核心。随着时间的流逝,它已经与许多其他技术集成在一起。因此,Hadoop术语是其生态系统和相关工具的广泛领域,并且每天都在扩展。
更不用说,各地对Hadoop专业人士的需求都在增长。因此,无论是市场需求还是个人职业升级,都知道Hadoop已成为“时刻需求”的代名词。但是,如果你想浏览Hadoop词汇表,则必须以Hadoop专业人士的身份了解一些特定的Hadoop术语。
1. Apache Hadoop
这是要理解的最主要和最基本的Hadoop术语。Apache Hadoop是一个用Java编写的开源框架,可以处理大量非结构化数据。Hadoop是众所周知的可扩展、健壮和容错率高的平台。Apache设计Hadoop的方式是可以将其从单个服务器扩展到网络中的多台(数百台)计算机中。
2. Apache Hive
Apache Hive是Hadoop数据仓库的基础架构。它使用称为Hive查询语言(HQL)的SQL查询来管理数据汇总。这些查询在内部进行转换以映射归约作业以进行处理。
3. Apache Oozie
Apache Oozie是Java中的Web应用程序,负责调度Hadoop作业。它与分布式生态系统中的数据存储和处理层一起使用。它通过Oozie Workflow和Oozie Coordinator作业的管理提供了Hadoop作业的集成机制。
4. Apache Pig
Apache Pig是Hadoop术语的重要组成部分。它是一个数据流平台,负责执行Map Reduce作业。它是一个可扩展的高级平台,可简化编程并有助于优化执行。Pig脚本将转换为Map Reduce作业,然后对HDFS数据执行。
5. Apache Spark
Apache Spark是一个开源的集群计算框架。它具有针对分布式集群计算(如Hadoop)的内存中数据处理功能。因此,它比Map Reduce更快。它在Hadoop集群上运行。Spark没有其文件系统,并且使用Hadoop数据存储(HDFS)。
6. Apache Tez
Apache Tez是一个框架,用于创建用于批处理和数据处理的高性能应用程序。Apache Hadoop的YARN与之协作以提供用于编写批处理工作负载的应用程序的开发人员框架和API。
7. Apache Zookeeper
Apache Zookeeper是一种开放源代码集中式服务,用于实现大量主机的分布式协调。Zookeeper具有简单的API和体系结构,可帮助同步Hadoop集群。它具有一个客户端-服务器体系结构,可将公共对象保留在环境中。
8. Big Data
没有大数据,Hadoop词汇表仍未完成。它是大型数据集的集合,大小最大为PetaBytes(10 ^ 15 Bytes)。这些数据可以由社交网站,股票市场,电子商务站点等的用户生成。Hadoop通过对其分发系统进行适当的处理,存储和分析来管理此大数据。
9.Flume
Apache Flume是一种开源聚合服务,负责数据收集并将数据从源传输到目标。它是Web服务器,Twitter,Facebook,云等数据源与HBase和HDFS等数据存储之间的接口。这是一个高度可配置且可靠的工具。
10. Hadoop Common
它是Hadoop的通用库,其中包含支持Hadoop环境中其他模块代码的通用实用工具罐。这些库和jar提供了文件系统所需的Java脚本和文件,以便在Hadoop中工作。
11. HBase
Apache HBase是Hadoop的面向列的数据库,以可扩展的方式存储大数据。它是一个开放源数据模型,可提供对大量数据的随机访问。它类似于Google的Big table,并且建立在HDFS之上。
12. HCatalog
HCatalog是Hadoop层,用于管理表中的数据存储。它通过使用MapReduce,Pig等帮助用户轻松写入数据,并将Hive与此类Hadoop应用程序链接。它允许用户通过其分析平台轻松地跨不同工具共享数据。
13. HDFS
Hadoop分布式文件系统是Hadoop的存储层。它是一个分布式文件系统,以分布式方式处理数据存储。在此体系结构系统中,具有守护程序名称节点的主节点和具有守护程序数据节点的从属节点用于文件系统。HDFS是用于数据管理的可扩展且可靠的文件系统。
14.Hue
Hue或Hadoop用户体验是一个Web图形用户界面,支持Apache Hadoop生态系统。Hue是一个开源平台,用于查询,创建和运行各种Hadoop作业。它包括与Hadoop各个部分(例如Oozie,Search App,Beeswax等)交互的不同应用程序。
15.Job Tracker
这是Hadoop中的一项服务,可帮助将MapReduce任务分发到群集中的特定节点。
16. Mahout
Apache Mahout是用于数据挖掘的开源代数框架,可与具有简单编程模型的分布式环境一起使用。它主要用于创建机器学习算法,并实现其分类,聚类和推荐技术。
17.Map Reduce
Map Reduce是Hadoop术语中功能最强大的术语之一。它是一个并行编程模型,充当Hadoop中数据处理的一层。它将工作分为独立的任务集,并为Hadoop执行计算。该框架负责使用节点集群管理大量数据集。
18. NameNode
它是HDFS文件系统的核心。NameNode的任务是维护Hadoop集群上存储的所有处理文件的记录。
19. Sqoop
Sqoop是用于通过命令在Hadoop与关系数据库之间传输数据的接口应用程序。命令行界面有助于支持SQL查询并通过数据库保存作业。Sqoop帮助将数据从MySQL,Oracle或SQL Server传输到Hive或HDFS。
20.YARN
另一个资源协商器(YARN)是Hadoop资源管理层。Hadoop YARN负责通过有效分配,管理或释放资源来管理多节点集群中的资源。这些资源可以是磁盘,内存或处理器等,这些资源由为YARN中的主节点运行的Resource Manager守护程序管理。
总结
仅知道Hadoop术语是远远不够的,大数据行业正在迅速发展,工作机会与你的技术水平正相关,你还应该继续努力深造。
海牛大数据专注于大数据课程开发及培训,"因为专注,所以专业"。如果您想要了解更多大数据的知识,您可以浏览我们的网站,我们会为您提供更专业服务。