Hadoop入门基础简介
来源:海牛大数据 时间:2020-12-01 16:22:43 编辑:简单
在大数据快速发展的大背景下,掌握大数据技术的人才,也在各企业当中获得更好的发展机会。而主流的大数据技术,包括Hadoop、Spark、Storm、Flink等,对于学习者来说,需要一一去学习掌握。今天我们来简单介绍一些Hadoop入门基础简介。
Hadoop作为最早开源的分布式系统基础架构,是行业内公认的大数据通用存储和分析平台,企业搭建大数据系统平台,也基本上是基于Hadoop来做开发,减少成本投入,也能获得持续的技术的支持。
Hadoop发展至今,已经形成了相对完善的生态体系,因为Hadoop又分为狭义和广义之说。狭义就是仅指Hadoop核心框架组件,包括MapReduce、HDFS和Yarn,而广义则是指整个Hadoop生态圈组件。
Hadoop重点组件包括:
HDFS:分布式文件系统
MAPREDUCE:分布式运算程序开发框架
HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具
HBASE:基于HADOOP的分布式海量数据库
ZOOKEEPER:分布式协调服务基础组件
Mahout:基于Mapreduce/Spark/Flink等分布式运算框架的机器学习算法库
Oozie:工作流调度框架
Sqoop:数据导入导出工具
Flume:日志数据采集框架
Hadoop核心组件架之HDFS
Hadoop实现分布式存储,主要依靠HDFS作为分布式文件系统,在普通硬件上提供可靠的、可伸缩的和容错的数据存储。它与MapReduce紧密合作,将存储和计算分布在大型集群中,并结合存储资源,这些存储资源可以根据请求和查询进行伸缩,同时保持低成本和预算。
Hadoop核心组件之MapReduce
最核心的计算任务,由MapReduce来完成。MapReduce既是Hadoop的分布式计算框架,也是编程模型,在Hadoop系统当中的计算任务,都被转换成MapReduce任务来执行。MapReduce的思想就是“分而治之”。Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理。Reducer负责对map阶段的结果进行汇总。
Hadoop核心组件之YARN
Yarn是Hadoop的集群资源管理系统,在Hadoop 2.0之后的版本引入,作为一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。
以上就是Hadoop入门基础的介绍了。Hadoop入门,建议从核心组件开始,搞懂核心的三个组件,基本上就攻克了最难的部分。
海牛大数据专注于大数据课程开发及培训,"因为专注,所以专业"。如果您想要了解更多大数据的知识,您可以浏览我们的网站,我们会为您提供更专业服务。