【技术干货】Hadoop集群
来源:海牛大数据 时间:2021-01-06 14:47:08 编辑:简单
Hadoop集群可以定义为一种特殊类型的计算集群,旨在用于分布式计算环境中存储和分析大量非结构化数据。
这样的集群可以在低成本计算机(具体来说是商用计算机)上的Hadoop开源分布式处理软件上运行Hadoop集群架构:
Hadoop集群包含3个组件:
1.Client:
它既不是主设备也不是从设备,客户端的工作是提交MapReduce作业,以描述应如何处理数据的方式,然后在完成作业后检索数据以了解响应。
2.Masters:
Master由3个组件组成,即NameNode,Secondary Node Name和Job Tracker。
a.NameNode:
NameNode不存储实际文件,它存储文件的元信息。NameNode监督DataNode的运行状况,并协调对数据的访问。
b. JobTracker:
JobTracker使用MapReduce协调数据的并行处理。
c. Secondary NameNode:
Secondary NameNode的工作是定期与NameNode联系,以从NameNode调用文件系统的元数据,并将其保存到干净的文件夹中,然后将其发送回NameNode。本质上,辅助名称节点负责内部管理工作。万一NameNode发生故障,可以使用辅助节点重建存储在NameNode RAM中的已保存元数据。
3.Slaves:
从节点是Hadoop群集中的大多数计算机,并负责存储数据和处理计算。
为什么要使用Hadoop集群:
Hadoop集群以提高数据分析应用程序的速度及其可伸缩性而闻名。如果群集的处理能力在任何时候都受到不断增长的数据量的压力,则可以通过添加其他群集节点以增加吞吐量来解决。Hadoop集群具有很高的抗故障能力,因为每个数据块都复制到其他节点上,以确保在单个节点发生故障时不会丢失数据。
海牛大数据专注于大数据课程开发及培训,"因为专注,所以专业"。如果您想要了解更多大数据的知识,您可以浏览我们的网站,我们会为您提供更专业服务。