【技术干货】10个最受欢迎的 MapReduce 面试问题
来源:海牛大数据 时间:2021-01-12 10:20:18 编辑:简单
如果你也是一位大数据相关从业者,那么你一定会知道 MapReduce 的普及程度,就业市场上对 MapReduce 的专业人员有着巨大的需求。无论你是一个初学者还是打算重新好好进修一下的从业人员,下面这10个 MapReduce 经典面试题一定会给你带来一点启发。
1.什么是 MapReduce ?
答:MapReduce 是 Hadoop 的核心。,它是一个框架,使 Hadoop 在处理大数据时可以跨多个群集扩展。
术语“ MapReduce”源自编程范例中的两个重要任务。第一个是“Map”,它将一组数据转换为另一组数据。完成转换后,输出将采用键/值对的简单格式。另一方面,reduce 函数采用“ map”生成的输入数据,并结合先前创建的元组创建较小的数据元组。
2.比较 Spark 和 MapReduce
答:Apache Spark 和 Hadoop MapReduce 都是用于处理大数据的流行工具,以下是这两者之间的一些主要区别。
3.请说一下 MapReduce 作业的主要组成部分
答:MapReduce 作业包含三个主要组成部分,如下所示:
映射驱动程序类:它提供作业配置所需的参数。
Mapper 类:mapper 类提供 map() 方法。它扩展了org.apache.hadoop.mapreduce.Mapper 类。
减速器类:减速器类提供 reduce() 方法。它扩展了org.apache.hadoop.mapreduce.Reducer 类。
4. MapReduce 中指定的主要配置参数是什么?
答:为了正常工作,MapReduce 需要一些配置参数才能正确设置。如果未正确设置它们,则映射和归约作业将无法正常运行。需要正确设置的配置参数如下:
作业在 HDFS 中的输出位置、输入和输出格式、包含 map 和 reduce 函数的类、最后但并非最不重要的是用于 reducer、mapper 和 driver 类的 .jar 文件
5.请解释映射器和化简器功能的基本参数
答:映射器功能的基本参数如下
Input – Text, and LongWritable、Intermediate Output – Text and IntWritable
另外,减速器功能的基本参数是:
Final Output – Text, IntWritable、Intermediate Output – Text, IntWritable
6.你如何将数据拆分到 Hadoop 中?
答:拆分是在 InputFormat 的帮助下创建的。创建拆分后,将根据拆分的总数确定映射器的数量。拆分是根据 InputFormat 的 getSplits() 方法中定义的编程逻辑创建的,并且未绑定到 HDFS 块大小。
Split size 根据以下公式计算:
Split size = input file size/ number of map tasks
7. MapReduce Framework 中的分布式缓存是什么?请说明
答:分布式缓存是 MapReduce 框架的重要组成部分。它用于在执行期间跨操作缓存文件,并确保更快地执行任务。该框架使用分布式缓存来存储在该特定节点上执行任务经常需要的重要文件。
8. HDFS 中的心跳是什么?请说明。
答:HDFS 中的心跳是一种信号机制,用于发出信号是否处于活动状态。例如,DataNode 和 NameNode 使用心跳来传达它们是否处于活动状态。同样,JobTracker 和 NameNode 也使用心跳来执行相同的操作。
9. DataNode 发生故障时会发生什么?
答:由于大数据处理对数据和时间敏感,因此如果 DataNode 发生故障,则存在备份过程。一旦 DataNode 发生故障,就会创建一个新的复制管道。管道接管了写入过程,并从失败的地方恢复。整个过程由 NameNode 控制,NameNode 会不断观察是否有任何块被复制不足。
10.你能告诉我们在 Hadoop 系统上运行多少个守护进程吗?
答:Hadoop 系统上有五个单独的守护进程。每个守护进程都有其 JVM 。在这五个守护进程中,三个在主节点上运行,而两个在从节点上运行。它们如下:
主节点
NameNode –在 HDFS 中维护和存储数据。
辅助NameNode –适用于 NameNode 并执行内部管理功能。
JobTracker –照顾主要的 MapReduce 工作,还负责将任务分配给任务跟踪器下列出的计算机。
从节点
DataNode –管理 HDFS 数据块。
TaskTracker –管理单独的 Reduce 和 Map 任务。
海牛大数据专注于大数据课程开发及培训,"因为专注,所以专业"。如果您想要了解更多大数据的知识,您可以浏览我们的网站,我们会为您提供更专业服务。