大数据Hive运行原理
来源:海牛大数据 时间:2020-12-09 16:04:21 编辑:简单
在Hadoop生态体系当中的Hive,以提供数据仓库服务而闻名,定义基本的数据结构,使得数据查询任务能够通过更便捷的方式去实现,省去了MapReduce直接编程的复杂操作。今天我们就来讲讲大数据Hive运行原理。
Hive的基本工作,简单提炼一下来表述,就是将结构化的数据映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
在实际的运用当中,随着MapReduce编程的减少,Hive的应用场景,更多地转向了数据仓库的统计分析任务。
1、Hive的工作原理
第一步:接收SQL语句;
第二步:进行词法分析和语法分析;
第三步:进行语义分析;
第四步:生成逻辑计划,得到算子树;
第五步:逻辑计划优化。对算子树进行优化,包括剪枝和谓词下推等;
第六步:物理计划生成。将逻辑计划生产出包含由MapReduce任务组成的DAG的物理计划;
第七步:物理计划执行。将DAG发送到Hadoop集群进行执行;
第八步:将查询结果返回。
2、Hive的用户接口
Hive CLI(Hive命令行):客户端可以直接在命令行模式下进行操作。通过命令行,用户可以定义表、执行查询等。如果没有指定其他服务,这个就是默认的服务。
HWI(Hive Web接口):Hive提供了更直接的Web界面,可以执行查询语句和其他命令,这样可以不用登陆到集群中的某台机器上使用CLI来进行查询。
Hive Thrift(即Hive-server):用于监听来自于其他进程的Thrift连接的一个守护进程。Thrift客户端目前支持C++/Java/Python等语言。
3、Hive创建表和处理数据的操作
Hive创建表的过程
第一步:解析用户提交的Hive语句,进行解析,分解为表、字段、分区等Hive对象;
第二步:根据解析到的信息构建对应的表、字段、分区等对象。
Hive元数据的三种存储模式
模式一:单用户模式;
模式二:多用户模式;
模式三:远程服务器模式。
Hive中的数据,分为表数据和元数据。表数据是Hive表格(Table)中具有的数据,而元数据是用来存储表的名字、表的列、表分区及其属性以及表的数据所在目录等。
大数据Hive运行原理,以上就是基本的介绍了。Hive作为大数据技术生态当中的重要成员,也是学习阶段需要去重点掌握的,所以要从入门开始吧基础打好。
海牛大数据专注于大数据课程开发及培训,"因为专注,所以专业"。如果您想要了解更多大数据的知识,您可以浏览我们的网站,我们会为您提供更专业服务。