Hive基础知识点介绍_行业资讯|海牛大数据

欢迎来到海牛大数据，我们为培养专业大数据人才而生 全国咨询热线：400-608-1886

Hive基础知识点介绍

来源：海牛大数据时间：2020-11-25 16:05:34 编辑：简单

Hadoop生态下的各个组件，Hive的出现是为了解决海量日志数据分析而诞生，最初出自Facebook，后来归到了Apache旗下进行开源，本质上来说，Hive是一个帮助提升数据处理的工具。

Hive简介

根据官方文档的定义，Hive是一种用类SQL语句来协助读写、管理那些存储在分布式存储系统上大数据集的数据仓库软件。

Hive的特点

Hive最大的特点是通过类SQL来分析大数据，而避免了写MapReduce程序来分析数据，这样使得分析数据更容易。

而基于Hadoop生态，数据是存储在HDFS上的，Hive本身并不提供数据的存储功能。Hive是将数据映射成数据库和一张张的表，库和表的元数据信息一般存在关系型数据库上（比如MySQL）。

Hive的底层存储

Hive的数据是存储在HDFS上的。Hive中的库和表可以看作是对HDFS上数据做的一个映射。所以Hive必须是运行在一个Hadoop集群上的。

Hive语句的执行过程

Hive中的执行器，是将最终要执行的MapReduce程序放到YARN上以一系列Job的方式去执行。

Hive的执行过程，是需要系统平台协作的。Hive数据存储依赖于HDFS，HiveSQL的执行引擎依赖于MapReduce、Spark、Tez等分布式计算引擎，Hive作业的资源调度依赖于YARN、Mesos等大数据资源调度管理组件。

Hive的元数据存储

Hive的元数据保存在Hive的metastore数据中，里面记录着Hive数据库、表、分区和列的一些当前状态信息，通过收集这些状态信息，可以帮助我们更好地监控Hive数据库当前的状态，提前感知可能存在的问题；可以帮助基于成本代价的SQL 查询优化，做更为正确的自动优化操作。

另外，在Hive 3.0以后，可以在Hive的sys数据库中找到元数据表。

本质上来说，Hive依托于Hadoop大数据平台，其架构随着Hadoop版本的迭代和自身的发展也在不断地演变，但在Hadoop步入2.x版本、Hive步入1.x版本后，整体架构稳定，后续的迭代版本就没有太多重大的调整，更多的只是功能增强了。

以上就是Hive基础知识点介绍。在大数据学习当中，尤其是Hadoop生态的学习当中，Hive是必备的，也是相对门槛较低，比较好入手的一个组件。

海牛大数据专注于大数据课程开发及培训，"因为专注，所以专业"。如果您想要了解更多大数据的知识，您可以浏览我们的网站，我们会为您提供更专业服务。

友情链接

海牛部落

400-608-1886

地址：北京市大兴区芦花路1号院时代•智谷—北京城乡文化科技产业园区内24号楼A501室

E-MAIL:service@hainiuxy.com

Copyright 2001-2020 海牛大数据 - 北京阳光海牛科技有限公司版权所有，京ICP备17041118号-1

有位老师想和您聊一聊