1、 什么是 Hive
Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。
Hive:是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。
本质是:将 HQL 转化成 MapReduce 程序
1)Hive 处理的数据存储在 HDFS
2)Hive 分析数据底层的实现是 MapReduce
3)执行程序运行在 Yarn 上
2、 Hive 的优缺点
1.1 优点
1)操作接口采用类 SQL 语法,提供快速开发的能力(简单、容易上手)
2)避免了去写 MapReduce,减少开发人员的学习成本。
3)Hive 的执行延迟比较高,因此 Hive 常用于数据分析,对实时性要求不高的场合; 4)Hive 优势在于处理大数据,对于处理小数据没有优势,因为 Hive 的执行延迟比较高。
5)Hive 支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
1.2 缺点
1)Hive 的 HQL 表达能力有限
(1)迭代式算法无法表达
(2)数据挖掘方面不擅长
2)Hive 的效率比较低
(1)Hive 自动生成的 MapReduce 作业,通常情况下不够智能化
(2)Hive 调优比较困难,粒度较粗
3、Hive SQL和传统SQL之间存在的差异
主要体现在以下几个方面:
1)执行环境不同:
Hive SQL:通常运行在Hadoop生态系统中,特别是MapReduce框架上。它被设计为运行在大型数据集上的查询语言。
传统SQL:运行在关系数据库管理系统(RDBMS)上,如MySQL、Oracle、SQL Server等,适用于处理较小数据集。
2)数据类型和优化:
Hive SQL:支持丰富的数据类型,包括字符串、数字、布尔值和复杂类型如结构体和地图。它对于大数据集进行了优化,但查询性能通常不如传统SQL。
传统SQL:也有丰富的数据类型,并且经过多年优化,对于小数据集的查询性能通常更好。
3)查询执行引擎:
Hive SQL:使用Hadoop的MapReduce作为执行引擎,后来也支持了Spark等执行引擎。
传统SQL:使用数据库自己的执行引擎,这些执行引擎经过高度优化以快速处理事务和查询。
4)事务支持:
Hive SQL:通常不支持多事务,或者支持有限的事务功能。
传统SQL:支持多事务操作,具有严格的事务控制,如ACID属性(原子性、一致性、隔离性、持久性)。
5)实时查询:
Hive SQL:设计为批量处理,不适合实时查询。
传统SQL:适合进行实时查询,尤其是在OLTP(在线事务处理)系统中。
6)用户接口:
Hive SQL:通常通过Hive命令行、Web UI或与其他工具(如Impala、Spark SQL等)集成来进行交互。
传统SQL:通过数据库管理系统的命令行工具、GUI工具或应用程序接口进行交互。
7) 生态系统和用途:
Hive SQL:是Hadoop生态系统的一部分,主要用于大数据分析和数据仓库。
传统SQL:是关系型数据库的核心语言,用于各种数据管理任务,包括数据存储、检索、事务处理等。
Hive SQL是一个强大的工具,而在传统的数据管理和小数据集处理中,传统SQL通常是更合适的选择。