【大数据】Hive教程精讲-lsj0922al-ChinaUnix博客

阿里云大学小百科

首页　| 　博文目录　| 　关于我

lsj0922al

博客访问： 166844
博文数量： 73
博客积分： 0
博客等级：民兵
技术积分： 760
用户组：普通用户
注册时间： 2017-10-24 14:09

个人简介

每天分享阿里云大学精品课程

文章分类

全部博文（73）

研发效能（0）
分布式（1）
Web开发（1）
物联网（1）
码栈（1）
阿里云（0）
前端（7）
运维（2）
人工智能（4）
数据库（4）
程序设计（1）
Java（5）
物联网（1）
Android（0）
云计算（7）
云安全（1）
大数据（12）
云服务器（0）
云服务器（0）
云服务器（1）
云服务器（0）
编程语言（11）
云原生（1）
云技术（0）
云原生技术（0）
云原生技术（1）
数据安全（0）
Docker（1）
未分配的博文（10）

文章存档

2019年（73）

我的朋友

相关博文

【大数据】Hive教程精讲

分类：大数据

2019-05-24 15:57:16

Hive是什么：

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上，控制分隔符，也允许用户指定数据格式。

Hive架构图：

直接使用hadoop所面临的问题：

人员学习成本太高
项目周期要求太短
MapReduce实现复杂查询逻辑开发难度太大

为什么要使用Hive：

操作接口采用类SQL语法，提供快速开发的能力
避免了去写MapReduce，减少开发人员的学习成本
功能扩展很方便

如何快速掌握Hive：

（课程可以帮助你如何部署以及管理hive适合有一定大数据基础的学员学习）

更多精品技术课程：

阿里云大学官网（）

阅读(814) | 评论(0) | 转发(0) |

上一篇：【大数据】使用MaxCompute进行数据质量核查

下一篇：【前端开发】前端自动化构建工具 Webpack

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6