hive与mysql的数据分区的异同-运维之路-ChinaUnix博客

运维之路见闻

首页　| 　博文目录　| 　关于我

运维之路

博客访问： 420977
博文数量： 105
博客积分： 0
博客等级：民兵
技术积分： 889
用户组：普通用户
注册时间： 2016-01-23 21:45

个人简介

目前在一家电信公司就职报表开发工程师，2010年开始从事运维方面的工作，期间从事过业务维护工程师、自动化运维工程师，2016年转为报表开发工程师。有耐心，抗压力、爱折腾，喜欢研究自动化工具。

文章分类

全部博文（105）

大数据之HIVE（2）
热爱生活（2）
oracle存储过程（9）
Redis相关知识（2）
服务器类（0）
SHELL（21）
Webligic.（3）
Excel（1）
Mysql（6）
Java（9）
Python（6）
LINUX（25）

知识库（3）

linux命令（4）
Oracle（19）
未分配的博文（0）

相关博文

hive与mysql的数据分区的异同

分类：系统运维

2017-07-11 17:32:28

数据分区是什么？
数据库分区是一种物理数据库设计技术，DBA和数据库建模人员对其相当熟悉。
分区把一大块数据分成了n小块，这样查询的时候很快定位到某一小块上，在小块中寻址要快很多;
多大的数据量才需要分区?
参考标准，如果一张表的记录超过在超过1000w，并以每月百万的数据量增长，那需要分区。
为什么需要数据分区？
性能提升；方便管理；避免数据倾斜
改善数据库的结构有两种，一种是采用存储过程代替普通的SQL语句，
另外一种就是使用数据库系统中增强索引和规划分区表进行优化，
数据分区主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间。
有几种常见的数据分区？各自的优缺点 (基于mysql)
行分区 ----按日期的分区
列分区--- 参数值个数比较少国际化按国家的分区
range分区：行数据基于属于一个给定连续区间的列值被放入分区,mysql5.5开始支持range columns的分区。
list分区：分区面向的是离散的值，mysql5.5支持list columns。
hash分区：根据用户自定义的表达式的返回值来进行分区，返回值不能为负数。
key分区：根据MYSQL数据库提供的哈希函数来进行分区。
谨记：无论使用何种类型的分区，分区总是在创建时就自动的顺序编号，且从0开始记录；
只有RANGE和LIST支持子分区,但是子分区内只能使用HASH和KEY分区。
5.hive分区
因为分区列的值要转化为文件夹的存储路径，
在表的数据文件中实际上并不保存分区列的信息与数据。
数据是根据文件夹的名字读取来的，而不是实际从数据文件中读取来的。
一般向分区表中插入数据时系统会校验数据是否符合该分区，如果不符合会报错。
而在hive中，向某个分区中插入什么样的数据完全是由人来控制的。
动态分区可以根据查询得到的数据自动匹配到相应的分区中去。
先设置hive.exec.dynamic.partition参数值为true，默认值为false，即不允许使用：
如果源数据对应的province子分区不存在，则会自动创建，非常方便，
而且避免了人工控制插入数据与分区的映射关系存在的潜在风险。
为了让分区列的值相同的数据尽量在同一个mapreduce中，
这样每一个mapreduce可以尽量少的产生新的文件夹，
可以借助distribute by的功能，将分区列值相同的数据放到一起.
附distributed by
ditribute by是控制map的输出在reducer是如何划分的，举个例子，我们有一张表，mid是指这个store所属的商户，money是这个商户的盈利，name是这个store的名字
store:
midmoneyname
AA15.0商店1
AA20.0商店2
BB22.0商店3
CC44.0商店4
执行hive语句：
select mid, money, name from store distribute by mid sort by mid asc, money asc
我们所有的mid相同的数据会被送到同一个reducer去处理，这就是因为指定了distribute by mid，这样的话就可以统计出每个商户中各个商店盈利的排序了（这个肯定是全局有序的，因为相同的商户会放到同一个reducer去处理）。这里需要注意的是distribute by必须要写在sort by之前。

阅读(2120) | 评论(0) | 转发(0) |

上一篇：取得前一次MySQL操作所影响的记录行数

下一篇：如何使用Navicat导出有格式的数据

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6