MySQL表分区专题-hkebao-ChinaUnix博客

运维开发yaofang.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

hkebao

博客访问： 31063306
博文数量： 2065
博客积分： 10377
博客等级：上将
技术积分： 21525
用户组：普通用户
注册时间： 2008-11-04 17:50

文章分类

全部博文（2065）

创业天下（1）

技术论坛（0）

方案选择（1）
Android开发（0）
开源项目（12）

puppet配置文件管（0）

开源XEN管理工具（0）

在线图片处理（1）

日志分析工具（1）

计费系统（1）

python统计PY源码（2）

JAVA服务提供器（1）

网络工具（1）

Java版杀进程工具（1）

网络爬虫（2）

论坛发帖机设计（1）
Ruby区（3）

CODE（0）

相关资讯（0）

基础教程（3）
面向服务（1）

rest（0）

xml-rpc（1）
运维与开发（8）

应用服务（1）

网上学习笔记（1）

程序员杂志（1）

投稿（0）

架构方面（0）

网络方面（0）

系统管理OS（1）

开发方面（0）

虚拟化方面（0）

存储方面（0）

数据库方面（3）
互联网（33）

天涯论坛（0）

淘宝开放平台（0）

开放平台开发（0）

朱敬（1）

俞强华（1）

盛大（1）

VC（1）

webgame（0）

其它（1）

云计算（1）

移动互联网（1）

CU（1）

互联网产品设计（1）

InfoQ（2）

技术方向（0）

产品设计（1）

关注腾讯（2）

马化腾（0）

腾讯（1）

从技术解读互联网（2）

网店乐（0）

80后粉丝网（1）

点评网（0）

网站盈利（1）

国内一流互联网公（1）

网站运营（2）

技术动态（2）

搜房网（0）

案例公司（0）

新技术探讨（4）

新闻杂谈（1）

马云（1）

人物（0）

反思（0）

行业动态（2）
Window（10）

基本配置（1）

OS安全配置（1）
Flash（14）

应用篇（0）

中级篇（0）

基础篇（14）

flex学习（0）
DOS命令（7）
虚拟技术（3）

开发（0）

学习笔记（0）

XEN（0）

虚拟软件（0）

虚拟化技术（1）

相关知识（1）

相关技术动态（1）

虚拟动态（0）
linux（177）

源码学习（0）

YUM包（2）

相关专题（0）

RedHat认证（0）

shell杂（1）

Linux内核（1）

网络命令（2）

安全（1）

linux工具（2）

bash（0）

工具代码（3）

linux系统学习教（9）

LVS篇（1）

源码整理（11）

装机（5）

linux小技巧（8）

常用配置文件（2）

Ubuntu（1）

系统管理（4）

linux杂（9）

linux学习（13）

linux调优（2）

VI篇（4）

SED与AWK（6）

linux常用命令（43）

防火墙（6）

SHELL学习（10）

脚本学习（1）

鸟哥私房菜专集（6）

DNS学习（7）
其他内容（416）

混迹社会（0）

2011计划（1）

自己的项目（1）

未来之约（1）

工作日志（4）

日记（4）

职场生涯（4）

区域城市（3）

linux认证（0）

CCNA认证（0）

下一代网站（1）

投资自己（1）

当站长（2）

新闻日记（31）

创业专栏（9）

实战（0）

技术（0）

淘宝易货（0）

编码（1）

读书（3）

新浪财经（0）

程序设计（1）

学习（4）

股票软件（1）

读书笔记（3）

积淀（1）

工作（0）

酒文化（0）

茶文化（0）

搜狐财经（0）

第二职业（1）

压力篇（3）

项目进展（2）

木材（0）

家居（0）

传统产业分析（0）

可行性市场分析（1）

寻找市场（1）

互联网创业（2）

时间管理（2）

要做的平台产品（1）

人际交往（1）

项目学习法（3）

营养（5）

IT认证考试（0）

论坛精华（8）

职业规划（16）

创业篇（2）

年计划（0）

年计划（19）

汽车平台（0）

关注地产（0）

平台（0）

外包项目（2）

求职面试（14）

创业立志（5）

股票学习（0）

美食（1）

学习基金理财（2）

我的基金（2）

面试（0）

反省过去（1）

CTO相关资讯（0）

心情日记（28）

工作（4）

专题一（1）

财务（1）

大项目（3）

互联网盈利（8）

整理电子商务站（1）

男人与石头（1）

金融证券（0）

银行基金（11）

未来计划（13）

架构师（6）

社会经验（10）

工作室（11）

职业规划（8）

理财大全（1）

赚钱计划（10）

我的小说（3）

经典励志（24）

学习计划（2）

健康之道（4）

旁征博引（36）

学习心得（17）

编程心得（19）
java框架（55）

数据导入工具（1）

项目学习记录（0）

WEB框架理论（1）

常见异常错误（1）

整理代码（0）

笔记（0）

常用代码（3）

配置（6）

2010学习笔记（7）

专题（0）

Hibernate（0）

dom4j（2）

xsocket框架（1）

Ant开源学习（2）

Spring框架（0）

structs2.0（30）
php学习（198）

认证项目CI（0）

PHP自定义函数（0）

PHP整理笔记（1）

PHP面向对象（1）

UC专题（3）

wordpress（0）

php专题篇（9）

基于CI开源项目（0）

框架学习（1）

PHP缓存（0）

php整理备战（0）

php常用的代码（1）

PHP整理网站（0）

PHP看开源代码（3）

实战经验（2）

PHP制作公司CMS（3）

看实例学习整理（8）

PHP相关资料整理（18）

整理CU文章（23）

CodeIgniter框架（5）

Smarty学习整理（8）

帝国CMS学习区（3）

PHP168学习区（0）

PHP制作网站总结（51）

PHP常用函数整理（30）

PHP实例教程（7）

PHP入门资料（19）
Javascript（86）

ajax代码库（0）

ajax专题（1）

javascript理论（1）

JQuery应用（8）

javascript基础（3）

DEMO（4）

Javascript专题（7）

JQuery插件专题（6）

js常用代码集合（7）

JQuery框架学习（11）

JS解决跨域（0）

JavaScript小项目（1）

JavaScript整理（12）

Prototype框架（0）

ajax学习（14）
安全红客（7）

CODING（4）

网络安全（3）
敏捷开发（0）

技术准备（0）
奋斗领域（12）

分布式操作系统（0）

嵌入式操作系统（0）

Kernel（0）

Linux方向（0）

Linux内核研究（0）

C学习（2）

C代码库（1）

工具函数（0）

专题篇（3）

2010年专题产品篇（0）

UNIX环境高级编程（2）

网络编程相关（0）

数据结构与算法（0）

服务器性能编程（0）

HTTP编程（0）

网络编程（0）

C实现服务器（2）
J2ME学习（2）
WAP开发（0）
软件测试（3）

相关（1）

单元测试（0）

功能测试（0）

性能测试（1）
数据库学习（218）

故障排查经验（1）

2010数据库大会资（2）

相关资料整理（0）

mysql杂（2）

Mysql基础教程（6）

工作经验（1）

架构瓶颈（1）

系统管理员（1）

数据库技术（4）

基础（0）

索引理论（0）

SQL语句理论（2）

理论（2）

架构设计（0）

SQL编程（0）

MSSQL问题解决（2）

MySQLDBA篇（38）

数据库基础理论（8）

常用系统管理（12）

架构之数据库设计（2）

MySQL编程篇（15）

MySQL架构第一步（6）

MYSQL主从软件（6）

MYSQL查询优化篇（36）

MySQL中的文件（9）

MySQL主从配置（6）

MSSQL2000（12）

数据库加程序（2）

MYSQL（34）
兴趣研究（0）

全文检索（0）
IT运维体系（38）

翻译（2）

转载资料（2）

puppet（4）

ZABBIX（0）

mantis-bug管理系（0）

职业（2）

游戏运维（0）

Rsync（3）

rrd（1）

mrtg（0）

certmaster（0）

Func（1）

Cfengine（1）

cacti（2）

nagios（1）

ITIL（0）

规范流程（0）

Remedy（0）

kettle（0）

jpivot（0）

mondrian（0）

开源框架（1）

实践内容（1）

运维经验整理（2）

网上眼界（10）

新技术（0）

相关理论（4）
Erlang（4）

资料整理（4）
开源学习（6）

开源产品使用（1）

其他开源（1）

Memoranda（0）

Drupal专题学习笔（0）

php开源（0）

python开源代码（2）

C开源代码（0）

Shell开源（0）

JAVA开源（1）
Jython学习（0）

Jython入门学习（0）
理论知识（69）

gfs（1）

mfs（0）

分布式文件系统（1）

SNMP（4）

VPN教程（1）

网络教程（1）

存储教程（3）

存储产品（1）

漫谈存储（3）

存储开发（0）

存储技术（1）

存储理论（2）

存储相关（0）

存储（0）

操作系统（0）

软件工程（0）

其它相关（0）

算法（0）

计算机知识（3）

网上资料（8）

CCNA教程（9）

计算机硬件（4）

FastDFS专题（1）

架构之开源篇（0）

架构之硬件（9）

架构之系统（2）

架构之存储篇（3）

架构之网络篇（7）

计算机网络（2）

正则表达式（3）
服务器配置（105）

nginx源码研究（0）

实际案例分享（1）

nginx开发（2）

apache学习笔记（4）

资料介绍（1）

资料使用（0）

CDN（2）

LVS（0）

服务器安全（1）

haproxy（1）

Varnish（0）

squid（1）

编程篇（0）

memcached（2）

nginx整理学习（15）

nginx实战经验（5）

nginx官网资料（4）

FTP服务器（1）

lighttpd（3）

版本控制管理（8）

负载均衡（1）

nginx服务器（8）

服务器集群（1）

IIS服务器（12）

resin服务器（16）

Apache服务器（13）

Tomcat服务器（3）
JSP学习（57）

JSP开发经验之谈（2）

JSP架构设计（1）

JSP基础（1）

JSP专题（3）

J2EE体系（0）

JSP缓存整理（2）

JSP配置文件（3）

JSP实践编程（2）

JSP自定义标签（10）

JSP文本操作（2）

JSP扩展话题（1）

JAVABEAN学习（5）

Servlets学习（12）
XML学习（15）

YAML（0）

SOAP专题（2）

XML基础篇（7）

WebService（0）

JSON（6）
ASP学习（89）

ASP专题整理（5）

vbs教程（4）

JMail整理版（1）

ASP其他（2）

ASP建站整理（9）

ASP整理归档版（22）

ASP工具整理（14）
专题讨论（99）

LDAP（0）

LINUX密码管理（0）

代码优化JOB（2）

CI框架公司培训（1）

理论学习（0）

JSP（1）

内存DB（1）

代码库（1）

HTTP隧道（0）

破解验证码（2）

研究专题（1）

JQuery培训（0）

MySQL架构（3）

培训专题（0）

GAE专题（0）

不懂就学专题（1）

Google APP Engin（0）

ROR框架整理（0）

Hibernate整理（1）

Django培训专题（0）

编程思想篇（1）

8月份研究模拟Htt（1）

HttpClient学习（2）

Java开源版商城（0）

JAVA实现下载器（2）

学习项目制作（0）

PHP（10）

文档编写（1）

WEB服务器（1）

网页爬虫（9）

网络处理老师（1）

好的网站大全（2）

JavaScript代码（6）

CSS样式（0）

Java（17）

Python（24）

ASP（8）
编程工具（13）
JAVA学习（160）

数据库编程（11）

JAVA短信（0）

Java面试题（1）

JAVA日常工具（3）

JAVA新技术（2）

开发思想JAVA版（1）

JAVA小品（1）

SCJP考证（1）

java基础教程（5）

JAVA网络编程（10）

JAVA岗位招聘（5）

JAVA性能监控（3）

JAVA与设计模式（0）

java.lang（1）

系统学习（2）

java.util（7）

Java代码之美（2）

基础学习整理（6）

JAVA高级工程师（11）

高性能架构（2）

专题研究（8）

java.io（1）

SUN官网资料（2）

JAVA缓存（0）

JAVA正则（1）

RMI（1）

JAVA基础（20）

面向接口编程（1）

JAVA编程思想（3）

JAVA操作流文件（9）

JAVAMail专题（2）

JAVA中数据结构（12）

JMS学习（1）
WEB开发（79）

原创架构（1）

架构大讲堂（8）

CSS框架（0）

百度UED团队（2）

前端开发（0）

架构整理（3）

DIV+CSS实例整理（0）

DIV学习笔记（2）

前台学习资料（1）

HTTP理论（19）

COOKIE详细分析（5）

SVG学习篇（10）

WEB页面分析（0）

程序方面（0）

CSS框架（3）

SEO优化（0）

页面编码（2）

HTML学习（18）

div+css（5）
未分配的博文（65）

文章存档

2012年（2）

2011年（19）

2010年（1160）

2009年（969）

2008年（153）

我的朋友

相关博文

MySQL表分区专题

分类： Mysql/postgreSQL

2010-02-02 21:30:08

MySQL表分区专题

[整理:hkebao@126.com 整理时间:2010-1-21]

通过分区(Partition)提升MySQL性能，数据库的物理设计在对高级数据库的性能影响上远比其他因素重要。DBA如果想要高性能的数据库就必须在数据库的物理设计上多思考的观点，这样才能减少响应时间使终端用户满意而不是引来骂声一片。

一、什么是数据库分区

数据库分区是一种物理数据库设计技术，DBA和数据库建模人员对其相当熟悉。虽然分区技术可以实现很多效果，但其主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间。

分区主要有两种形式：//这里一定要注意行和列的概念（row是行，column是列）

（PS：物理数据库设计技术。执行特定的SQL语句时，通过一个好的物理数据库设计技术之后可以减少IO读写操作）

水平分区（Horizontal Partitioning）这种形式分区是对表的行进行分区，通过这样的方式不同分组里面的物理列分割的数据集得以组合，从而进行个体分割（单分区）或集体分割（1个或多个分区）。所有在表中定义的列在每个数据集中都能找到，所以表的特性依然得以保持。
举个简单例子：一个包含十年发票记录的表可以被分区为十个不同的分区，每个分区包含的是其中一年的记录。（朋奕注：这里具体使用的分区方式我们后面再说，可以先说一点，一定要通过某个属性列来分割，譬如这里使用的列就是年份）
垂直分区（Vertical Partitioning）这种分区方式一般来说是通过对表的垂直划分来减少目标表的宽度，使某些特定的列被划分到特定的分区，每个分区都包含了其中的列所对应的行。
举个简单例子：一个包含了大text和BLOB列的表，这些text和BLOB列又不经常被访问，这时候就要把这些不经常使用的text和BLOB了划分到另一个分区，在保证它们数据相关性的同时还能提高访问速度。

二、在MySQL 5.1中进行分区

MySQL5.1中最激动人心的新特性应该就是对水平分区的支持了。这对MySQL的使用者来说确实是个好消息，而且她已经支持分区大部分模式：

Range（范围） – 这种模式允许DBA将数据划分不同范围。例如DBA可以将一个表通过年份划分成三个分区，80年代（1980's）的数据，90年代（1990's）的数据以及任何在2000年（包括2000年）后的数据。
         Hash（哈希） – 这中模式允许DBA通过对表的一个或多个列的Hash Key进行计算，最后通过这个Hash码不同数值对应的数据区域进行分区，。例如DBA可以建立一个对表主键进行分区的表。
         Key（键值） – 上面Hash模式的一种延伸，这里的Hash Key是MySQL系统产生的。
         List（预定义列表） – 这种模式允许系统通过DBA定义的列表的值所对应的行数据进行分割。例如：DBA建立了一个横跨三个分区的表，分别根据2004年2005年和2006年值所对应的数据。
         Composite（复合模式） - 很神秘吧，哈哈，其实是以上模式的组合使用而已，就不解释了。举例：在初始化已经进行了Range范围分区的表上，我们可以对其中一个分区再进行hash哈希分区。

分区带来的好处太多太多了，有多少？俺也不知道，自己猜去吧，要是觉得没有多少就别用，反正俺也不求你用。不过在这里俺强调两点好处：

1、性能的提升（Increased performance） - 在扫描操作中，如果MySQL的优化器知道哪个分区中才包含特定查询中需要的数据，它就能直接去扫描那些分区的数据，而不用浪费很多时间扫描不需要的地方了。需要举个例子？好啊，百万行的表划分为10个分区，每个分区就包含十万行数据，那么查询分区需要的时间仅仅是全表扫描的十分之一了，很明显的对比。同时对十万行的表建立索引的速度也会比百万行的快得多得多。如果你能把这些分区建立在不同的磁盘上，这时候的I/O读写速度就“不堪设想”（没用错词，真的太快了，理论上100倍的速度提升啊，这是多么快的响应速度啊，所以有点不堪设想了）了。

2、对数据管理的简化（Simplified data management） - 分区技术可以让DBA对数据的管理能力提升。通过优良的分区，DBA可以简化特定数据操作的执行方式。例如：DBA在对某些分区的内容进行删除的同时能保证余下的分区的数据完整性(这是跟对表的数据删除这种大动作做比较的)。

此外分区是由MySQL系统直接管理的，DBA不需要手工的去划分和维护。例如：这个例如没意思，不讲了，如果你是DBA，只要你划分了分区，以后你就不用管了就是了。

站在性能设计的观点上，俺们对以上的内容也是相当感兴趣滴。通过使用分区和对不同的SQL操作的匹配设计，数据库的性能一定能获得巨大提升。下面咱们一起用用这个MySQL 5.1的新功能看看。
下面所有的测试都在Dell Optiplex box with a Pentium 4 3.00GHz processor, 1GB of RAM机器上（炫耀啊……），Fedora Core 4和MySQL 5.1.6 alpha上运行通过。

三、如何进行实际分区

看看分区的实际效果吧。我们建立几个同样的MyISAM引擎的表，包含日期敏感的数据，但只对其中一个分区。分区的表（表名为part_tab）我们采用Range范围分区模式，通过年份进行分区：

mysql> CREATE TABLE part_tab

-> ( c1 int default NULL,

-> c2 varchar(30) default NULL,

-> c3 date default NULL

-> ) engine=myisam

-> PARTITION BY RANGE (year(c3)) (PARTITION p0 VALUES LESS THAN (1995),

-> PARTITION p1 VALUES LESS THAN (1996) , PARTITION p2 VALUES LESS THAN (1997) ,

-> PARTITION p3 VALUES LESS THAN (1998) , PARTITION p4 VALUES LESS THAN (1999) ,

-> PARTITION p5 VALUES LESS THAN (2000) , PARTITION p6 VALUES LESS THAN (2001) ,

-> PARTITION p7 VALUES LESS THAN (2002) , PARTITION p8 VALUES LESS THAN (2003) ,

-> PARTITION p9 VALUES LESS THAN (2004) , PARTITION p10 VALUES LESS THAN (2010),

-> PARTITION p11 VALUES LESS THAN MAXVALUE );

Query OK, 0 rows affected (0.00 sec)

注意到了这里的最后一行吗？这里把不属于前面年度划分的年份范围都包含了，这样才能保证数据不会出错，大家以后要记住啊，不然数据库无缘无故出错你就爽了。那下面我们建立没有分区的表（表名为no_part_tab）：

mysql> create table no_part_tab

-> (c1 int(11) default NULL,

-> c2 varchar(30) default NULL,

-> c3 date default NULL) engine=myisam;

Query OK, 0 rows affected (0.02 sec)

下面咱写一个存储过程（感谢Peter Gulutzan给的代码，如果大家需要Peter Gulutzan的存储过程教程的中文翻译也可以跟我要，chenpengyi◎gmail.com），它能向咱刚才建立的已分区的表中平均的向每个分区插入共8百万条不同的数据。填满后，咱就给没分区的克隆表中插入相同的数据：

mysql> delimiter //

mysql> CREATE PROCEDURE load_part_tab()

-> begin

-> declare v int default 0;

-> while v < 8000000

-> do

-> insert into part_tab

-> values (v,'testing partitions',adddate('1995-01-01',(rand(v)*36520) mod 3652));

-> set v = v + 1;

-> end while;

-> end

-> //

Query OK, 0 rows affected (0.00 sec)

mysql> delimiter ;

mysql> call load_part_tab();

Query OK, 1 row affected (8 min 17.75 sec)

mysql> insert into no_part_tab select * from part_tab;

Query OK, 8000000 rows affected (51.59 sec)

Records: 8000000 Duplicates: 0 Warnings: 0

表都准备好了。咱开始对这两表中的数据进行简单的范围查询吧。先分区了的，后没分区的，跟着有执行过程解析（MySQL Explain命令解析器），可以看到MySQL做了什么：

PS：第一种情况进行表分区处理可以。

mysql> select count(*) from no_part_tab where

-> c3 > date '1995-01-01' and c3 < date '1995-12-31';

+----------+

| count(*) |

+----------+

| 795181 |

+----------+

1 row in set (38.30 sec)

mysql> select count(*) from part_tab where

-> c3 > date '1995-01-01' and c3 < date '1995-12-31';

+----------+

| count(*) |

+----------+

| 795181 |

+----------+

1 row in set (3.88 sec)

PS：看得出来通过表分区技术可以大幅提升性能

mysql> explain select count(*) from no_part_tab where

-> c3 > date '1995-01-01' and c3 < date '1995-12-31'\G

*************************** 1. row ***************************

id: 1

select_type: SIMPLE

table: no_part_tab

type: ALL

possible_keys: NULL

key: NULL

key_len: NULL

ref: NULL

rows: 8000000

Extra: Using where

1 row in set (0.00 sec)

mysql> explain partitions select count(*) from part_tab where

-> c3 > date '1995-01-01' and c3 < date '1995-12-31'\G

*************************** 1. row ***************************

id: 1

select_type: SIMPLE

table: part_tab

partitions: p1

type: ALL

possible_keys: NULL

key: NULL

key_len: NULL

ref: NULL

rows: 798458

Extra: Using where

1 row in set (0.00 sec)

从上面结果可以容易看出，设计恰当表分区能比非分区的减少90％的响应时间。而命令解析Explain程序也告诉我们在对已分区的表的查询过程中仅对第一个分区进行了扫描，其他都跳过了。

哔厉吧拉，说阿说……反正就是这个分区功能对DBA很有用拉，特别对VLDB和需要快速反应的系统。

以上内容转自

（明天写一份测试报告对性能表提出表分区技术实现）

阅读(818) | 评论(1) | 转发(0) |

上一篇：Jsp开发中的过滤器专题整理

下一篇：MySQL表分区专题二

给主人留下些什么吧！~~

chinaunix网友2010-02-02 21:30:46

http://dev.mysql.com/doc/refman/5.1/en/partitioning.html 结合此文章写一篇表分区文章

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6