优化实践1，几点sql-nba76ers-ChinaUnix博客

Arvil to dreamiforeverlove.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

nba76ers

博客访问： 2916881
博文数量： 471
博客积分： 7081
博客等级：少将
技术积分： 5369
用户组：普通用户
注册时间： 2012-01-04 21:55

文章分类

全部博文（471）

web开发（1）
app开发（4）
tomcat（8）

tomcat配置（8）
Tomcat优化（2）
架构类（4）
gpddddddi（2）
python（32）

经典面试题目（4）

应用开发（1）

python 的we（2）

透彻python编程（14）

python简明教程（10）
web前端开发（8）

css（2）

JS（1）

html（4）
运维自动化（3）

fabric（1）
系统设计题（0）
C的底层知识（0）
智力研究（0）
概率（3）
百度（0）
数组（8）
位存储（3）
递归（0）
算法题（8）
操作系统（2）
java百练（9）
sql百练（13）
linux笔试（4）

linux shell编程（2）

linux面试题（0）
acm总结（3）
图的算法（24）

最大二分匹配（3）

每对顶点间的最短（0）

单源最短路径（2）

最小生成树（4）

拓扑排序（2）

BFS广度优先搜索（6）

DFS深度优先搜索（6）

搜索专题（1）
数据结构（44）

外部排序（1）

stl Map（1）

二叉树（6）

递归专题（0）

堆（0）

优先队列（3）

八大排序与三大查（4）

最优二叉树(哈夫（0）

字符串（8）

B树（0）

红黑树（0）

栈和队列（4）

并查集（不相交集（0）

二叉查找树（4）

Hash散列表（6）

字典树（3）

链表（4）
收集面试（6）
acm（28）

二分搜索专题（3）

快速取幂算法（1）

递推专题（2）

背包问题（2）

贪心算法（3）

动态规划（2）

简单计算（7）

打表（1）

母函数（7）
mysql（85）

sql练习（12）

mysql配置文件优（5）

mysql维护管理（11）

mysql SQL语（9）

性能优化（17）

mysql入门很简单（31）
beautyofprogramm（0）

topK（0）
little java（4）
海量数据专题（2）
spring2.5（15）
struts2（3）
hadoop（4）
java（59）

spring（3）

JVM原理（4）

收集公司笔试（2）

java组件（1）

javaIO（3）

JDK底层实现（5）

jvm 优化系列（3）

线程系列（7）

java反射系列（12）

java 基础用法注（19）
网络编程（20）
linux基础（54）

awk（0）

sed（3）

Linux Shell（18）

linux编程环境（5）

进程管理与监控（8）

linux常用命令解（20）
未分配的博文（6）

文章存档

2014年（90）

2013年（69）

2012年（312）

我的朋友

相关博文

优化实践1，几点sql

分类： Mysql/postgreSQL

2014-02-21 15:50:47

1、数据库优化的基本原则：让笛卡尔积发生在尽可能小的集合之间，mysql在join的时候可以直接通过索引来扫描，而嵌

入到子查询里头，查询规划器就不晓得用合适的索引了。一个SQL在数据库里是这么优化的：首先SQL会分析成一堆分析树

，一个树状数据结构，然后在这个数据结构里，查询规划器会查找有没有合适的索引，然后根据具体情况做一个排列组合

，然后计算这个排列组合中的每一种的开销（类似explain的输出的计算机可读版本），然后比较里面开销最小的，选取

并执行之。

2、mysql认为扫描全表比走索引代价小,则不走索引

NOT IN、JOIN、IS NULL、NOT EXISTS效率对比

语句一：select count(*) from A where A.a not in (select a from B)

语句二：select count(*) from A left join B on A.a = B.a where B.a is null

语句三：select count(*) from A where not exists (select a from B where A.a = B.a)

知道以上三条语句的实际效果是相同的已经很久了，但是一直没有深究其间的效率对比。一直感觉上语句二是最快的。
今天工作上因为要对一个数千万行数据的库进行数据清除，需要删掉两千多万行数据。大量的用到了以上三条语句所要实

现的功能。本来用的是语句一，但是结果是执行速度1个小时32分，日志文件占用21GB。时间上虽然可以接受，但是对硬盘

空间的占用确是个问题。因此将所有的语句一都换成语句二。本以为会更快。没想到执行40多分钟后，第一批50000行都没

有删掉，反而让SQL SERVER崩溃掉了，结果令人诧异。试了试单独执行这条语句，查询近一千万行的表，语句一用了4秒，

语句二却用了18秒，差距很大。语句三的效率与语句一接近。

第二种写法是大忌，应该尽量避免。第一种和第三种写法本质上几乎一样。

假设buffer pool足够大，写法二相对于写法一来说存在以下几点不足：
（1）left join本身更耗资源（需要更多资源来处理产生的中间结果集）
（2）left join的中间结果集的规模不会比表A小
（3）写法二还需要对left join产生的中间结果做is null的条件筛选，而写法一则在两个集合join的同时完成了筛选，这

部分开销是额外的

3、很多时候用 exists 代替 in 是一个好的选择：

select num from a where num in(select num from b)

用下面的语句替换：

select num from a where exists(select 1 from b where num=a.num)

4、select count(*) from A where A.a not in (select a from B)
select count(*) from A where not exists (select a from B where A.a = B.a)

5.应尽量避免在 where 子句中使用 or 来连接条件，否则将导致引擎放弃使用索引而进行全表扫描，如：
select id from t where num=10 or num=20
可以这样查询：
select id from t where num=10
union all
select id from t where num=20

6.把潜逃子查询处理掉
select count(id) from (select * from sam where **) as a , (select * from where ***) as b
where a.avitivId=b.id

7、union与union all
我们经常会遇到将两个表中的记录合并到一起，做个sum，在mysql数据库中提供了UNION和UNION ALL关键字，这两个关键

字都是将结果集合并为一个，但这两者从使用和效率上来说都有所不同。

效率上,union all比union更好一点.因为union在执行的时候会把结果集进行排序并删除重复的记录,而union all则会把两

个结果集原封不动地合并在一起.
值得注意的是这两个表的列数要相等。也就是字段的数目要相等。
select * from table union select * from table
select * from table union all select * from table

另外，在数据量大的时候，可以使用mysql的union all 代替多个的OR连接查询。
SELECT * FROM `wox_article` WHERE title like '%we%' UNION all SELECT * FROM wox_article WHERE title LIKE

'%he%'
另外，对于索引列来最好使用union all，因复杂的查询【包含运算等】将使or、in放弃索引而全表扫描，除非你能确定or

、in会使用索引；而对于只有非索引字段来说你就老老实实的用or或者in，因为非索引字段本来要全表扫描而union all

只成倍增加表扫描的次数

阅读(1398) | 评论(0) | 转发(0) |

上一篇：mysql Innodb count 索引

下一篇：sphinx的配置详情讲解和配置性能优化管理中文解释

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6