mysql中count(*),distinct的使用方法和效率研究-sss0213-ChinaUnix博客

对你说sunshasha.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

sss0213

博客访问： 2418494
博文数量： 473
博客积分： 12252
博客等级：上将
技术积分： 4307
用户组：普通用户
注册时间： 2007-10-12 10:02

文章分类

全部博文（473）

NoSQL（2）
c（1）
ORACLE（21）

OCI（7）

操作（11）
javascript（47）
php（37）

smarty（1）
存储（16）

USB设备（1）

RAID（1）

分区（4）

硬盘（8）
Shell（36）
心情随笔（2）
嵌入式（4）
其它（7）
C和C++（33）
SQLITE（3）

翻译（0）
网络编程（6）
进程和线程编程（4）
工作日志（2）
MYSQL（143）

memcache（0）

high performance（1）

使用心得（83）

看过的手册（2）
Linux（107）

centos（2）

程序（1）

源码分析（2）

工具（4）

内核（2）

文本编辑（6）

配置（19）

信号（2）

命令（37）
未分配的博文（2）

文章存档

2012年（8）

2011年（63）

2010年（73）

2009年（231）

2008年（98）

我的朋友

相关博文

mysql中count(*),distinct的使用方法和效率研究

分类： Mysql/postgreSQL

2009-06-17 09:10:18

在处理一个大数据量数据库的时候
突然发现mysql对于count(*)的不同处理会造成不同的结果

比如执行
SELECT count(*) FROM tablename
即使对于千万级别的数据mysql也能非常迅速的返回结果
而对于
SELECT count(*) FROM tablename WHERE…..
mysql的查询时间开始攀升

仔细查阅累下手册,发现当没有WHERE语句对于整个mysql的表进行count运算的时候
MyISAM类型的表中保存有总的行数,而当添加有WHERE限定语句的时候Mysql需要对整个表进行检索
从而得出count的数值

突然又想起来看到的不少新兴的php程序对于count的处理并没有很好的意识到这点
记录下

顺便提下mysql的DISTINCT的关键字有很多你想不到的用处
1.在count 不重复的记录的时候能用到
比如SELECT COUNT( DISTINCT id ) FROM tablename;
就是计算talbebname表中id不同的记录有多少条

2,在需要返回记录不同的id的具体值的时候可以用
比如SELECT DISTINCT id FROM tablename;
返回talbebname表中不同的id的具体的值

3.上面的情况2对于需要返回mysql表中2列以上的结果时会有歧义
比如SELECT DISTINCT id, type FROM tablename;
实际上返回的是 id与type同时不相同的结果,也就是DISTINCT同时作用了两个字段，必须得id与tyoe都相同的才被排除了,与我们期望的结果不一样

4.这时候可以考虑使用group_concat函数来进行排除,不过这个mysql函数是在mysql4.1以上才支持的

5.其实还有另外一种解决方式,就是使用
SELECT id, type, count(DISTINCT id) FROM tablename
虽然这样的返回结果多了一列无用的count数据(或许你就需要这个我说的无用数据)

SELECT id, type from tablename group by id;
这样貌似也可以

用distinct的时候，如果它有索引，mysql会把它转成group by的方式执行。

返回的结果是只有id不同的所有结果和上面的4类型可以互补使用,就是看你需要什么样的数据了

COUNT(*)与COUNT(COL)
网上搜索了下，发现各种说法都有：
比如认为COUNT(COL)比COUNT(*)快的；
认为COUNT(*)比COUNT(COL)快的；
还有朋友很搞笑的说到这个其实是看人品的。

在不加WHERE限制条件的情况下，COUNT(*)与COUNT(COL)基本可以认为是等价的；
但是在有WHERE限制条件的情况下，COUNT(*)会比COUNT(COL)快非常多；

具体的数据参考如下：

mysql> SELECT COUNT(*) FROM cdb_posts where fid = 604;
+————+
| COUNT(fid) |
+————+
| 79000 |
+————+
1 row in set (0.03 sec)

mysql> SELECT COUNT(tid) FROM cdb_posts where fid = 604;
+————+
| COUNT(tid) |
+————+
| 79000 |
+————+
1 row in set (0.33 sec)

mysql> SELECT COUNT(pid) FROM cdb_posts where fid = 604;
+————+
| COUNT(pid) |
+————+
| 79000 |
+————+
1 row in set (0.33 sec)

COUNT(*)通常是对主键进行索引扫描，而COUNT(COL)就不一定了，另外前者是统计表中的所有符合的纪录总数，而后者是计算表中所有符合的COL的纪录数。还有有区别的。

COUNT时的WHERE
这点以前就写过，详细请看《》：

简单说下，就是COUNT的时候，如果没有WHERE限制的话，MySQL直接返回保存有总的行数
而在有WHERE限制的情况下，总是需要对MySQL进行全表遍历。（是针对MyIsam）

优化总结：
1.任何情况下SELECT COUNT(*) FROM tablename是最优选择；
2.尽量减少SELECT COUNT(*) FROM tablename WHERE COL = ‘value’ 这种查询；
3.杜绝SELECT COUNT(COL) FROM tablename WHERE COL2 = ‘value’ 的出现。

以下摘自：http://hi.baidu.com/dearhwj/blog/item/3a45b28de358031ab31bba1b.html

SQL 语句的COUNT有两种用途
1. 用来计算行数——Count(*)
2. 用来计算某个值的数量——COUNT（col1）
Count(*) 永远返回的都是结果集中的行数，而COUNT（col1）只返回col1值非空的记录数，如果col1值全部非空，
Count(*)和COUNT（col1）的结果是相同的。

Count的用法很简单，可在实际开发过程中还是能找到使用不那么精确的地方
很多时候我们会利用Count(*)来检查是否存在满足条件的数据，例如删除一个用户角色的时候，会通过
/****************************************************************************************************/
select count(*) from tbl_user_role user_role where user_role.role_id=#roldId#
/****************************************************************************************************/
来判断是否用户角色是否因被某个用户引用而不能删除。其实，我们的业务只要求确认是否有满足的条件的记录存在，而根本不关心满足记录的数量。select count（*）在这个例子中的用法会导致不必要的磁盘扫描和记录检索。正确的写法应该是
/*************************************Mysql***************************************************************************/
select exists (select * from tbl_user_role user_role where user_role.role_id=10 limit 1)
/*************************************Mysql***************************************************************************/

/*************************************Oracle***************************************************************************/
select count(*) from dual where exists (select * from tbl_user_role user_role where user_role.role_id=10 and rownum=1)
/*************************************Oracle***************************************************************************/

写法可能有多种，原理很简单，就是只找到符合记录的第一条就终止查询。

参考资料
Exists Vs. Count(*) - The battle never ends
A common problem when optimizing COUNT()
The dangerous subtleties of LEFT JOIN and COUNT() in SQL

阅读(1312) | 评论(0) | 转发(1) |

上一篇：mysql优化经验

下一篇：MySQL 性能跟踪语句

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6