快速从一个表里随机获取N行数据的方法-dingjun123-ChinaUnix博客

博客访问： 1172356
博文数量： 166
博客积分： 0
博客等级：民兵
技术积分： 3765
用户组：普通用户
注册时间： 2011-03-30 13:00

个人简介

About me:Oracle ACE pro,optimistic,passionate and harmonious. Focus on ORACLE,MySQL and other database programming,peformance tuning,db design, j2ee,Linux/AIX,Architecture tech,etc

文章分类

全部博文（166）

CBO（54）
Tuning&Performan（32）
Concepts&Archite（4）
TroubleShooting（5）
New Feature（7）
SQL（50）
PL/SQL（8）
Miscellaneous（3）
MySQL（3）
未分配的博文（0）

文章存档

2024年（21）

2023年（28）

2022年（43）

2020年（62）

2014年（3）

2013年（9）

我的朋友

1.原始方法，全表扫描+排序，随机取10条记录

全表扫描，因为是随机的，所以要读完所有30w行再随机排序取10行，效率非常低

SQL如下：

点击(此处)折叠或打开

select * from (
select * from t order by dbms_random.value
) where rownum <= 10;

执行计划如下：

点击(此处)折叠或打开

Plan hash value: 3299198703
------------------------------------------------------------------------------------------------------------------------------
| Id | Operation | Name | Starts | E-Rows | A-Rows | A-Time | Buffers | Reads | OMem | 1Mem | Used-Mem |
------------------------------------------------------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 1 | | 10 |00:00:00.81 | 43171 | 22014 | | | |
|* 1 | COUNT STOPKEY | | 1 | | 10 |00:00:00.81 | 43171 | 22014 | | | |
| 2 | VIEW | | 1 | 300K| 10 |00:00:00.81 | 43171 | 22014 | | | |
|* 3 | SORT ORDER BY STOPKEY| | 1 | 300K| 10 |00:00:00.81 | 43171 | 22014 | 106K| 106K|96256 (0)|
| 4 | TABLE ACCESS FULL | T | 1 | 300K| 300K|00:00:00.18 | 43171 | 22014 | | | |
------------------------------------------------------------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
1 - filter(ROWNUM<=10)
3 - filter(ROWNUM<=10)

通过执行计划可以看到ID=4，读了表T的全部数据300K行，然后排序取10行。耗时0.81s,逻辑读43171，从执行计划看，主要耗时在排序上，
因为是对30w行随机排序，所以效率很低，后续优化要考虑避免扫描全量数据以及避免全量数据的随机排序。

2.改进方法，利用覆盖索引提高效率

因为id有索引，索引比表小，可以采用覆盖索引，先从索引里随机获取前10行，然后再到表里查。

可以从下面看到IDX_T索引只有6M，比表345M少很多：

点击(此处)折叠或打开

OWNER SEGMENT_NAME SEGMENT_TYPE SIZE_MB INIEXT MAXEXT
---------- ------------------------------ ------------------ ---------- ---------- ----------
DINGJUN123 T TABLE 345 65536 1048576
DINGJUN123 IDX_T INDEX 6 65536 1048576

为了能够走覆盖索引，将id改为not null:

点击(此处)折叠或打开

alter table t modify id not null;

SQL如下：

点击(此处)折叠或打开

select * from t where id in (
select id
from(
select id from t order by dbms_random.value
) where rownum <= 10
);

执行计划如下：

点击(此处)折叠或打开

Plan hash value: 753993260
---------------------------------------------------------------------------------------------------------------------------------------
| Id | Operation | Name | Starts | E-Rows | A-Rows | A-Time | Buffers | Reads | OMem | 1Mem | Used-Mem |
---------------------------------------------------------------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 1 | | 10 |00:00:00.41 | 699 | 5 | | | |
| 1 | NESTED LOOPS | | 1 | | 10 |00:00:00.41 | 699 | 5 | | | |
| 2 | NESTED LOOPS | | 1 | 10 | 10 |00:00:00.41 | 689 | 0 | | | |
| 3 | VIEW | VW_NSO_1 | 1 | 10 | 10 |00:00:00.41 | 676 | 0 | | | |
| 4 | HASH UNIQUE | | 1 | 10 | 10 |00:00:00.41 | 676 | 0 | 1397K| 1397K| 1259K (0)|
|* 5 | COUNT STOPKEY | | 1 | | 10 |00:00:00.41 | 676 | 0 | | | |
| 6 | VIEW | | 1 | 300K| 10 |00:00:00.41 | 676 | 0 | | | |
|* 7 | SORT ORDER BY STOPKEY | | 1 | 300K| 10 |00:00:00.41 | 676 | 0 | 2048 | 2048 | 2048 (0)|
| 8 | INDEX FAST FULL SCAN | IDX_T | 1 | 300K| 300K|00:00:00.03 | 676 | 0 | | | |
|* 9 | INDEX RANGE SCAN | IDX_T | 10 | 1 | 10 |00:00:00.01 | 13 | 0 | | | |
| 10 | TABLE ACCESS BY INDEX ROWID| T | 10 | 1 | 10 |00:00:00.01 | 10 | 5 | | | |
---------------------------------------------------------------------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
5 - filter(ROWNUM<=10)
7 - filter(ROWNUM<=10)
9 - access("ID"="ID")

通过覆盖索引，0.41s,逻辑读从4.3w降低到676，主要耗时还是在随机排序上（占95%以上）。

3.使用索引min/max快速扫描构造随机数提高效率

优化主要集中在下面两点：
1）怎么避免扫描全量数据
2）怎么避免对全量数据随机排序
避免扫描全量数据，必须构造一个ID值，从此ID处开始扫描，然后用ID排序，则可以消除以上两点。方法如下：

索引的min，max查询效率很高（ORACLE不能写在同一个SELECT里否则不能用快速扫描），只需要扫描左右侧索引NO.1叶子节点，可以实现快速扫描，
然后利用floor(tmp.min_id + (tmp.max_id - tmp.min_id + 1) * dbms_random.value) 构造随机id,然后与原表关联，利用索引列id排序，
因为是索引列，可以利用索引消除排序，然后取100条，为了防止断号（因为取10条的话，这个id是连续的，也不够连续，如果id本身不是连续的，
也可能取不到10条），先取100条，然后从100条里随机取10条，比全扫描效率高很多

SQL如下：

点击(此处)折叠或打开

select *
from t
where id in
(select id
from (select id
from (select id
from (select id
from t
where t.id >=
(select floor(tmp.min_id +
(tmp.max_id - tmp.min_id + 1) *
dbms_random.value) id
from (select (select max(id) from t) max_id,
(select min(id) from t) min_id
from dual) tmp)
order by t.id)
where rownum <= 100)
order by dbms_random.value)
where rownum <= 10);

执行计划如下：

点击(此处)折叠或打开

Plan hash value: 72274151
-----------------------------------------------------------------------------------------------------------------------------------------
| Id | Operation | Name | Starts | E-Rows | A-Rows | A-Time | Buffers | OMem | 1Mem | Used-Mem |
-----------------------------------------------------------------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 1 | | 10 |00:00:00.01 | 30 | | | |
| 1 | NESTED LOOPS | | 1 | | 10 |00:00:00.01 | 30 | | | |
| 2 | NESTED LOOPS | | 1 | 10 | 10 |00:00:00.01 | 20 | | | |
| 3 | VIEW | VW_NSO_1 | 1 | 10 | 10 |00:00:00.01 | 7 | | | |
| 4 | HASH UNIQUE | | 1 | 10 | 10 |00:00:00.01 | 7 | 1397K| 1397K| 847K (0)|
|* 5 | COUNT STOPKEY | | 1 | | 10 |00:00:00.01 | 7 | | | |
| 6 | VIEW | | 1 | 100 | 10 |00:00:00.01 | 7 | | | |
|* 7 | SORT ORDER BY STOPKEY | | 1 | 100 | 10 |00:00:00.01 | 7 | 2048 | 2048 | 2048 (0)|
| 8 | VIEW | | 1 | 100 | 100 |00:00:00.01 | 7 | | | |
|* 9 | COUNT STOPKEY | | 1 | | 100 |00:00:00.01 | 7 | | | |
| 10 | VIEW | | 1 | 100 | 100 |00:00:00.01 | 7 | | | |
|* 11 | INDEX RANGE SCAN | IDX_T | 1 | 100 | 100 |00:00:00.01 | 7 | | | |
| 12 | FAST DUAL | | 1 | 1 | 1 |00:00:00.01 | 0 | | | |
| 13 | SORT AGGREGATE | | 1 | 1 | 1 |00:00:00.01 | 2 | | | |
| 14 | INDEX FULL SCAN (MIN/MAX) | IDX_T | 1 | 1 | 1 |00:00:00.01 | 2 | | | |
| 15 | SORT AGGREGATE | | 1 | 1 | 1 |00:00:00.01 | 2 | | | |
| 16 | INDEX FULL SCAN (MIN/MAX)| IDX_T | 1 | 1 | 1 |00:00:00.01 | 2 | | | |
|* 17 | INDEX RANGE SCAN | IDX_T | 10 | 1 | 10 |00:00:00.01 | 13 | | | |
| 18 | TABLE ACCESS BY INDEX ROWID | T | 10 | 1 | 10 |00:00:00.01 | 10 | | | |
-----------------------------------------------------------------------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
5 - filter(ROWNUM<=10)
7 - filter(ROWNUM<=10)
9 - filter(ROWNUM<=100)
11 - access("T"."ID">=)
17 - access("ID"="ID")

从执行计划看，改进的SQL逻辑读只需要30，执行时间0.01s。

4)使用索引min/max+递归with构造前N个随机数
和3类似，只不过这里使用递归with,先构造一个随机id,然后递归，取100条，然后随机排序后取10条。
如下所示：

SQL如下：

点击(此处)折叠或打开

with tmp(rn,id) as
(
select 1 rn,floor(tmp.min_id +(tmp.max_id - tmp.min_id + 1) * dbms_random.value) id
from (select (select max(id) from t) max_id,
(select min(id) from t) min_id
from dual) tmp
union all
select rn+1,id
from tmp
where rn <100
)
select * from t where id in (
select id from (
select id+rn as id from tmp
order by dbms_random.value
) where rownum <= 10
);

执行计划如下：

点击(此处)折叠或打开

Plan hash value: 2701499939
--------------------------------------------------------------------------------------------------------------------------------------------------
| Id | Operation | Name | Starts | E-Rows | A-Rows | A-Time | Buffers | OMem | 1Mem | Used-Mem |
--------------------------------------------------------------------------------------------------------------------------------------------------
| 0 | SELECT STATEMENT | | 1 | | 10 |00:00:00.01 | 22 | | | |
| 1 | NESTED LOOPS | | 1 | | 10 |00:00:00.01 | 22 | | | |
| 2 | NESTED LOOPS | | 1 | 1 | 10 |00:00:00.01 | 13 | | | |
| 3 | VIEW | VW_NSO_1 | 1 | 2 | 10 |00:00:00.01 | 4 | | | |
| 4 | HASH UNIQUE | | 1 | 1 | 10 |00:00:00.01 | 4 | 1397K| 1397K| 1092K (0)|
|* 5 | COUNT STOPKEY | | 1 | | 10 |00:00:00.01 | 4 | | | |
| 6 | VIEW | | 1 | 2 | 10 |00:00:00.01 | 4 | | | |
|* 7 | SORT ORDER BY STOPKEY | | 1 | 2 | 10 |00:00:00.01 | 4 | 2048 | 2048 | 2048 (0)|
| 8 | VIEW | | 1 | 2 | 100 |00:00:00.01 | 4 | | | |
| 9 | UNION ALL (RECURSIVE WITH) BREADTH FIRST| | 1 | | 100 |00:00:00.01 | 4 | | | |
| 10 | SORT AGGREGATE | | 1 | 1 | 1 |00:00:00.01 | 2 | | | |
| 11 | INDEX FULL SCAN (MIN/MAX) | IDX_T | 1 | 1 | 1 |00:00:00.01 | 2 | | | |
| 12 | SORT AGGREGATE | | 1 | 1 | 1 |00:00:00.01 | 2 | | | |
| 13 | INDEX FULL SCAN (MIN/MAX) | IDX_T | 1 | 1 | 1 |00:00:00.01 | 2 | | | |
| 14 | FAST DUAL | | 1 | 1 | 1 |00:00:00.01 | 0 | | | |
| 15 | RECURSIVE WITH PUMP | | 100 | | 99 |00:00:00.01 | 0 | | | |
|* 16 | INDEX RANGE SCAN | IDX_T | 10 | 1 | 10 |00:00:00.01 | 9 | | | |
| 17 | TABLE ACCESS BY INDEX ROWID | T | 10 | 1 | 10 |00:00:00.01 | 9 | | | |
--------------------------------------------------------------------------------------------------------------------------------------------------
Predicate Information (identified by operation id):
---------------------------------------------------
5 - filter(ROWNUM<=10)
7 - filter(ROWNUM<=10)
16 - access("ID"="ID")

逻辑读22，执行时间0.01s。

总结：
从一个表里随机取10条记录的关键在于：
1）避免扫描全部数据
2）避免对全部数据随机排序
所以关键在于构造一个随机ID，然后用这个ID为起始点去表里找，可以走索引查找，然后可以随机
取100条（为了避免ID不连续的断号问题），减少扫描和排序量，充分利用索引的高效扫描
提高效率。
构造随机ID,利用扫描索引取min,max可以快速扫描，然后利用min_id为起点+随机数，
这个随机数用(tmp.max_id - tmp.min_id + 1) * dbms_random.value
构造，然后用floor取整即可。

阅读(5913) | 评论(0) | 转发(0) |

上一篇：绑定变量peeking关闭导致like走index range scan原因及分析

下一篇：ORACLE组合索引选择率计算及如何选择组合索引的列顺序_PART1

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6