柱状图分析对执行计划的影响-eagle198699-ChinaUnix博客

海布里的左路

首页　| 　博文目录　| 　关于我

eagle198699

博客访问： 1170321
博文数量： 231
博客积分： 2500
博客等级：少校
技术积分： 2662
用户组：普通用户
注册时间： 2009-11-03 16:35

个人简介

学无止境

文章分类

全部博文（231）

Oracle（125）

基础知识（63）

RAC（10）

Parameter（5）

Index（6）

Syntax（13）

metalink文档（1）

Streams（1）

备份恢复（14）

Upgrade（2）

Timesten（8）

Tuning（1）

GoldenGate（1）
OCM（84）

Server Conf（13）

EM GC（14）

Managing Av（8）

Data Manage（14）

Data Wareho（5）

Performance （20）

RAC（8）

Data Guard（2）
Linux（8）
AIX（4）
HP-UX（5）
WebLogic（3）
Solaris（1）
未分配的博文（1）

文章存档

2014年（7）

2013年（103）

2011年（11）

2010年（53）

2009年（57）

相关博文

柱状图分析对执行计划的影响

分类： Oracle

2010-09-02 15:30:58

创建一张表，表中ID字段数据倾斜：

create table skew
(
id number(20) not null ,
begin varchar2(20),
end varchar2(20),
a1 varchar2(20),
a2 varchar2(20),
year varchar2(4),
mixcode char(1)
);

表中数据：

id distinct 700
year distinct 2
id:
501 30%
414 19%
2 15%
123 7%
其他 29%
year约为1半1半
(id,year) 750

declare
begin_rdm number(5);
end_rdm number(5);
b_val number(20);
e_val number(20);
id number(20);
a1 varchar2(20);
a2 varchar2(20);
year varchar2(4);
mixcode char(1);
v_sql varchar2(2000);
begin
b_val:=0;
for i in 1..1000000 loop
select trunc(dbms_random.value(0,500)) into begin_rdm from dual;
if begin_rdm !=14 then
b_val:=b_val+1;
end if;
select trunc(dbms_random.value(0,6)) into end_rdm from dual;
e_val:=b_val+end_rdm;
select dbms_random.string('U', 1) into mixcode from dual;
select dbms_random.string('u', 1)||lpad(to_char(trunc(dbms_random.value(1, 1000))),5,0)||dbms_random.string('l', 3) into a1 from dual;
select dbms_random.string('x', 10) into a2 from dual;
select trunc(dbms_random.value(1,101)) into id from dual;
if id<31 then
id:=501;
elsif id>30 and id<50 then
id:=414;
elsif id>49 and id<65 then
id:=2;
elsif id>64 and id<72 then
id:=123;
else
select trunc(dbms_random.value(1,701)) into id from dual;
end if;
if mod(id,2)=0 then
year:=2002;
elsif mod(id,7)=0 then
select trunc(dbms_random.value(1,3)) into year from dual;
year:=year+2000;
else
year:=2001;
end if;
v_sql:='insert into skew values('||id||',lpad(to_char('||b_val||'),9,0),lpad(to_char('||e_val||'),9,0),'''||a1||''','''||a2||''','||year||','''||mixcode||''')';
execute immediate v_sql;
if mod(i,10000)=0 then
commit;
end if;
end loop;
end;
/

在id字段上建立一个普通索引：
create index ldy.IDX_skew_id on ldy.skew(id);

对ID字段采用不同bucket数量进行分析，1、20、254：
exec dbms_stats.GATHER_TABLE_STATS(ownname=>'LDY',tabname=>'SKEW',estimate_percent=>100,cascade=>true,method_opt=>'FOR COLUMNS id SIZE 1');
exec dbms_stats.GATHER_TABLE_STATS(ownname=>'LDY',tabname=>'SKEW',estimate_percent=>100,cascade=>true,method_opt=>'FOR COLUMNS id SIZE 20');
exec dbms_stats.GATHER_TABLE_STATS(ownname=>'LDY',tabname=>'SKEW',estimate_percent=>100,cascade=>true,method_opt=>'FOR COLUMNS id SIZE 254');

每次进行新的分析之前需要删除原来的分析信息，并刷新共享池
exec dbms_stats.DELETE_TABLE_STATS(ownname=>'LDY',tabname=>'SKEW',cascade_columns=>true,cascade_indexes=>true);
alter system flush shared_pool;

分别分析以下2个条件的sql语句：
select * from skew where id=501;
select * from skew where id=601;

bucket为1的柱状图分析：

ID=501时，选择了299676行，大约占总数的30%，该执行计划走了索引范围扫描，一致读消耗了47901。

执行计划
----------------------------------------------------------
Plan hash value: 1401535606

-------------------------------------------------------------------------------------------
| Id | Operation                   | Name        | Rows | Bytes | Cost (%CPU)| Time     |
-------------------------------------------------------------------------------------------
|   0 | SELECT STATEMENT            |             | 1429 | 72879 |   452   (0)| 00:00:06 |
|   1 | TABLE ACCESS BY INDEX ROWID| SKEW        | 1429 | 72879 |   452   (0)| 00:00:06 |
|* 2 |   INDEX RANGE SCAN          | IDX_SKEW_ID | 1429 |       |     5   (0)| 00:00:01 |
-------------------------------------------------------------------------------------------

ID=601时，选择了431行，大约占总数的0.04%，该执行计划走了索引范围扫描，一致读消耗了456。

执行计划
----------------------------------------------------------
Plan hash value: 1401535606

bucket为20的柱状图分析：

ID=501时，选择了299676行，大约占总数的30%，该执行计划走了全表扫描，一致读消耗了28895，比之前走索引消耗的要少得多。

执行计划
----------------------------------------------------------
Plan hash value: 246648590

--------------------------------------------------------------------------
| Id | Operation         | Name | Rows | Bytes | Cost (%CPU)| Time     |
--------------------------------------------------------------------------
|   0 | SELECT STATEMENT |      |   300K|    14M| 1999   (1)| 00:00:24 |
|* 1 | TABLE ACCESS FULL| SKEW |   300K|    14M| 1999   (1)| 00:00:24 |
--------------------------------------------------------------------------

ID=601时，选择了431行，大约占总数的0.04%，该执行计划也走了全表扫描，一致读消耗了9116，比之前走索引的消耗要大。

执行计划
----------------------------------------------------------
Plan hash value: 246648590

--------------------------------------------------------------------------
| Id | Operation         | Name | Rows | Bytes | Cost (%CPU)| Time     |
--------------------------------------------------------------------------
|   0 | SELECT STATEMENT |      | 14312 |   712K| 1997   (1)| 00:00:24 |
|* 1 | TABLE ACCESS FULL| SKEW | 14312 |   712K| 1997   (1)| 00:00:24 |
--------------------------------------------------------------------------

bucket为254的柱状图分析：

ID=501时，选择了299676行，大约占总数的30%，该执行计划走了全表扫描，一致读消耗了28895。

执行计划
----------------------------------------------------------
Plan hash value: 246648590

--------------------------------------------------------------------------
| Id | Operation         | Name | Rows | Bytes | Cost (%CPU)| Time     |
--------------------------------------------------------------------------
|   0 | SELECT STATEMENT |      |   303K|    14M| 1999   (1)| 00:00:24 |
|* 1 | TABLE ACCESS FULL| SKEW |   303K|    14M| 1999   (1)| 00:00:24 |
--------------------------------------------------------------------------

ID=601时，选择了431行，大约占总数的0.04%，该执行计划走了索引范围扫描，一致读消耗了456。

执行计划
----------------------------------------------------------
Plan hash value: 1401535606

-------------------------------------------------------------------------------------------
| Id | Operation                   | Name        | Rows | Bytes | Cost (%CPU)| Time     |
-------------------------------------------------------------------------------------------
|   0 | SELECT STATEMENT            |             |   416 | 21216 |   133   (0)| 00:00:02 |
|   1 | TABLE ACCESS BY INDEX ROWID| SKEW        |   416 | 21216 |   133   (0)| 00:00:02 |
|* 2 |   INDEX RANGE SCAN          | IDX_SKEW_ID |   416 |       |     3   (0)| 00:00:01 |
-------------------------------------------------------------------------------------------

结论：

bucket为1时，相当于一个普通分析，没有柱状图信息，执行计划按绝大多数ID字段内容来选择走索引。本例中ID=501，明显不适合走索引，额外开销了大量的一致读。
bucket为20时，分为了20个柱状，不够精细，每个范围内优化器判断变得都不适合走索引，所以当ID=602，走了全表扫描，额外开销了不必要的一致读。
bucket为254时，柱状图已经相当精细了，所以可以正确地判断ID为不同值时需要选择不同的执行计划，ID=501，全表扫描，ID=601，走索引扫描。
从上面的对比可以看出，bucket为254分析之后，选择的执行计划最为正确，开销最小。
由此可见，一个倾斜的列的柱状图分析对执行计划有较明显的影响。
对于不同值较多的倾斜字段，需要尽可能地精确分析，bucket的范围是1-254。
对于不同值NDV(the number of distinct values)的数量大于254的，bucket设置为254，
小于254的，按NDV的数量设置。

关于柱状图的分析信息参见我另一篇文档：《查看柱状图的分析信息》http://blog.chinaunix.net/u3/105370/showart.php?id=2316612

阅读(865) | 评论(0) | 转发(0) |

上一篇：查看柱状图的分析信息

下一篇：普通表通过重定义变成分区表

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6