ORACLE 索引聚簇表的数据加载（原）-liugao

踏踏实实做事

首页　| 　博文目录　| 　关于我

liugao_0614

博客访问： 4583833
博文数量： 109
博客积分： 10011
博客等级：上将
技术积分： 2457
用户组：普通用户
注册时间： 2006-10-18 19:04

文章分类

全部博文（109）

BI（15）

Data Mining（2）

Data Warehouse（6）

ORACLE BI（7）
Script（1）

JavaScript（1）
Oracle（51）

data guard（1）

sql optimize（3）

news（1）

interface（0）

function（7）

error（5）

rman（3）

concept（29）
Web开发（6）
面试题库（1）
DataBase（7）

mysql（0）

sql（5）
心情驿站（6）
生活杂谈（1）
WebService（1）

WSDL（0）

BPEL（0）

ESB（0）

SOA（0）

WS（1）
Contianer（1）

JBoss（0）

Tomcat（0）
ORM-MVC（2）

Tapestry（0）

Webwork（0）

hibernate（1）

iBatis（0）

JSF（0）

Ajax（0）

Struts（1）

Spring（0）
Tool（5）

Rose（0）

Eclipse（0）

JavaStudioCreate（0）
ML（1）

UML（0）

XML（1）

HTML（0）
Unix（3）

Liunx（3）

Soloris（0）
Java（5）

Lib（0）

Ejb3.0（0）

javaEE5（1）

javaSE5（4）
未分配的博文（3）

文章存档

2011年（1）

2010年（10）

2009年（36）

2008年（62）

我的朋友

相关博文

ORACLE 索引聚簇表的数据加载（原）

分类： Oracle

2009-08-31 10:00:40

本文部分思想和案例是源自 Thomas Kyte 的《深入数据库体系结构》一书，也加入了部分作者个人观点和作者的实践。

一：首先介绍一下索引聚簇表的工作原理：
聚簇是指：如果一组表有一些共同的列，则将这样一组表存储在相同的数据库块中；聚簇还表示把相关的数据存储在同一个块上。利用聚簇，一个块可能包含多个表的数据。概念上就是如果两个或多个表经常做链接操作，那么可以把需要的数据预先存储在一起。聚簇还可以用于单个表，可以按某个列将数据分组存储。

更加简单的说，比如说，EMP表和DEPT表，这两个表存储在不同的segment中，甚至有可能存储在不同的TABLESPACE中，因此，他们的数据一定不会在同一个BLOCK里。而我们有会经常对这两个表做关联查询，比如说：select * from emp,dept where emp.deptno = dept.deptno .仔细想想，查询主要是对BLOCK的操作，查询的BLOCK越多，系统IO就消耗越大。如果我把这两个表的数据聚集在少量的BLOCK里，查询效率一定会提高不少。
比如我现在将值deptno=10的所有员工抽取出来，并且把对应的部门信息也存储在这个BLOCK里（如果存不下了，可以为原来的块串联另外的块）。这就是索引聚簇表的工作原理。

二：创建过程。
索引聚簇表是基于一个索引聚簇（index cluster）创建的。里面记录的是各个聚簇键。聚簇键和我们用得做多的索引键不一样，索引键指向的是一行数据，聚簇键指向的是一个ORACLE BLOCK。我们可以先通过以下命令创建一个索引簇。
SQL> conn scott/tiger
已连接。
SQL> desc dept
名称                                      是否为空? 类型
----------------------------------------- -------- ----------------------------
DEPTNO                                    NOT NULL NUMBER(2)
DNAME                                              VARCHAR2(14)
LOC                                                VARCHAR2(13)
SQL> create cluster emp_dept_cluster
2 ( deptno number(2) )
3 size 1024
4 /
簇已创建。
    这个名字可以用户定义，不一定叫deptno，数据类型必须和需要使用这个聚簇的数据类型一致NUMBER(2)。在这里最关键的一个参数是size。这个选项原来告诉Oracle：我们希望与每个聚簇键值关联大约1024字节的数据（1024对于一般的表一条数据没问题），Oracle会在用这个数据库块上设置来计算每个块最多能放下多少个聚簇键。假设块大小为8KB，Oracle会在每个数据库块上放上最多7个聚簇键，也就是说，对应部门10、20、30、40、50、60和70的数据会放在一个块上，一旦插入部门80，就会使用一个新块。存放的数据是和插入顺序相关的。

因此，SIZE测试控制着每块上聚簇键的最大个数。这是对聚簇空间利用率影响最大的因素。如果把这个SIZE设置得太高，那么每个块上的键就会很少（单位BLOCK可以存的聚簇键就少了），我们会不必要地使用更多的空间。如果设置得太低，又会导致数据过分串链（一个聚簇键不够存放一条数据），这又与聚簇本来的目的不符，因为聚簇原本是为了把所有相关数据都存储在一个块上。

向聚簇中放数据之前，需要先对聚簇建立索引。可以现在就在聚簇中创建表，但是由于我们想同时创建和填充表，而有数据之前必须有一个聚簇索引，所以我们先来建立聚簇索引。
聚簇索引的任务是拿到一个聚簇键值，然后返回包含这个键的块的块地址。实际上这是一个主键，其中每个聚簇键值指向聚簇本身中的一个块。因此，我们请求部门10的数据时，Oracle会读取聚簇键，确定相应的块地址，然后读取数据。聚簇键索引如下创建：
SQL> create index emp_dept_cluster_idx
2 on cluster emp_dept_cluster
3 /
索引已创建。

现在可以创建表了：
SQL> conn segment_study/liugao
已连接。
SQL> create table dept
2 ( deptno number(2) primary key,
3 dname varchar2(14),
4 loc varchar2(13)
5 )
6 cluster emp_dept_cluster(deptno)
7 /
表已创建。

SQL> create table emp
2 ( empno    number primary key,
3    ename    varchar2(10),
4    job      varchar2(9),
5    mgr      number,
6    hiredate date,
7    sal      number,
8    comm     number,
9    deptno number(2) constraint emp_fk references dept(deptno)
10 )
11 cluster emp_dept_cluster(deptno)
12 /
表已创建。

我们可以通过一下SQL语句查看创建：
SQL> select cluster_name, table_name
2 from user_tables
3 where cluster_name is not null
4 order by 1;

CLUSTER_NAME                   TABLE_NAME
------------------------------ -----------------------------
EMP_DEPT_CLUSTER               DEPT
EMP_DEPT_CLUSTER               EMP

现在，聚簇，聚簇索引，聚簇索引表都已经建立完成。

三：加载数据。
      向聚簇索引表中加载数据是个很讲究的事情，处理方法不对，会使得聚簇的功能发挥不完全，降低查询性能。
方法1：
     首先，我增加一个很大的列char（1000）,加这个列是为了让EMP行远远大于现在的大小。使得一个1024的聚簇无法存储一行记录。不能加varchar2(1000),因为ORACLE对varchar2存储的原则是能省就省，如果数据数据不到1000，不会分配1000的空间的。char则是有多少用多少。呵呵。
SQL> begin
2      for x in ( select * from scott.dept )
3      loop
4          insert into dept
5          values ( x.deptno, x.dname, x.loc );
6          insert into emp
7          select *
8            from scott.emp
9           where deptno = x.deptno;
10      end loop;
11 end;
12 /
begin
*
第 1 行出现错误:
ORA-02032: 聚簇表无法在簇索引建立之前使用
ORA-06512: 在 line 4

SQL> create index emp_dept_cluster_idx
2 on cluster emp_dept_cluster
3 ;
索引已创建。

SQL> alter table emp disable constraint emp_fk;
表已更改。
SQL> truncate cluster emp_dept_cluster;
簇已截断。
SQL> alter table emp enable constraint emp_fk;
表已更改。
SQL> alter table emp add data char(1000);
表已更改。

上面的执行错误说明聚簇表无法在簇索引建立之前使用。

首先我们通过先加载emp表，后加载dept表的方式。
SQL> insert into dept
2 select * from scott.dept;
已创建4行。
SQL> insert into emp
2 select emp.*, '*' from scott.emp;
已创建14行。

然后做一个查询，通过dbms_rowid.rowid_block_number可以查看此数据所在的BLOCK ID,如果dept和emp存储的行数据不是一个BLOCK ID ,则标记一个'*'.查询结果如下：

SQL> select dept_blk, emp_blk,
2         case when dept_blk <> emp_blk then '*' end flag,
3             deptno
4    from (
5 select dbms_rowid.rowid_block_number(dept.rowid) dept_blk,
6         dbms_rowid.rowid_block_number(emp.rowid) emp_blk,
7         dept.deptno
8    from emp, dept
9   where emp.deptno = dept.deptno
10         )
11   order by deptno
12 /

DEPT_BLK    EMP_BLK F     DEPTNO
---------- ---------- - ----------
        85         86 *         10
        85         86 *         10
        85         87 *         10
        85         85           20
        85         87 *         20
        85         86 *         20
        85         85           20
        85         86 *         20
        85         85           30
        85         86 *         30
        85         85           30

DEPT_BLK    EMP_BLK F     DEPTNO
---------- ---------- - ----------
        85         86 *         30
        85         85           30
        85         85           30

已选择14行。

我们发现，通过先插入emp数据，再插入dept数据，导致大部分的emp和dept的数据都不在一个block上，这不是我们使用聚簇索引的目的。

方法二：
先处理一下刚才插入的数据:
SQL> truncate cluster emp_dept_cluster;
truncate cluster emp_dept_cluster
*
第 1 行出现错误:
ORA-02266: 表中的唯一/主键被启用的外键引用

SQL> alter table emp disable constraint emp_fk;
表已更改。
SQL> truncate cluster emp_dept_cluster;
簇已截断。
SQL> alter table emp enable constraint emp_fk;
表已更改。

然后使用以下的方式插入数据：
SQL> begin
2      for x in ( select * from scott.dept )
3      loop
4          insert into dept
5          values ( x.deptno, x.dname, x.loc );
6          insert into emp
7          select emp.*, 'x'
8            from scott.emp
9           where deptno = x.deptno;
10      end loop;
11 end;
12 /
PL/SQL 过程已成功完成。

执行上面统一的SQL。
SQL> select dept_blk, emp_blk,
2         case when dept_blk <> emp_blk then '*' end flag,
3             deptno
4    from (
5 select dbms_rowid.rowid_block_number(dept.rowid) dept_blk,
6         dbms_rowid.rowid_block_number(emp.rowid) emp_blk,
7         dept.deptno
8    from emp, dept
9   where emp.deptno = dept.deptno
10         )
11   order by deptno
12 /

DEPT_BLK    EMP_BLK F     DEPTNO
---------- ---------- - ----------
        85         85           10
        85         85           10
        85         85           10
        85         85           20
        85         85           20
        85         85           20
        85         86 *         20
        85         86 *         20
        86         86           30
        86         86           30
        86         86           30

DEPT_BLK    EMP_BLK F     DEPTNO
---------- ---------- - ----------
        86         86           30
        86         87 *         30
        86         87 *         30

已选择14行。

咱们发现，大部分的数据都在同一个块中。原来这才是想聚簇表里添加数据的最佳方法。

为什么会有这样的差别呢？？
当我们通过第一种方法时，有一个问题，由于dept表的行在聚簇中占用空间很小，但是剩余的空间确不能存一条dept的数据（应为我们添加了char（1000）了）。这样就会在那些聚簇键块上导致过度的串链。Oracle会把包含这些信息的一组块串链或链接起来。如果同时加载对应一个给定聚簇键的所有数据，就能尽可能紧地塞满块，等空间用完时再开始一个新块。

四：什么时候不应该使用聚簇？

1）如果预料到聚簇中的表会大量修改：必须知道，索引聚簇会对DML的性能产生某种负面影响（特别是INSERT语句）。管理聚簇中的数据需要做更多的工作。
2）如果需要对聚簇中的表执行全表扫描：不只是必须对你的表中的数据执行全面扫描，还必须对（可能的）多个表中的数据进行全面扫描。由于需要扫描更多的数据，所以全表扫描耗时更久。
3）如果你认为需要频繁地TRUNCATE和加载表：聚簇中的表不能截除。这是显然的，因为聚簇在一个块上存储了多个表，必须删除聚簇表中的行。

因此，如果数据主要用于读（这并不表示“从来不写”；聚簇表完全可以修改），而且要通过索引来读（可以是聚簇键索引，也可以是聚簇表上的其他索引），另外会频繁地把这些信息联结在一起，此时聚簇就很适合。

本人认为适合OLAP的应用中，因为，olap数据几乎没有修改，这是其一，其二是很少对表做全部扫描，机会没有，没有人会select * from 事实表。第三，olap应用主要的查询是维表和事实表的关联查询。聚簇索引再适合不过了。大家认为了？？

Chris_liu is waiting for your response ,Don't hestite to reply me .....

阅读(1953) | 评论(0) | 转发(0) |

上一篇：分析函数实例及其讲解（部分转载）

下一篇：对ORACLE段，高水位线，行迁移的理解（原）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6