(内附总结的讨论结果）大DML最佳实践讨论，参与即有机会获赠oracle rac日记一本！-TOMSYAN-ChinaUnix博客

美丽人生yanshoupeng.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

TOMSYAN

博客访问： 2922664
博文数量： 599
博客积分： 16398
博客等级：上将
技术积分： 6875
用户组：普通用户
注册时间： 2009-11-30 12:04

个人简介

WINDOWS下的程序员出身，偶尔也写一些linux平台下小程序，后转行数据库行业，专注于ORACLE和DB2的运维和优化。同时也是ios移动开发者。欢迎志同道合的朋友一起研究技术。数据库技术交流群：58308065，23618606

文章分类

全部博文（599）

移动开发（2）
防火墙（1）
脚本（6）
HADOOP（6）
透明网关（5）
工具（2）
DSI（2）
热点话题讨论（2）
oracle internal（28）
Jonathan Lewis（2）
ASKTOM（12）
OLAP（1）
C/Pro*c/c++（23）
PL/SQL（10）
ORACLE全文索引（5）
DB2（28）
METALINK（27）
AIX（4）
DELPHI（5）
性能优化（19）
分布式数据库管理（1）
书籍笔记（4）
备份与恢复（7）
数据库安装及升级（18）
资料下载（43）
Oracle高可用（32）
Linux（7）
Oracle（244）
未分配的博文（53）

文章存档

2014年（12）

2013年（56）

2012年（199）

2011年（105）

2010年（128）

2009年（99）

我的朋友

相关博文

(内附总结的讨论结果）大DML最佳实践讨论，参与即有机会获赠oracle rac日记一本！

分类： Oracle

2012-05-18 11:00:30

原帖地址：http://www.itpub.net/thread-1606484-1-1.html

需要在一个1亿行的大表中，删除1千万行数据。您有什么好的方案。
需求是在对数据库其他应用影响最小的情况下，以最快的速度完成。操作期间应该注意什么。
如果中途中止了，有无方法再继续。

这种大型操作相信我们偶尔都会遇到，希望大家各抒己见，讨论出一个或几个最佳实践，方便自己以后操作，也方便后来者。

活动时间：
4月26日—5月18日

活动奖励：
活动结束，我们选出讨论最积极的5位会员，赠送oracle rac日记一本

{E5F1F49D-FFB6-4F54-9212-3AFD9AC4DCF8}.jpg

{E5F1F49D-FFB6-4F54-9212-3AFD9AC4DCF8}.jpg

感谢caibird2005、htyansp、xgghxkhuang、张兵1989、xb0307052，书只有5本，只能随机选了。

如果业务无法停止的话，主要有这三种思路：
=======================================================================================================
思路1：根据ROWID分片、再利用Rowid排序、批量处理、回表删除。
      在业务无法停止的时候，选择这种方式，的确是最好的。一般可以控制在每一万行以内提交一次，不会对回滚段造成太大压力（我在做大DML时，通常选
择一两千行一提交）。选择业务低峰时做，对应用也不至于有太大影响。
      感谢htyansp，在49楼提供了一个很简捷的脚本，如果你对这种方式不熟悉，可以参考此脚本：
declare
cursor mycursor is SELECT  ROWID FROM TEST WHERE  XXX=XXXX  order by rowid; <--------按ROWID排序的Cursor，删除条件是XXX=XXXX，根据实际情
况来定。
type rowid_table_type is  table  of rowid index by pls_integer;
v_rowid rowid_table_type;
BEGIN
open mycursor;
loop
   fetch mycursor bulk collect into v_rowid  limit 5000; <--------每次处理5000行，也就是每5000行一提交
   exit when v_rowid.count=0;
   forall i in v_rowid.first..v_rowid.last
      delete from test  where rowid=v_rowid(i);
   commit;
end loop;
close mycursor;
END;
/
      这种方法的缺点是排序有可能会消耗太多临时表空间。还有一种方式，先根据Rowid分片。将一个大表用Rowid划分成多个部分，每部分单独根据Rowid排
序。这种方式的另一个优点就是还可以并行。
      有一次我需要删除DW库一个大表中满足条件的行。应用方保证不会再出现此条件的行，我只需要在几天内，将所有满足条件的行删除完即可。此表所在
的表空间有几十个数据文件（每个文件32G），我用如下的命令生成表在每个文件中行的ROWID范围：
select dbms_rowid.ROWID_CREATE(1,12227,file_id,MIN(BLOCK_ID),0),dbms_rowid.ROWID_CREATE(1,12227,file_id,MAX(BLOCK_ID+BLOCKS-1),8192) from
dba_extents where segment_name='DML_TST' group by file_id order by file_id;
此命令中DATA_OID是dba_objects 中data_object_id列值。
      然后，根据上面得到的ROWID范围操作目标表。其实就是将htyansp的存储过程中第二行，根据生成的ROWID修改如下：
      cursor mycursor is SELECT  ROWID FROM TEST WHERE  rowid between 'ROWID' and  'ROWID' and XXX=XXXX order by rowid;

      存储过程其他行基本不变。
      搞几十个这样的存储过程，开几个会话并行着跑。
      另外，TOM在9i&10G编程艺术 648页到652页有一个很好的例子，其中650页自动生成ROWID部分，可以参考。
      使用这种方式最大的优点就是性能可控，需要快点的话，可以多设几个并行。想慢点的，并行就少点。而且，一次处理的行数有限，对ROWID的排序不会
撑爆临时表空间。
=======================================================================================================
思路二：根据ROWID分片、非批量处理、回表删除
      比如，要删除dml_tst中ID等于Value的行，最基本的存储过程如下：
declare
      CURSOR test2_cs(value number,rid1 rowid,rid2 rowid)
      IS SELECT id from dml_tst
      where id=value and rowid between rid1 and  rid2
      FOR UPDATE ;
      k number:=0;
BEGIN
FOR c1_rec IN test2_cs(3338,'AAAC/DAAEAAAABJAAA','AAAC/DAAEAAAABQCAA') LOOP
         delete dml_tst where CURRENT OF test2_cs;
END LOOP;
END;
/
      这种方式也可以根据ROWID分片，只会对表进行一次扫描。但没有批量处理，性能反而不如上面。
=======================================================================================================
思路三： ON PREBUILT物化视图方法

这种方式，阿里迁移数据的确使用较多，也是一种不错的方式。速度没有方法一快，但比较简单，而且对业务基本上没有影响。另外，对于删除操作，可以释放
删除过的空间。缺点就是需要有主键。
假设目标表是P3，主键列是ID1，要删除ID2列于小1000的行:
步1，建立中间表p3_m：
create table p3_m as select * from p3 where 0=1;
步2，建产和中间表同名的物化视图，一定要有ON PREBUILT选项：
CREATE MATERIALIZED VIEW p3_m
ON PREBUILT TABLE AS
select * from p3 where id2>=1000;  <--------将不满足删除条件的行放入物化视图
步3：添加物化视图日志：
CREATE MATERIALIZED VIEW LOG ON p3 WITH PRIMARY KEY,sequence (id2,id3,cc1,cc2) INCLUDING NEW VALUES;
步4：在数据库空闲的时候，进行一次完全刷新：
exec dbms_mview.refresh('P3_M','C');
完全刷新后，可以在中间表上创建和目标表一样的索引、约束等等
步5：进行个一、两次增量刷新：
exec dbms_mview.refresh('P3_M','F');
步6：将原表锁住，最后进行一次增量刷新，然后马上Rename目标表为其他名字
lock table p3 in EXCLUSIVE mode;
exec dbms_mview.refresh('P3_M','F');
drop MATERIALIZED VIEW LOG ON p3;
alter table p3 rename to p3_n;
步7：删除物化视图，修改中间表为原目标表的名字：
drop MATERIALIZED VIEW p3_m;
alter table p3_m rename to p3;
步8：确定原表如果没有用了，可以删除改过名的原表
也可以使用再线重定义，思路和这个类似。
======================================================================================
      如果不影响应用的话，常规方法也就这些了。这三种思路，也可以用于Update。
      根据这三种思路，我们可以结合自身应用情况加以改变。总能找到一款适合应用的方法。
      注意事项是
      1、注意备份
      2、千万注意不要太猛，曾经有一次同事因为Update的太猛，影响了我们一个重要的前台应用。一定要注意，一次提交的行数不能太高。

      如果应用可以停，哪方法就太多了。
1、CTAS的方法创建一个新表，排除要DELETE的数据，再改名。为提高速度，还可以禁用索引，DML完再重建。
2、只导出不删除的数据，再导入，再改名
3、如果表空间可以设为只读，还有坛友的表空间迁移，迁到测试平台，慢慢删除再导入回来的方法
等等。可以停应用的方法就很多了。

阅读(1543) | 评论(0) | 转发(0) |

上一篇：ORACLE数据文件被删除，相关操作是否还能继续？

下一篇：DUMP 数据块需要注意的问题

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6