JOIN之三种连接方式-qdbarry-ChinaUnix博客

老白的ABAP博客abap.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

qdbarry

博客访问： 7253024
博文数量： 655
博客积分： 10264
博客等级：上将
技术积分： 8278
用户组：普通用户
注册时间： 2007-06-04 17:47

个人简介

ABAP顾问

文章分类

全部博文（655）

SAP ABAP（556）
其他（58）
搞笑（41）
未分配的博文（0）

文章存档

2017年（2）

2014年（8）

2013年（3）

2012年（2）

2011年（18）

2010年（102）

2009年（137）

2008年（274）

2007年（134）

我的朋友

最近访客

推荐博文

JOIN之三种连接方式

分类：

2009-06-05 14:32:46

表连接方式及使用场合

NESTED LOOP

对于被连接的数据子集较小的情况，nested loop连接是个较好的选择。nested loop就是扫描一个表，每读到一条记录，就根据索引去另一个表里面查找，没有索引一般就不会是 nested loops。
一般在nested loop中，驱动表满足条件结果集不大，被驱动表的连接字段要有索引，这样就走nstedloop。如果驱动表返回记录太多，就不适合nested loops了。如果连接字段没有索引，则适合走hash join，因为不需要索引。
可用ordered提示来改变CBO默认的驱动表，可用USE_NL(table_name1 table_name2)提示来强制使用nested loop。

HASH JOIN

hash join是CBO 做大数据集连接时的常用方式。优化器扫描小表（或数据源），利用连接键（也就是根据连接字段计算hash 值）在内存中建立hash表，然后扫描大表，每读到一条记录就来探测hash表一次，找出与hash表匹配的行。
当小表可以全部放入内存中，其成本接近全表扫描两个表的成本之和。如果表很大不能完全放入内存，这时优化器会将它分割成若干不同的分区，不能放入内存的部分就把该分区写入磁盘的临时段，此时要有较大的临时段从而尽量提高I/O 的性能。临时段中的分区都需要换进内存做hash join。这时候成本接近于全表扫描小表+分区数*全表扫描大表的代价和。
至于两个表都进行分区，其好处是可以使用parallel query，就是多个进程同时对不同的分区进行join，然后再合并。但是复杂。
使用hash join时，HASH_AREA_SIZE初始化参数必须足够的大，如果是9i，Oracle建议使用SQL工作区自动管理，设置WORKAREA_SIZE_POLICY 为AUTO，然后调整PGA_AGGREGATE_TARGET即可。
以下条件下hash join可能有优势：
两个巨大的表之间的连接。
在一个巨大的表和一个小表之间的连接。
可用ordered提示来改变CBO默认的驱动表，可用USE_HASH(table_name1 table_name2)提示来强制使用hash join。

SORT MERGE JOIN

sort merge join的操作通常分三步：对连接的每个表做table access full；对table access full的结果进行排序；进行merge join对排序结果进行合并。sort merge join性能开销几乎都在前两步。一般是在没有索引的情况下，9i开始已经很少出现了，因为其排序成本高，大多为hash join替代了。
通常情况下hash join的效果都比sort merge join要好，然而如果行源已经被排过序，在执行sort merge join时不需要再排序了，这时sort merge join的性能会优于hash join。
在全表扫描比索引范围扫描再通过rowid进行表访问更可取的情况下，sort merge join会比nested loops性能更佳。
可用USE_MERGE(table_name1 table_name2)提示强制使用sort merge join。

----分割线----------------------------------------------

表连接的方式 NLJoin, Hash Join, Sort Merge Join

Nest Loop Join

1, 被连接的表较小。
2, 扫描整张表，每扫描一条记录，就去另外一个表中去找，因此如果被找表比较小的话，这个也是一种很好的选择。当然前提是要有索引
3, 驱动表不大，被驱动表要有索引

Hash Join

1, 驱动表不大，在内存中建立连接字段的Hash表，然后再扫描被驱动表，找到匹配的hash值。
2, 被驱动表是没有索引的

Sort Merge Join

1, 连接的2张表进行全表扫描
2, 对扫描的表进行排序Sort
3, 对排序的结果进行合并Merge

很多时候，优化器会根据应用来选择最佳的Join方式。

原文地址：

----分割线----------------------------------------------

浅谈Oracle中的三种Join方法

基本概念

Nested loop join：

Outer table中的每一行与inner table中的相应记录join，类似一个嵌套的循环。

Sort merge join：

将两个表排序，然后再进行join。

Hash join：

将两个表中较小的一个在内存中构造一个Hash 表（对Join Key），扫描另一个表，同样对Join Key进行Hash后探测是否可以join，找出与之匹配的行。

一张小表被hash在内存中。因为数据量小，所以这张小表的大多数数据已经驻入在内存中，剩下的少量数据被放置在临时表空间中；

每读取大表的一条记录，就和小表中内存中的数据进行比较，如果符合，则立即输出数据（也就是说没有读取临时表空间中的小表的数据）。而如果大表的数据与小表中临时表空间的数据相符合，则不直接输出，而是也被存储临时表空间中。

当大表的所有数据都读取完毕，将临时表空间中的数据以其输出。如果小表的数据量足够小（小于hash area size），那所有数据就都在内存中了，可以避免对临时表空间的读写。

如果是并行环境下，前面中的第2步就变成如下了：每读取一条大表的记录，和内存中小表的数据比较，如果符合先做join，而不直接输出，直到整张大表数据读取完毕。如果内存足够，Join好的数据就保存在内存中。否则，就保存在临时表空间中。

适用范围

Nested loop join:

适用于outer table(有的地方叫Master table)的记录集比较少（<10000）而且inner table（有的地方叫Detail table）索引选择性较好的情况下（inner table要有index）。

inner table被outer table驱动，outer table返回的每一行都要在inner table中检索到与之匹配的行。当然也可以用ORDERED 提示来改变CBO默认的驱动表，使用USE_NL(table_name1 table_name2)可是强制CBO 执行嵌套循环连接。

cost = outer access cost + (inner access cost * outer cardinality)

Sort merge join：

用在数据没有索引但是已经排序的情况下。

通常情况下hash join的效果都比Sort merge join要好，然而如果行源已经被排过序，在执行排序合并连接时不需要再排序了，这时Sort merge join的性能会优于hash join。可以使用USE_MERGE(table_name1 table_name2)来强制使用Sort merge join。
cost = (outer access cost * # of hash partitions) + inner access cost

Hash join：

适用于两个表的数据量差别很大。但需要注意的是：如果HASH表太大，无法一次构造在内存中，则分成若干个partition，写入磁盘的temporary segment，则会多一个I/O的代价，会降低效率，此时需要有较大的temporary segment从而尽量提高I/O的性能。

可以用USE_HASH(table_name1 table_name2)提示来强制使用散列连接。如果使用散列连HASH_AREA_SIZE 初始化参数必须足够的大，如果是9i，Oracle建议使用SQL工作区自动管理，设置WORKAREA_SIZE_POLICY 为AUTO，然后调整PGA_AGGREGATE_TARGET 即可。

也可以使用HASH_JOIN_ENABLED=FALSE（默认为TRUE）强制不使用hash join。

cost = (outer access cost * # of hash partitions) + inner access cost

效率比较

Hash join的主要资源消耗在于CPU（在内存中创建临时的hash表，并进行hash计算），而merge join的资源消耗主要在于磁盘I/O（扫描表或索引）。在并行系统中，hash join对CPU的消耗更加明显。所以在CPU紧张时，最好限制使用hash join。

在绝大多数情况下，hash join效率比其他join方式效率更高：

在Sort-Merge Join(SMJ)，两张表的数据都需要先做排序，然后做merge。因此效率相对最差；
Nested-Loop Join(NL)效率比SMJ更高。特别是当驱动表的数据量很大（集的势高）时。这样可以并行扫描内表。
Hash join效率最高，因为只要对两张表扫描一次。

阅读(4359) | 评论(0) | 转发(0) |

上一篇：本年度影帝非发改委官员莫属

下一篇：看热闹

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6