oracle latch-hot815-ChinaUnix博客

hot815的ChinaUnix博客hot815.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

hot815

博客访问： 854919
博文数量： 105
博客积分： 636
博客等级：中士
技术积分： 1704
用户组：普通用户
注册时间： 2012-08-11 10:57

文章分类

全部博文（105）

网络（1）
php（1）
python（4）
nagios（4）
apache（3）
mysql（5）
tomcat（0）
sap（1）
perl（1）
日记（17）
other（5）
oracle（33）
linux（19）
aix（10）
未分配的博文（1）

文章存档

2017年（4）

2016年（9）

2015年（18）

2014年（16）

2013年（34）

2012年（24）

我的朋友

相关博文

oracle latch

分类： Oracle

2012-11-05 14:51:50

这是在网上看到的一篇文章，感觉这个知识点挺重要的，特地分享出来。

Oracle数据库使用闩锁来内存的分配和释放。假设，某个用户进程（假设其为A）发出一条update语句，要去更新58号数据块里的某条记录。则该用户进程对应的进程在写内存的时候，找到58号数据块，并往里写内容。A在写58号数据块的过程中，这时，另一个用户进程B发出insert语句，要将某个新的记录插入到58号数据块里。如果没有一定的保护机制，A正要写入的空间可能会被B抢先写入，或者相反，B正要写入的空间也可能会被A抢先写入。不管哪个用户先抢先写入，造成的结果就是，58号数据块里的数据都混乱了，因为这时，A和B之间的数据互相交织在一起了。

因此，必须使用latch对此进行保护。简单来说，任何进程要写数据块时，都必须先获得latch，在写入过程中，一直持有该latch，写完以后，释放该latch。对于上面的例子来说，当A在写入58号数据块时，先获得latch，然后开始写。而当A正在写入的过程中，B也要写58号数据块。这时B在尝试获得latch时，发现该latch正被其他用户（也就是A）持有，因此B进入等待状态。直到A写完数据块并释放latch以后，B才能获得latch，获得latch以后，才能在58号数据块里写入数据。

这里只是以写数据块为例来说明为何要使用latch。而事实上，latch不仅仅用于写数据块，比如对于shared pool来说，其内存单位就不是数据块了。latch也不仅仅用于写操作，只要涉及内存地址的读和写，都需要通过获得latch来实现串行化，一次只能有一个服务器进程在读或者写内存地址。

Oracle在实例管理中，不管是buffer cache、shared pool还是log buffer，都引入了各种各样的latch。

实现latch时，实际是由操作系统的旗语（semaphore：也叫信号量）来完成的。为了便于理解，可以把它们想象为，通过某个变量值的变化而实现的。变量值为0则说明latch当前没有被其他进程获取，否则如果为非0值，则说明它已经被其他进程所获取了。Oracle在设计latch的时候将其定义为轻量级锁，因此它的操作非常快，以微秒（microsecond，也就是百万分之一秒）来计算。

latch分为两种类型：

愿意等待（Willing-To-Wait）

大部分的latch都属于这种类型。这种类型的latch都是通过Test-And-Set的方式来实现的。也就是说，如果当前进程不能获得latch的时候，会绕着CPU旋转，而不放弃CPU。这也就是所谓的SPIN CPU，实际就是执行一段空循环，类似执行下面一段代码（其中的N由Oracle内部来控制）：

loop
exit when i>= N
i := i+1;
null;
end loop;

进程之所以不释放CPU而是绕着CPU旋转，是由于latch操作本身是一个很快速的动作，因此可能等一会就能获得latch了。当进程一旦获得CPU，但是获得不了latch时，如果这时候立刻放弃CPU，那么需要进行上下文切换，下次再次尝试获得latch时，又要进行上下文切换，可能反而要消耗更多的时间。因此，进程在不能获得latch的时候，会执行上面这段代码，绕着CPU转一会，然后再次尝试获得latch，如果仍然不能获得，则再次旋转CPU。当反复旋转CPU并尝试获得latch的的次数超过某个上限（该上限由隐藏参数控制）时，这时进程会释放CPU，并进入睡眠（Sleep）状态。进程一旦进入睡眠状态，则会抛出一个对应的等待事件，并记录在视图v$session_wait里，说明当前该进程正在等待的latch的类型等信息。初始状态下，一个进程会睡眠0.01秒。然后醒过来，并再次尝试获得latch。如果旋转CPU的次数达到上限以后，仍然不能获得latch，则再次进入睡眠，这时会睡眠两倍的时间，依此类推，直到达到睡眠的最大值：0.2秒。

这是在服务器具有多个CPU时的情形，如果只有一个CPU，就不存在旋转CPU的情况，一旦获得不了latch，就进入睡眠。

总的来说，当进程尝试获取Willing-To-Wait类型的latch时，如果失败，则进程会一直尝试对latch的获取，不断循环，直到获得latch为止，或者是达到所指定的上限值为止。当达到上限值时，进程进入睡眠。

不等待（No-Wait）

这种类型的latch比较少，对于这种类型的latch来说，都会有很多个可用的latch。当一个进程请求其中的一个latch时，会以no-wait模式开始请求。如果所请求的latch不可用，则进程不会等待，而是立刻请求另外一个latch。只有当所有的latch都不能获得时，才会进入等待。

从另外一个角度来说，latch分为单个latch（Solitary latch，比如shared pool latch以及redo allocation latch等）和latch组（比如library cache latch、cache buffers lru chain latch以及cache buffers chains latch等）。latch组包括父latch和子latch。单个latch和父latch都是定义在数据库代码里的，而且都是静态分配的。对于每种类型的latch，只有一个父latch。而子latch则根据参数或默认值而动态设定，而且子latch的访问独立于父latch。通常来说，父latch只用于汇总显示报表的目的。
"fg{+_Y jIY0如果latch资源被争用，通常都会表现为CPU资源使用过高。而反过来说，如果我们发现CPU资源很紧张，利用率总是在90%以上，甚至总是在100%，其主要原因有以下几点。

语句没有使用绑定变量。如果没有使用绑定变量，或者书写SQL时随意性过大，比如大小写混用等。则Oracle对每一条SQL语句都要进行解析，也就是要非常频繁地读写shared pool里的内存块，从而导致与解析SQL相关的latch争用。

执行SQL语句时，扫描的数据块过多，或者说SQL语句写的比较低效，导致要扫描很多的数据块才能返回所要的记录。因为在查找、扫描数据块的过程中，进程也要获得latch，直到找到数据块为止。

为何一旦latch资源发生争用，就会导致CPU繁忙呢？可以想象一下，假设某个进程（A）执行一条SQL语句需要访问10000个数据块，那么该进程在扫描数据块的过程中，一直持有latch。而另一个进程B也要执行SQL，但是由于A持有了latch，导致B无法获得，于是旋转一会CPU，再去获得latch，直到进入睡眠才释放CPU。接下来C进程也要执行SQL，同样的，由于A持有了latch，导致C无法获得，于是也旋转一会CPU，再去获得latch，直到进入睡眠才释放CPU。如果类似B和C的进程很多的话，那我们会发现，CPU总是在被旋转，也就是在做空的循环，而无法做其他的事情。因此，体现出CPU的使用率过高。

要解决latch的争用，关键在于共享SQL语句（比如使用绑定变量、规范SQL的书写等）以及优化SQL语句，使其搜索以及扫描的数据块的个数下降到最低。

阅读(732) | 评论(0) | 转发(0) |

上一篇：v$session_longops

下一篇：oracle 诊断事件

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6