Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4148571
  • 博文数量: 241
  • 博客积分: 15936
  • 博客等级: 上将
  • 技术积分: 25293
  • 用 户 组: 普通用户
  • 注册时间: 2007-03-27 11:22
个人简介

Fedora-ARM

文章分类
文章存档

2016年(3)

2014年(1)

2013年(3)

2012年(50)

2011年(61)

2010年(26)

2009年(27)

2008年(21)

2007年(49)

分类: LINUX

2012-07-03 22:23:24

    前段时间重新研究了一下Linux的并发控制机制,对于内核的自旋锁、互斥锁、信号量等机制及其变体做了底层代码上的研究。因为只有从原理上理解了这些机制,在编写驱动的时候才会记得应该注意什么。这些机制基本都从代码上理解了,但是唯有一个不是非常理解的是内核对于ARM构架中原子变量的底层支持,这个机制其实在自旋锁、互斥锁以及读写锁等内核机制中都有类似的使用。这里将学习的结果写出,请大家指正。

    假设原子变量的底层实现是由一个汇编指令实现的,这个原子性必然有保障。但是如果原子变量的实现是由多条指令组合而成的,那么对于SMP和中断的介入会不会有什么影响呢?我在看ARM的原子变量操作实现的时候,发现其是由多条汇编指令(ldrex/strex)实现的。在参考了别的书籍和资料后,发现大部分书中对这两条指令的描诉都是说他们是支持在SMP系统中实现多核共享内存的互斥访问。但在UP系统中使用,如果ldrex/strex和之间发生了中断,并在中断中也用ldrex/strex操作了同一个原子变量会不会有问题呢?就这个问题,我认真看了一下内核的ARM原子变量源码和ARM官方对于ldrex/strex的功能解释,总结如下:

 

一、ARM构架的原子变量实现结构

    对于ARM构架的原子变量实现源码位于:arch/arm/include/asm/atomic.h

    其主要的实现代码分为ARMv6以上(含v6)构架的实现和ARMv6版本以下的实现。

该文件的主要结构如下:

  1. #if __LINUX_ARM_ARCH__ >= 6

  2. ......(通过ldrex/strex指令的汇编实现)

  3. #else /* ARM_ARCH_6 */

  4. #ifdef CONFIG_SMP
  5. #error SMP not supported on pre-ARMv6 CPUs
  6. #endif

  7. ......(通过关闭CPU中断的C语言实现)

  8. #endif /* __LINUX_ARM_ARCH__ */
  9. ...... 

  10.  #ifndef CONFIG_GENERIC_ATOMIC64

  11. ......(通过ldrexd/strexd指令的汇编实现的64bit原子变量的访问)

  12. #else /* !CONFIG_GENERIC_ATOMIC64 */

  13. #include <asm-generic/atomic64.h>

  14. #endif

  15. #include <asm-generic/atomic-long.h>

      这样的安排是依据ARM核心指令集版本的实现来做的:

1)在ARMv6以上(含v6)构架有了多核的CPU,为了在多核之间同步数据和控制并发,ARM在内存访问上增加了独占监测(Exclusive monitors)机制(一种简单的状态机),并增加了相关的ldrex/strex指令。请先阅读以下参考资料(关键在于理解local monitorGlobal monitor):

2)对于ARMv6以前的构架不可能有多核CPU,所以对于变量的原子访问只需要关闭本CPU中断即可保证原子性。 

对于(2),非常好理解。

但是(1)情况,我还是要通过源码的分析才认同这种代码,以下我仅仅分析最具有代表性的atomic_add源码,其他的API原理都一样。如果读者还不熟悉C内嵌汇编的格式,请参考ARM GCC 内嵌汇编手册》

 

二、内核对于ARM构架的atomic_add源码分析


  1. /*
  2. * ARMv6 UP 和 SMP 安全原子操作。 我们是用独占载入和
  3. * 独占存储来保证这些操作的原子性。我们可能会通过循环
  4. * 来保证成功更新变量。
  5. */

  6. static inline void atomic_add(int i, atomic_t *v)
  7. {
  8. unsigned long tmp;
  9. int result;
  10. __asm__ __volatile__("@ atomic_add\n"
  11. "1: ldrex %0, [%3]\n"
  12. " add %0, %0, %4\n"
  13. " strex %1, %0, [%3]\n"
  14. " teq %1, #0\n"
  15. " bne 1b"
  16. : "=&r" (result), "=&r" (tmp), "+Qo" (v->counter)
  17. : "r" (&v->counter), "Ir" (i)
  18. : "cc");
  19. }

源码分析: 

注意:根据内联汇编的语法,resulttmp&v->counter对应的数据都放在了寄存器中操作。如果出现上下文切换,切换机制会做寄存器上下文保护。

 1ldrex %0, [%3]

意思是将&v->counter指向的数据放入result中,并且(分别在Local monitorGlobal monitor中)设置独占标志。

2add %0, %0, %4

result = result + i

3strex %1, %0, [%3]

意思是将result保存到&v->counter指向的内存中,此时 Exclusive monitors会发挥作用,将保存是否成功的标志放入tmp中。

4 teq %1, #0

测试strex是否成功(tmp == 0 ??)

5bne 1b

如果发现strex失败,从(1)再次执行。

      通过上面的分析,可知关键在于strex的操作是否成功的判断上。而这个就归功于ARMExclusive monitorsldrex/strex指令的机制。以下通过可能的情况分析ldrex/strex指令机制。(请阅读时参考

 

1UP系统或SMP系统中变量为非CPU间共享访问的情况 

    此情况下,仅有一个CPU可能访问变量,此时仅有Local monitor需要关注。

    假设CPU执行到(2)的时候,来了一个中断,并在中断里使用ldrex/strex操作了同一个原子变量。则情况如下图所示:

  • A:处理器标记一个物理地址,但访问尚未完毕
  • B:再次标记此物理地址访问尚未完毕(与A重复)
  • C:进行存储操作,清除以上标记,返回0(操作成功)
  • D:不会进行存储操作,并返回1(操作失败) 

也就是说,中断例程里的操作会成功,被中断的操作会失败重试。 

 

2SMP系统中变量为CPU间共享访问的情况

  

    此情况下,需要两个CPU间的互斥访问,此时ldrex/strex指令会同时关注Local monitorGlobal monitor

i)两个CPU同时访问同个原子变量(ldrex/strex指令会关注Global monitor。)

  • A:将该物理地址标记为CPU0独占访问,并清除CPU0对其他任何物理地址的任何独占访问标记。
  • B:标记此物理地址为CPU1独占访问,并清除CPU1对其他任何物理地址的任何独占访问标记。
  • C:没有标记为CPU0独占访问,不会进行存储,并返回1(操作失败)。
  • D:已被标记为CPU1独占访问,进行存储并清除独占访问标记,并返回0(操作成功)。

 也就是说,后执行ldrex操作的CPU会成功。

 

ii)同一个CPU因为中断,“嵌套”访问同个原子变量(ldrex/strex指令会关注Local monito

  • A:将该物理地址标记为CPU0独占访问,并清除CPU0对其他任何物理地址的任何独占访问标记。
  • B:再次标记此物理地址为CPU0独占访问,并清除CPU0对其他任何物理地址的任何独占访问标记。
  • C:已被标记为CPU0独占访问,进行存储并清除独占访问标记,并返回0(操作成功)。
  • D:没有标记为CPU0独占访问,不会进行存储,并返回1(操作失败)。

也就是说,中断例程里的操作会成功,被中断的操作会失败重试。

 

iii)两个CPU同时访问同个原子变量,并同时有CPU因中断“嵌套”访问改原子变量(ldrex/strex指令会同时关注Local monitorGlobal monitor

虽然对于人来说,这种情况比较BT。但是在飞速运行的CPU来说,BT的事情随时都可能发生。

  • A:将该物理地址标记为CPU0独占访问,并清除CPU0对其他任何物理地址的任何独占访问标记。
  • B:标记此物理地址为CPU1独占访问,并清除CPU1对其他任何物理地址的任何独占访问标记。
  • C:再次标记此物理地址为CPU0独占访问,并清除CPU0对其他任何物理地址的任何独占访问标记。
  • D:已被标记为CPU0独占访问,进行存储并清除独占访问标记,并返回0(操作成功)。
  • E:没有标记为CPU1独占访问,不会进行存储,并返回1(操作失败)。
  • F:没有标记为CPU0独占访问,不会进行存储,并返回1(操作失败)。

 

    当然还有其他许多复杂的可能,也可以通过ldrex/strex指令的机制分析出来。从上面列举的分析中,我们可以看出:ldrex/strex可以保证在任何情况下(包括被中断)的访问原子性。所以内核中ARM构架中的原子操作是可以信任的。

阅读(23181) | 评论(11) | 转发(44) |
给主人留下些什么吧!~~

blake3262015-08-13 10:56:18

qujiemin:你好,最近在学习ARM的exclusive access,觉得理解跟楼主有点差异。
以“2、SMP系统中变量为CPU间共享访问的情况”中i小节中的图分析,个人理解应该是C首先store成功,D会失败,即跟ldrex先后顺序无关,而是看谁先strex。过程分析(这里主要关注Global monitor):
A:在Global monitor中为CPU0标记该地址独占访问。
B:在Global monitor中为CPU1标记该地址独占访问(Global monitor中为各core维护独立的state,所以本操作不会影响CPU0在Global monitor中的状态)。
C:在A步骤中标记了CPU0的独占访问,所以这里存储strex成功,返回0,并修改Global monitor中CPU1的状态为open。
D:Global monitor中CPU1的独占访问state已经在C步骤中被clear掉了,所以这里存储strex会失败。
以上分析参考ARM的手册原文:
 The following events reset the global monitor en

我的理解一样,应该是louzhu理解错了。不过整个文章写的不错。

回复 | 举报

xzouserious2015-07-30 14:27:53

请问如何用ldrexd/strexd实现64位的原子操作呢?想了半天没有写出来啊

qujiemin2015-05-13 11:50:38

你好,最近在学习ARM的exclusive access,觉得理解跟楼主有点差异。
以“2、SMP系统中变量为CPU间共享访问的情况”中i小节中的图分析,个人理解应该是C首先store成功,D会失败,即跟ldrex先后顺序无关,而是看谁先strex。过程分析(这里主要关注Global monitor):
A:在Global monitor中为CPU0标记该地址独占访问。
B:在Global monitor中为CPU1标记该地址独占访问(Global monitor中为各core维护独立的state,所以本操作不会影响CPU0在Global monitor中的状态)。
C:在A步骤中标记了CPU0的独占访问,所以这里存储strex成功,返回0,并修改Global monitor中CPU1的状态为open。
D:Global monitor中CPU1的独占访问state已经在C步骤中被clear掉了,所以这里存储strex会失败。
以上分析参考ARM的手册原文:
 The following events reset the global monitor en

puppypyb2015-04-24 09:06:09

你好,拜读完了,有点疑问!
根据你文中给的Exclusive monitors的资料链接:

“This means a Store-Exclusive to a Shareable location might succeed even if the preceding Load-Exclusive was from a completely different location. For this reason, portable code must not make assumptions about exclusive accesses performing address checking.”
感觉意思是说UP环境下,两个不同的原子变量A、B会共享local monitors,例如:先对A ldrex,这时候切换进程,再对B ldrex、strex,

kutengshe2014-04-23 22:51:28

学习到很多,谢谢