如何提高加锁代码的性能-chenmeng11-ChinaUnix博客

沉梦chenmeng.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

chenmeng11

博客访问： 1841528
博文数量： 272
博客积分： 1272
博客等级：少尉
技术积分： 1866
用户组：普通用户
注册时间： 2011-03-09 15:51

文章分类

全部博文（272）

python（1）
数据结构和算法（2）
加密解密（2）
不务正业（2）
编译（10）
嵌入式理论（3）
Linux内核（29）
STL（0）
windows（38）
虚拟机（0）
linux（53）

通信（7）

netfilter（12）

shell（5）
web（14）
杂记（9）
串口（19）
网络（26）

ip（3）
vxworks（20）
批处理（10）
开发板驱动（14）
笔试面试（8）
未分配的博文（12）

文章存档

2016年（16）

2015年（28）

2014年（97）

2013年（59）

2012年（25）

2011年（47）

我的朋友

相关博文

如何提高加锁代码的性能

分类： LINUX

2013-06-07 17:13:02

    在多核并发的编程中，我们经常要用锁来解决同步和互斥的问题，避免由于多个线程对变量、资源或代码的抢占而引起的各种问题，提高代码执行的正确性和稳定性。我想和大家在这里一起探讨一下：如果你的代码遇到要加锁的情况，可以用哪些办法来提高代码的性能。我将总结出几条结论，可以运用于平时的编程。
    最后，作为抛砖引玉，我将向大家展示在一个既解决同步互斥问题，又显著提高并行执行效率的实际设计案例（乍看上去，这个案例明显违反了编程规范）。
    多核系统中比较常用的锁包括了读写锁和自旋锁。那么哪些因素决定了加锁代码的执行效率呢？
    首先我们都知道，如果一个线程“锁”住了一段资源或代码，而其他线程也要执行这段资源或代码，那么这些线程就要等待，因此锁的冲突概率对锁的性能影响很大。其次，如果一个线程“锁”代码的时间很长，那么其他线程可能等待的时间就会变长，因此加解锁之间代码的执行时间也影响了锁的性能。
    因此，我们得出结论：加锁代码的性能取决于两点：
    1、锁的冲突概率；
    2、加解锁之间代码的执行时间。
    既然加锁代码的性能的决定要素是冲突概率和执行时间，那么我们要想提高加锁代码的性能，着眼点就是在保证功能正确和稳定性的基础上考虑两点：
    1、降低锁的冲突概率；
    2、减少加解锁之间代码的执行时间。
降低锁的冲突概率
    为了降低锁的冲突概率，我们可以考虑以下几个办法：
    1、考虑能否不用锁；
    2、自旋锁改读写锁；
    3、大锁变小锁。
依次举例说明。
    1、考虑不用锁。
    大家可以考虑这样一种情形，多个线程共用同一个内存g_stDomain处理报文，此时必须加锁。
    RawSpinLock;
    MemCpy(g_stDomain , …);
    RawSpinUnlock;
    如果考虑给每个线程分配一个内存，就不需要锁了。
    可以定义 g_stDomain[ MAX_CUPS_NR] 可以这样编码：
    ulCpuIndex = GetGlobalThreadID();
    MemCpy(g_stDomain[ulCpuIndex], …);
    每个线程都有自己的内存，不用加锁，也就不会有冲突了。
    2、自旋锁改读写锁。
    这点比较好理解，常见的情形是在数据平面读配置，偶尔控制平面会写配置。在这种情形下，读数据占了绝大多数情况，由于读锁和读锁之间并不互斥，因此在采用读写锁避免了绝大多数的冲突。
    3、大锁变小锁。
    这种方法适用最多的情形是操作链表。
(1)其中一种情形是对Hash链表操作。
    HLIST_HEAD_S *pstIpHlistHead = DataGlobalMalloc(HASHNUM*sizeof(HLIST_HEAD_S)...);
    如果定义RAW_RWLOCK_S stRwLock;
    保护这个HASH链表的插入删除操作，会引起大量的冲突。假设有N次操作，那么冲突次数是N。
    可以改进一下，定义RAW_RWLOCK_S stRwLock[HASHNUM]，考虑到HASH链表头是固定的，每个锁保护每个HASH链表的子链表，会大大减小冲突概率。假设有N次操作，那么冲突概率只有(N/ HASHNUM)。
    （2）另外一种情形是对链表和节点的操作，假设一个单链表需要保护插入删除节点的操作，每个节点也可能会修改。
    定义节点数据结构：
struct stNode; { 。。。。。。 ULONG ulValue; LIST_HEAD_S stListNode; };
    定义链表： LIST_HEAD_S g_stListHead; 如果定义一个锁管理保护链表操作和节点的修改，冲突会非常多。
    SPINLOCK_S g_stLock;
    SpinLock(&g_stLock);
    ListDel(pstNode-> stListNode);
    pstNode->ulValue = 1;
    SpinUnlock(&g_stLock);
    假设分别有N次删除节点操作和M个节点各修改1次内容的操作，那么冲突就有N+M次。
    这时可以定义两个锁，一个专门操作链表，一个专门操作节点内容修改。
    struct stNode; { 。。。。。。 ULONG ulValue; LIST_HEAD_S stListNode; SPINLOCK_S stNodeLock; };
    SPINLOCK_S g_stListLock;
    SpinLock(&g_stListLock);
    SpinLock(&pstNode->stNodeLock);
    ListDel(pstNode-> stListNode);
    pstNode->ulValue = 1;
    SpinUnlock(&g_stListLock);
    SpinUnlock(&pstNode-> stNodeLock);
    修改后，假设分别有N次删除节点操作和M个节点各修改1次内容的操作，那么g_stListLock的冲突只有N次，而每个节点的stNodeLock冲突只有1次。在对链表和节点修改频繁的情况下，降低了线程等待的概率。
减少加解锁之间代码的执行时间
    为了减少加解锁之间代码的执行时间，我们可以考虑以下几个办法：
    1、将锁变为原子变量；
    2、尽量减少加减锁之间的代码操作。
依次举例说明。
    1、将锁变为原子变量。
    如果你要保护的数据结构中只有一个变量可能会有冲突，那么修改为原子变量是更好的选择。继续考虑上文“大锁变小锁”中第二种情形。
数据结构stNode中实际上只有一个ulValue的修改会有冲突，那么修改为原子变量，可以进一步减少执行时间，编码也更简单。
struct stNode; struct stNode; { { 。。。。。。。。。。。。 ULONG ulValue; ——》 ATOMIC_S atValue;
LIST_HEAD_S stListNode; LIST_HEAD_S stListNode; SPINLOCK_S stNodeLock; }; };
    2、尽量减少加减锁之间的代码操作。
我们可以考虑定时器的处理。定时器也操作了一个链表，定义了g_stTimerLock来保护链表的操作。
    添加定时器时： SpinLock(&g_stTimerLock); ListAdd； SpinUnlock(&g_stTimerLock);
    而在删除定时器时,在锁之间只操作了ListDel，没有对超时处理进行具体的操作。 SpinLock(&g_stTimerLock); ListDel； SpinUnlock(&g_stTimerLock); 处理Timerout;
——————————不放在锁之间处理，减少锁的执行时间，提高性能。
总结
    1、加锁代码的性能取决于两点：1、锁的冲突概率；2、加解锁之间代码的执行时间。
    2、提高锁的性能可以考虑以下几个办法：
（1）考虑不用锁，典型情况是给每个CPU分配内存；
（2）自旋锁改读写锁，典型情况是数据平面读配置，控制平面偶尔改配置；
（3）大锁变小锁，典型情况是对链表的操作；
（4）将锁变为原子变量，典型情况是保护数据只是几个ULONG；
（5）尽量减少加减锁之间的代码操作。
案例
    抗攻击需要统计攻击报文的具体流量（单位是字节），具体方式是对抗攻击丢弃的每个报文计数并统计类型。定时器定时一段时间（比如10秒）采集一次数据，上报数据平面。在这个需求中，考虑到数据量大，在攻击情形下几乎所有报文都要统计，可能造成很大的冲突，影响性能，而且还要考虑数据越界的情况。第一次设计的数据结构如下：
typedef struct ANTIATTACK_Statis_st {
    ULLONG ullAntiAttackOctet [STATIS_TYPENUM];
    RAW_RWLOCK_S stStatisRwLock [STATIS_TYPENUM];
}ANTIATTACK_STATIS_S;
    这种数据结构的设计方式下，假设有N个udpflood攻击报文，冲突的概率是N。在100万pps的攻击测试下，性能下降接近30%，这个性能值无法接受。考虑上述结论中的第（1）和第（4）个办法，将锁变为原子变量，并给每个CPU分配内存。
重新设计数据结构如下： typedef struct ANTIATTACK_Statis_st {
    ATOMIC_S atAntiAttackOctet [ MAX_CUPS_NR] [STATIS_TYPENUM];
}ANTIATTACK_STATIS_S;
此时，假设有N个udpflood攻击报文，冲突的概率是N/ MAX_CUPS_NR。在100万pps的攻击测试下，性能下降大约8%左右，有了很大的提高，但是可能有数据越界的风险。还有没有办法继续改进？我注意到在统计过程中，绝大多数是写操作，但是可以通过给每个CPU分配内存的方式避免；但是由于定时器和每个数据平面CPU不在一起，读操作（虽然非常少）还是可能会有冲突。要是可以让数据平面写数据的时候不冲突，只在读数据的时候上锁就最好了。重新设计数据结构：
typedef struct ANTIATTACK_Statis_st {
    ULLONG ullAntiAttackOctet [ MAX_CUPS_NR] [STATIS_TYPENUM];
    RAW_RWLOCK_S stStatisRwLock [ MAX_CUPS_NR] [STATIS_TYPENUM];
}ANTIATTACK_STATIS_S;
     重新设计后的数据结构，由于给每个CPU分配了内存，读锁可以并行操作，因此数据平面写数据没有冲突；而只有定时器读数据时用了写锁，此时数据被保护，不会出错。不论用哪种类型的攻击报文，冲突的概率都趋近于零。在100万pps的攻击测试下，性能下降幅度不到1%。在这个案例中，数据结构的设计改造看上去违反了编程规范（读用写锁，写用读锁），灵活运用读写锁和给每个数据平面分配内存的方式避免冲突，既保证了正确性，又达到了性能优化的目的。

阅读(3516) | 评论(0) | 转发(0) |

上一篇：VxWorks任务间使用消息队列通信

下一篇：a href=#与 a href=javascript:void(0) 的区别

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6