基于SSE指令集的程序设计-CUKdd-ChinaUnix博客

cukddcukdd.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

CUKdd

博客访问： 913956
博文数量： 73
博客积分： 2689
博客等级：少校
技术积分： 897
用户组：普通用户
注册时间： 2010-10-07 19:39

个人简介

一个有目标，为自己的未来努力奋斗的人

文章分类

全部博文（73）

学习?生活?创业（2）
Web前端（2）
数据库（2）
PHP（3）
WebServer（1）
分布式存储（5）
高并发网络编程（4）
云计算（4）
软件分析（9）
算法设计（9）
招聘笔试题（1）
编程语言（6）
Linux内核篇（4）
Linux系统应用篇（7）
Tools（5）
软件破解（0）
性能优化（9）
未分配的博文（0）

文章存档

2015年（9）

2014年（2）

2013年（6）

2012年（11）

2011年（33）

2010年（12）

我的朋友

相关博文

基于SSE指令集的程序设计

分类： C/C++

2010-10-16 23:43:24

SSE和SSE2的指令系统非常相似，SSE2比SSE多的仅是少量的额外浮点处理功能、64位浮点数运算支持和64位整数运算支持。

SSE为什么会比传统的浮点运算更快呢？因为它使用了128位的存储单元，这对于32位的浮点数来讲，是可以存下4个的，也就是说，SSE中的所有计算都是一次性针对4个浮点数来完成的。

虽然SSE从理论上来讲要比传统的浮点运算会快，但是所受的限制也很多，首先，虽然它执行一次相当于四次，会比传统的浮点运算执行4次的速度要快，但是它执行一次的速度却并没有想象中的那么快，所以要体现SSE的速度，必须有Stream做前提，就是大量的流数据，这样才能发挥SIMD的强大作用。其次，SSE支持的数据类型是4个32位（共计128位）浮点数集合，就是C、C++语言中的float[4]，并且必须是以16位字节边界对齐的。因此这也给输入和输出带来了不少的麻烦，实际上主要影响SSE发挥性能的就是不停地对数据进行复制以适用应它的数据格式。

如果你是一个C++程序员，对汇编并不很熟，但又想用SSE来优化程序，该怎么做呢？幸好VC++为我们提供了很方便的指令C函数级的封装和C格式数据类型，我们只需像平时写C++代码一样定义变量、调用函数就可以很好地应用SSE指令了。

当然了，我们需要包含一个头文件，这里面包括了我们需要的数据类型和函数的声明：

#include

SSE运算的标准数据类型只有一个，就是：__m128，它是这样定义的：

typedef struct __declspec(intrin_type) __declspec(align(16)) __m128

{

float m128_f32[4];

} __m128;

简化一下，就是：

struct __m128

{

float m128_f32[4];

};

比如要定义一个__m128变量，并为它赋四个float整数，可以这样写：

__m128 S1 = { 1.0f, 2.0f, 3,0f, 4,0f };

要改变其中第2个（基数为0）元素时可以这样写：

S1.m128_f32[2] = 6.0f;

令外我们还会用到几个赋值的指令，它可以让我们更方便的使用这个数据结构：

S1 = _mm_set_ps1( 2.0f );

它会让S1.m128_f32中的四个元素全部赋予2.0f，这样会比你一个一个赋值要快的多。

S1 = _mm_setzero_ps();

这会让S1中的所有4个浮点数都置零。

还有一些其它的赋值指令，但执行起来还没有自己逐个赋值来的快，只作为一些特殊用途，如果想了解更多的信息，可以参考MSDN -> Visual Studio -> Reference -> C/C++Language -> Compiler Intrinsics -> MMX, SSE, and SSE2 Intrinsics -> Stream SIMD Extensions(SSE)章节。

一般来讲，所有SSE指令函数都有3个部分组成，中间用下划线隔开：

_mm_set_ps1

mm表示多媒体扩展指令集

set表示此函数的含义缩写

ps1表示该函数对结果变量的影响，由两个字母组成，第一个字母表示对结果变量的影响方式，p表示把结果作为指向一组数据的指针，每一个元素都将参与运算，S表示只将结果变量中的第一个元素参与运算；第二个字母表示参与运算的数据类型。s表示32位浮点数，d表示64位浮点数，i32表示32位定点数，i64表示64位定点数。

接下来举一个例子来说明SSE的指令函数是如何使用的，必须要说明的是我以下的代码都是在VC7.1的平台上写的，不保证对其它如Dev-C++、Borland C++等开发平台的完全兼容。

为了方便对比速度，会用常规方法和SSE优化两种写法写出，并会用一个测试速度的类CTimer来进行计时。

这个算法是对一组float值进行放大，函数ScaleValue1是使用SSE指令优化的，函数ScaleValue2则没有。我们用10000个元素的float数组数据来测试这两个算法，每个算法运算10000遍，下面是测试程序和结果：

#include

class CTimer

{

public:

__forceinline CTimer( void )

{

QueryPerformanceFrequency( &m_Frequency );

QueryPerformanceCounter( &m_StartCount );

}

__forceinline void Reset( void )

{

QueryPerformanceCounter( &m_StartCount );

}

__forceinline double End( void )

{

static __int64 nCurCount;

QueryPerformanceCounter( (PLARGE_INTEGER)&nCurCount );

return double( nCurCount * ( *(__int64*)&m_StartCount ) ) / double( *(__int64*)&m_Frequency );

}

private:

LARGE_INTEGER m_Frequency;

LARGE_INTEGER m_StartCount;

};

void ScaleValue1( float *pArray, DWORD dwCount, float fScale )

{

DWORD dwGroupCount = dwCount / 4;

__m128 e_Scale = _mm_set_ps1( fScale );

for ( DWORD i = 0; i < dwGroupCount; i++ )

{

*(__m128*)( pArray + i * 4 ) = _mm_mul_ps( *(__m128*)( pArray + i * 4 ), e_Scale );

}

void ScaleValue2( float *pArray, DWORD dwCount, float fScale )

{

for ( DWORD i = 0; i < dwCount; i++ )

{

pArray[i] *= fScale;

}

#define ARRAYCOUNT 10000

int __cdecl main()

{

float __declspec(align(16)) Array[ARRAYCOUNT];

memset( Array, 0, sizeof(float) * ARRAYCOUNT );

CTimer t;

double dTime;

t.Reset();

for ( int i = 0; i < 100000; i++ )

{

ScaleValue1( Array, ARRAYCOUNT, 1000.0f );

}

dTime = t.End();

cout << "Use SSE：" << dTime << "秒" << endl;

t.Reset();

for ( int i = 0; i < 100000; i++ )

{

ScaleValue2( Array, ARRAYCOUNT, 1000.0f );

}

dTime = t.End();

cout << "Not Use SSE：" << dTime << "秒" << endl;

system( "pause" );

return 0;

}

Use SSE：0.997817

Not Use SSE：2.84963

这里要注意一下，此处使用了__declspec(align(16))作为数组定义的修释符，这表示该数组是以16字节为边界对齐的，因为SSE指令只能支持这种格式的内存数据。

SSE
- CVTSI2SS – 把一个64位的有符号整型转换为一个浮点值，并把它插入到一个128位的参数中。内部指令：_mm_cvtsi64_ss
- CVTSS2SI – 取出一个32位的浮点值，并取整（四舍五入）为一个64位的整型。内部指令：_mm_cvtss_si64
- CVTTSS2SI – 取出一个32位的浮点值，并截断为一个64位的整型。内部指令：_mm_cvttss_si64
SSE2
- CVTSD2SI – 取出最低位的64位浮点值，并取整为一个整型。内部指令：_mm_cvtsd_si64
- CVTSI2SD – 取出最低位的64位整型，并将其转换为一个浮点值。内部指令：_mm_cvtsi64_sd
- CVTTSD2SI – 取出一个64位的浮点值，并截断为一个64位的整型。内部指令：_mm_cvttsd_si64
- MOVNTI – 写64位数据到特定内存位置。内部指令：_mm_stream_si64
- MOVQ – 移动一个64位的整型到一个128位的参数中，或从128位的参数中移动一个64位的整型。内部指令：_mm_cvtsi64_si128、_mm_cvtsi128_si64
SSSE3
- PABSB / PABSW / PABSD – 取有符号整型的绝对值。内部指令：_mm_abs_epi8、_mm_abs_epi16、_mm_abs_epi32、_mm_abs_pi8、_mm_abs_pi16、_mm_abs_pi32
- PALIGNR – 结合两个参数并右移结果。内部指令：_mm_alignr_epi8、_mm_alignr_pi8
- PHADDSW – 将两个包含16位有符号整型的参数相加，并尽量使结果为16位可表示的最大值。内部指令：_mm_hadds_epi16、_mm_hadds_pi16
- PHADDW / PHADDD – 将两个包含有符号整型的参数相加。内部指令：_mm_hadd_epi16、_mm_hadd_epi32、_mm_hadd_pi16、_mm_hadd_pi32
- PHSUBSW – 将两个包含16位有符号整型的参数相减，并尽量使结果为16位可表示的最大值。内部指令：_mm_hsubs_epi16、_mm_shubs_pi16
- PHSUBW / PHSUBD – 将两个包含有符号整型的参数相减。内部指令：_mm_hsub_epi16、_mm_hsub_epi32、_mm_hsub_pi16、_mm_hsub_pi32
- PMADDUBSW – 相乘并相加8位整型。内部指令：_mm_maddubs_epi16、_mm_maddubs_pi16
- PMULHRSW – 乘以16位有符号整型，并右移结果。内部指令：_mm_mulhrs_epi16、_mm_mulhrs_pi16
- PSHUFB – 从一个128位的参数中选取并乱序其中8位的数据块。内部指令：_mm_shuffle_epi8、_mm_shuffle_pi8
- PSIGNB / PSIGNW / PSIGND – 求反（取非）、取零、或保留有符号整型。内部指令：_mm_sign_epi8、_mm_sign_epi16、_mm_sign_epi32、_mm_sign_pi8、_mm_sign_pi16、_mm_sign_pi32
SSE4A
- EXTRQ – 从参数中取特定位。内部指令：_mm_extract_si64、_mm_extracti_si64
- INSERTQ – 插入特定位到给定参数中。内部指令：_mm_insert_si64、_mm_inserti_si64
- MOVNTSD / MOVNTSS – 不使用缓存，直接把数据位写到特定内存位置。内部指令：_mm_stream_sd、_mm_stream_ss
SSE4.1
- DPPD / DPPS – 计算两参数的点结果。内部指令：_mm_dp_pd、_mm_dp_ps
- EXTRACTPS – 从参数中取出一个特定的32位浮点值。内部指令：_mm_extract_ps
- INSERTPS – 把一个32位整型插入到一个128位参数中，并把某些位置零。内部指令：_mm_insert_ps
- MOVNTDQA – 从特定内存位置加载128位数据。内部指令：_mm_stream_load_si128
- MPSADBW – 计算绝对差分的八个偏移总和。内部指令：_mm_mpsadbw_epu8
- PACKUSDW – 使用16位饱和度，把32位有符号整型转换为有符号16位整型。内部指令：_mm_packus_epi32
- PBLENDW / BLENDPD / BLENDPS / PBLENDVB / BLENDVPD / BLENDVPS – 把两个不同块大小的参数混合在一起。内部指令：_mm_blend_epi16、_mm_blend_pd、_mm_blend_ps、_mm_blendv_epi8、_mm_blendv_pd、_mm_blendv_ps
- PCMPEQQ －比较64位整型是否相等。内部指令：_mm_cmpeq_epi64
- PEXTRB / PEXTRW / PEXTRD / PEXTRQ －从输入的参数中取出一个整型。内部指令：_mm_extract_epi8、_mm_extract_epi16、_mm_extract_epi32、_mm_extract_epi64
- PHMINPOSUW －选择最小的16位无符号整型并确定它的下标。内部指令：_mm_minpos_epu16
- PINSRB / PINSRD / PINSRQ －把一个整型插入到一个128位参数中。内部指令：_mm_insert_epi8、_mm_insert_epi32、_mm_insert_epi64
- PMAXSB / PMAXSD －接受两个参数中的有符号整型，并选择其中的最大者。内部指令：_mm_max_epi8、_mm_max_epi32
- PMAXUW / PMAXUD －接受两个参数中的无符号整型，并选择其中的最大者。内部指令：_mm_max_epu16、_mm_max_epu32
- PMINSB / PMINSD －接受两个参数中的有符号整型，并选择其中的最小者。内部指令：_mm_min_epi8、_mm_min_epi32
- PMINUW / PMINUD －接受两个参数中的无符号整型，并选择其中的最小者。内部指令：_mm_min_epu16、_mm_min_epu32
- PMOVSXBW / PMOVSXBD / PMOVSXBQ / PMOVSXWD / PMOVSXWQ / PMOVSXDQ －把一有符号整型转换到更大的尺寸。内部指令：_mm_cvtepi8_epi16、_mm_cvtepi8_epi32、_mm_cvtepi8_epi64、_mm_cvtepi16_epi32、_mm_cvtepi16_epi64、_mm_cvtepi32_epi64
- PMOVZXBW / PMOVZXBD / PMOVZXBQ / PMOVZXWD / PMOVZXWQ / PMOVZXDQ －把一无符号整型转换到更大的尺寸。内部指令：_mm_cvtepu8_epi16、_mm_cvtepu8_epi32、_mm_cvtepu8_epi64、_mm_cvtepu16_epi32、_mm_cvtepu16_epi64、_mm_cvtepu32_epi64
- PMULDQ － 32位有符号整型相乘，并把结果存储为64位有符号整型。内部指令：_mm_mul_epi32
- PMULLUD － 32位有符号整型相乘。内部指令：_mm_mullo_epi32
- PTEST －按位计算两个128位参数，并基于CC标志寄存器的CF与ZF位返回值。内部指令：_mm_testc_si128、_mm_testnzc_si128、_mm_testz_si128
- ROUNDPD / ROUNDPS －取整浮点数值。内部指令：_mm_ceil_pd、_mm_ceil_ps、_mm_floor_pd、_mm_floor_ps、_mm_round_pd、_mm_round_ps
- ROUNDSD / ROUNDSS －结合两个参数，从其一取整到一个浮点数值。内部指令：_mm_ceil_sd、_mm_ceil_ss、_mm_floor_sd、_mm_floor_ss、_mm_round_sd、_mm_round_ss
SSE4.2
- CRC32 －计算参数的CRC-32C检验和。内部指令：_mm_crc32_u8、_mm_crc32_u16、_mm_crc32_u32、_mm_crc32_u64
- PCMPESTRI / PCMPESTRM －比较特定长度的两个参数。内部指令：_mm_cmpestra、_mm_cmpestrc、_mm_cmpestri、_mm_cmpestrm、_mm_cmpestro、_mm_cmpestrs、_mm_cmpestrz
- PCMPGTQ －比较两个参数。内部指令：_mm_cmpgt_epi64
- PCMPISTRI / PCMPISTRM －比较两个参数。内部指令：_mm_cmpistra、_mm_cmpistrc、_mm_cmpistri、_mm_cmpistrm、_mm_cmpistro、_mm_cmpistrs、_mm_cmpistrz
- POPCNT －统计位集中1的数量。内部指令：_mm_popcnt_u32、_mm_popcnt_u64、__popcnt16、__popcnt、__popcnt64
高级位操纵
- LZCNT －统计参数中零的数量。内部指令：__lzcnt16、 __lzcnt、__lzcnt64
- POPCNT －统计位集中1的数量。内部指令：_mm_popcnt_u32、_mm_popcnt_u64、__popcnt16、__popcnt、__popcnt64
其他新指令
- _InterlockedCompareExchange128 －对比两个参数。
- _mm_castpd_ps / _mm_castpd_si128 / _mm_castps_pd / _mm_castps_si128 / _mm_castsi128_pd / _mm_castsi128_ps －对32位浮点值（ps）、64位浮点值（pd）及32位整型值（si128）重新解释。
- _mm_cvtsd_f64 －从参数中取出最低的64位浮点值。
- _mm_cvtss_f32 －取出一个32位的浮点值。
- _rdtscp －生成RDTSCP。把TSC AUX[31:0]写到内存，并返回64位时间戳计数器结果。

阅读(4052) | 评论(1) | 转发(0) |

上一篇：有用的C语言工具

下一篇：如何查看linux系统是32位还是64位

给主人留下些什么吧！~~

chinaunix网友2010-10-19 08:48:30

很好的, 收藏了推荐一个博客，提供很多免费软件编程电子书下载： http://free-ebooks.appspot.com

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6