如何使用SSE指令集编写应用程序-CUKdd-ChinaUnix博客

cukddcukdd.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

CUKdd

博客访问： 914009
博文数量： 73
博客积分： 2689
博客等级：少校
技术积分： 897
用户组：普通用户
注册时间： 2010-10-07 19:39

个人简介

一个有目标，为自己的未来努力奋斗的人

文章分类

全部博文（73）

学习?生活?创业（2）
Web前端（2）
数据库（2）
PHP（3）
WebServer（1）
分布式存储（5）
高并发网络编程（4）
云计算（4）
软件分析（9）
算法设计（9）
招聘笔试题（1）
编程语言（6）
Linux内核篇（4）
Linux系统应用篇（7）
Tools（5）
软件破解（0）
性能优化（9）
未分配的博文（0）

文章存档

2015年（9）

2014年（2）

2013年（6）

2012年（11）

2011年（33）

2010年（12）

我的朋友

最近访客

推荐博文

如何使用SSE指令集编写应用程序

分类：

2010-12-04 00:56:48

1、编译器的自动矢量化

-mfpmath=sse
- 仅建议在P4和K8以上级别的处理器上使用该选项。
-mmmx

-msse

-msse2

-msse3

-m3dnow

-mssse3(gcc-4.3新增)

-msse4.1(gcc-4.3新增)

-msse4.2(gcc-4.3新增)

-msse4(含4.1和4.2,gcc-4.3新增)

是否使用相应的扩展指令集以及内置函数，需要按照自己的cpu做选择。

2、使用C/C++类库

目前，GNU GCC等大多数编译器都提供了对SSE指令集的变成支持，允许用户在C++代码中不用编写汇编代码，就可以直接通过调用库函数而直接使用SSE指令。

3、使用编译器的内嵌原语(Intrinsics)

SSE的intrinsics的规则

_mm__
其中，是指令的类别，像add、sub等等，是指令的种类。在SSE浮点运算指令中，只有两种:ps和ss。

ps：Packed Single-precision,指对寄存器中的四个单精度浮点同时进行运算。

ss：Scaler Single-precision,指对寄存器中的DATA0进行运算。

编程时需要包含下表所示的头文件：

mmintrin.h	MMX
xmmintrin.h	SSE
emmintrin.h	SSE2
pmmintrin.h	SSE3
tmmintrin.h	SSSE3
intrin.h	SSE4A
smmintrin.h	SSE4.1
nmmintrin.h	SSE4.2
mm3dnow.h	3DNOW

说明：如果导入一个高版本的指令集头文件，那么一般就不需要在导入低版本的指令了。

4、使用内嵌汇编

指令语法特征

如：PADDUSW（无符号饱和模式的字组相加）

前缀：P代表成组数据类型

操作指令：如ADD、SUB等

后缀：US为无符号饱和处理

S为有符号饱和处理

B、W、D、Q分别为字节组、字组、双字组、四字。
GCC的asm结构

限定符	意义
“m” “v” “o”	内存单元
“r”	任意寄存器
“q”	寄存器eax,ebx,ecx,edx之一
“i” “h”	直接操作数
“E” “F”	浮点数
“g”	任意
“a” ”b” ”c” ”d”	分别表示寄存器eax,ebx,ecx,edx
“S” ”D”	寄存器esi,edi
“I”	常数（0至31）

5、SSE编程注意事项

数据对齐

CPU内存单元以16Byte为边界，如果数据在运算之前不进行对齐，会是指令运算产生大量延时。

GCC：

VC:

__declspec(align(16)) float a[4]={1.2f,3.5f,1.7f,2.8f};

阅读(8230) | 评论(0) | 转发(0) |

上一篇：AT&T 与 INTEL 的汇编语言语法的区别

下一篇：Intel的64位扩展技术简介

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6