oops

首页　| 　博文目录　| 　关于我

博客访问： 1263103
博文数量： 573
博客积分： 0
博客等级：民兵
技术积分： 66
用户组：普通用户
注册时间： 2016-06-28 16:21

文章分类

全部博文（573）

数据存储和恢复（2）
kernel+相关机制（53）

内核模块机制（3）

内核同步机制（2）

内核中断机制（3）

内核定时机制（2）

电源管理（5）

Linux IO（1）

netlink机制（2）

uio机制（1）

内核输入子系统（3）

platform机制（0）

内核读写文件（2）

initrd机制（1）

系统调用（7）

工作队列（2）

内核调试（5）

内核源码分析（7）

内核试题（2）

设备模型（1）

内核makefile（1）

其他（3）
kernel+设备驱动（48）

cdp驱动（8）

linux块设备驱动（1）

SCSI_target驱动（11）

SPI驱动（1）

IIC驱动（9）

DMA驱动（1）

LCD和触摸屏驱动（2）

内核+驱动移植（1）

应用程序移植（1）

设备驱动和管理（5）

PCI驱动（2）

编写驱动环境准备（6）
kernel+文件系统（23）

VFS（2）

根文件系统（1）

sysfs文件系统（4）

proc文件系统（5）
kernel+内存管理（26）
kernel+网络接口（4）
kernel+进程调度（11）

内核进程（2）

完成量（1）

内核线程（2）
kernel+进程通信（0）
Android系统（0）
嵌入式开发板（34）

S3C2440裸机驱动（15）

ARM体系结构（8）

硬件+原理图（2）

单片机（2）

bootloader（7）
linux系统编程（78）

socket编程（17）

IPC机制（5）

信号（8）

进程控制和管理（9）

线程控制和管理（6）

文件操作（11）

日期时间（3）

libxml2库（9）

系统相关（7）

其他系统调用API（3）
C/C++编程（47）

标准C语法（27）

标准C库函数（13）

GNU C语法（2）

C试题（2）

c++语法（3）
数据结构+算法（51）

排序和查找（2）

B树（0）

二叉树（4）

八皇后（1）

红黑树（3）

赫夫曼树（0）

Hash表（2）

队列（2）

栈（4）

链表（4）

字符串（3）

大整型数（1）

算法题（5）

其他（18）

位操作（1）
系统架构（11）

nginx（9）

zabbix（1）

apache（1）
辅助编程（115）

linux命令（26）

shell脚本（20）

编译链接（14）

动态库静态库（11）

TUXEDO（2）

thrift（10）

xpcom（12）

cmake（1）

makefile（2）

SVN（5）

vim（7）

source insi（1）

doc命令（1）

aix命令（3）
汇编编程（25）

ARM体系汇编（12）

X86体系汇编（11）

c内嵌汇编（1）

反汇编（1）
python编程（3）
java编程（0）
数据库（5）

C嵌入SQL（2）
《内核设计与实现（20）
IT杂谈（17）
未分配的博文（0）

文章存档

2018年（3）

2016年（48）

2015年（522）

我的朋友

相关的代码如下：

float SqrtByNewton(float x)
{
	float val = x;//最终
	float last;//保存上一个计算的值
	do
	{
		last = val;
		val =(val + x/val) / 2;
	}while(abs(val-last) > eps);
	return val;
}

然后我们再来看下性能测试：

哇塞，性能提高了很多，可是和系统函数相比，还是有这么大差距，这是为什么呀？想啊想啊，想了很久仍然百思不得其解。突然有一天，我在网上看到一个神奇的方法，于是就有了今天的这篇文章，废话不多说，看代码先：

float InvSqrt(float x)
{
	float xhalf = 0.5f*x;
	int i = *(int*)&x; // get bits for floating VALUE 
	i = 0x5f375a86- (i>>1); // gives initial guess y0
	x = *(float*)&i; // convert bits BACK to float
	x = x*(1.5f-xhalf*x*x); // Newton step, repeating increases accuracy
	x = x*(1.5f-xhalf*x*x); // Newton step, repeating increases accuracy
	x = x*(1.5f-xhalf*x*x); // Newton step, repeating increases accuracy

	return 1/x;
}

然后我们最后一次来看下性能测试：

这次真的是质变了，结果竟然比系统的还要好。。。哥真的是震惊了！！！哥吐血了！！！一个函数引发了血案！！！血案，血案。。。

到现在你是不是还不明白那个“鬼函数”，到底为什么速度那么快吗？不急，先看看下面的故事吧：

Quake-III Arena (雷神之锤3)是90年代的经典游戏之一。该系列的游戏不但画面和内容不错，而且即使计算机配置低，也能极其流畅地运行。这要归功于它3D引擎的开发者约翰-卡马克（John Carmack）。事实上早在90年代初DOS时代，只要能在PC上搞个小动画都能让人惊叹一番的时候，John Carmack就推出了石破天惊的Castle Wolfstein, 然后再接再励，doom, doomII, Quake...每次都把3-D技术推到极致。他的3D引擎代码资极度高效，几乎是在压榨PC机的每条运算指令。当初MS的Direct3D也得听取他的意见，修改了不少API。

最近，QUAKE的开发商ID SOFTWARE 遵守GPL协议，公开了QUAKE-III的原代码，让世人有幸目睹Carmack传奇的3D引擎的原码。这是QUAKE-III原代码的下载地址：

(下面是官方的下载网址，搜索 “quake3-1.32b-source.zip” 可以找到一大堆中文网页的。

我们知道，越底层的函数，调用越频繁。3D引擎归根到底还是数学运算。那么找到最底层的数学运算函数（在game/code/q_math.c），必然是精心编写的。里面有很多有趣的函数，很多都令人惊奇，估计我们几年时间都学不完。在game/code/q_math.c里发现了这样一段代码。它的作用是将一个数开平方并取倒，经测试这段代码比(float)(1.0/sqrt(x))快4倍：

float Q_rsqrt( float number )
{
	long i;
	float x2, y;
	const float threehalfs = 1.5F;

	x2 = number * 0.5F;
	y   = number;
	i   = * ( long * ) &y;   // evil floating point bit level hacking
	i   = 0x5f3759df - ( i >> 1 ); // what the fuck?
	y   = * ( float * ) &i;
	y   = y * ( threehalfs - ( x2 * y * y ) ); // 1st iteration
	// y   = y * ( threehalfs - ( x2 * y * y ) ); // 2nd iteration, this can be removed

	#ifndef Q3_VM
	#ifdef __linux__
		 assert( !isnan(y) ); // bk010122 - FPE?
	#endif
	#endif
	return y;
}

函数返回1/sqrt(x)，这个函数在图像处理中比sqrt(x)更有用。
注意到这个函数只用了一次叠代！（其实就是根本没用叠代，直接运算）。编译，实验，这个函数不仅工作的很好，而且比标准的sqrt()函数快4倍！要知道，编译器自带的函数，可是经过严格仔细的汇编优化的啊！
这个简洁的函数，最核心，也是最让人费解的，就是标注了“what the fuck?”的一句
i = 0x5f3759df - ( i >> 1 );

再加上y = y * ( threehalfs - ( x2 * y * y ) );
两句话就完成了开方运算！而且注意到，核心那句是定点移位运算，速度极快！特别在很多没有乘法指令的RISC结构CPU上，这样做是极其高效的。

算法的原理其实不复杂,就是牛顿迭代法,用x-f(x)/f'(x)来不断的逼近f(x)=a的根。

没错，一般的求平方根都是这么循环迭代算的但是卡马克(quake3作者)真正牛B的地方是他选择了一个神秘的常数0x5f3759df 来计算那个猜测值，就是我们加注释的那一行，那一行算出的值非常接近1/sqrt(n)，这样我们只需要2次牛顿迭代就可以达到我们所需要的精度。好吧如果这个还不算NB,接着看:

普渡大学的数学家Chris Lomont看了以后觉得有趣，决定要研究一下卡马克弄出来的这个猜测值有什么奥秘。Lomont也是个牛人，在精心研究之后从理论上也推导出一个最佳猜测值，和卡马克的数字非常接近, 0x5f37642f。卡马克真牛，他是外星人吗？

传奇并没有在这里结束。Lomont计算出结果以后非常满意，于是拿自己计算出的起始值和卡马克的神秘数字做比赛，看看谁的数字能够更快更精确的求得平方根。结果是卡马克赢了... 谁也不知道卡马克是怎么找到这个数字的。

最后Lomont怒了，采用暴力方法一个数字一个数字试过来，终于找到一个比卡马克数字要好上那么一丁点的数字，虽然实际上这两个数字所产生的结果非常近似，这个暴力得出的数字是0x5f375a86。

Lomont为此写下一篇论文，"Fast Inverse Square Root"。论文下载地址：

参考：

最后，给出最精简的1/sqrt()函数：

float InvSqrt(float x)
{
	float xhalf = 0.5f*x;
	int i = *(int*)&x; // get bits for floating VALUE 
	i = 0x5f375a86- (i>>1); // gives initial guess y0
	x = *(float*)&i; // convert bits BACK to float
	x = x*(1.5f-xhalf*x*x); // Newton step, repeating increases accuracy
	return x;
}

大家可以尝试在PC机、51、AVR、430、ARM、上面编译并实验，惊讶一下它的工作效率。

前两天有一则新闻，大意是说 Ryszard Sommefeldt 很久以前看到这么样的一段 code (可能出自 Quake III 的 source code)：

float InvSqrt (float x) 
{
	float xhalf = 0.5f*x;
	int i = *(int*)&x;
	i = 0x5f3759df - (i>>1);
	x = *(float*)&i;
	x = x*(1.5f - xhalf*x*x);
	return x;
}

他一看之下惊为天人，想要拜见这位前辈高人，但是一路追寻下去却一直找不到人；同时间也有其他人在找，虽然也没找到出处，但是 Chris Lomont 写了一篇论文 (in PDF) 解析这段 code 的算法 (用的是 Newton’s Method，牛顿法；比较重要的是后半段讲到怎么找出神奇的 0x5f3759df 的)。
PS. 这个 function 之所以重要，是因为求开根号倒数这个动作在 3D 运算 (向量运算的部份) 里面常常会用到，如果你用最原始的 sqrt() 然后再倒数的话，速度比上面的这个版本大概慢了四倍吧… XD
PS2. 在他们追寻的过程中，有人提到一份叫做 MIT HACKMEM 的文件，这是 1970 年代的 MIT 强者们做的一些笔记 (hack memo)，大部份是 algorithm，有些 code 是 PDP-10 asm 写的，另外有少数是 C code (有人整理了一份列表)

好了，故事就到这里结束了，希望大家能有有收获:)，我把源码也提供下载了，有兴趣的朋友们可以自己运行下试试看。

源码下载地址：

求平方根倒数的算法

下面这个求的函数号称比直接调用sqrt库函数快4倍，来自游戏Quake III的源代码。

float InvSqrt (float x){ float xhalf = 0.5f*x; int i = *(int*)&x;
    i = 0x5f3759df - (i>>1);
    y = *(float*)&i;
    y = y*(1.5f - xhalf*x*x); return x;
}

我们这里分析一下它的原理（指程序的正确性，而不是解释为何快）。

分析程序之前，我们必须解释一下float数据在计算机里的表示方式。一般而言，一个float数据共32个bit，和int数据一样。其中前23位为有效数字，后面接着一个8位数据表示指数，最后一位表示符号，由于这里被开方的数总是大于0，所以我们暂不考虑最后一个符号位。此时

如果我们把计算机内的浮点数看做一个整数，那么

现在开始逐步分析函数。这个函数的主体有四个语句，分别的功能是：

int i = *(int*)&x; 这条语句把  转成  。

i = 0x5f3759df - (i>>1); 这条语句从  计算  。

y = *(float*)&i; 这条语句将  转换为  。

y = y*(1.5f - xhalf*y*y); 这时候的y是近似解；此步就是经典的牛顿迭代法。迭代次数越多越准确。

关键是第二步 i = 0x5f3759df - (i>>1); 这条语句从计算，原理:

令，用和带入之后两边取对数，再利用近似表示，算一算就得到

若取，就是程序里所用的常量0x5f3759df。至于为何选择这个，则应该是曲线拟合实验的结果。

阅读(593) | 评论(0) | 转发(0) |

上一篇：异或运算 ^ 变量交换及找出现一次的数

下一篇：shell脚本中$#、$0、$@等含义

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6