范德萨发而为
全部博文(392)
分类: Java
2013-06-18 16:22:53
结合下面两篇文章的描述:
Lucene只用一个字节来表示一个float数据,所以这个数据相对于使用32bit来表示float,精度损失更大,这个是保存norm数据时需要严重考虑的问题
另外,关于norm的使用:
http://stackoverflow.com/questions/3574106/how-to-count-the-number-of-terms-for-each-document-in-lucene-index
I want to know the number of terms for each document in a lucene index. I've been searching in API and in internet with no result. Can you help me?
stackoverflow上的回答,两个方案:读取term vector(该数据时可选生成的)、使用Norm(有精度损失)
版本 |
包含的项 |
数目 |
类型 |
描述 |
2.1及之后版本 |
NormsHeader |
1 |
raw |
‘N’,'R’,'M’,Version:4个字节,最后字节表示该文件的格式版本,当前为-1 |
Norms |
NumFieldsWithNorms |
Norms |
|
|
Norms->Byte |
SegSize |
Byte |
每一个字节编码了一个float指针数值,bits 0-2容纳 3-bit 尾数(mantissa),bits 3-8容纳 5-bit指数(exponent),这些被转换成一个IEEE单独的float数值,如图所示 |
|
NormsHeader->Version |
1 |
Byte |
|
先说一下计算机中二进制的算法:
------------------------我是分割线------------------------------
OK,有了上面的知识,我们进入正题:看看float类型在内存中是如何表示的。 float类型又称为单精度浮点类型,在 中是这样定义它的结构的:
S EEEEEEEE FFFFFFFFFFFFFFFFFFFFFFF 31 30 23 22 0 |
符号位 | 指数位 | 小数部分 | 指数偏移量 | |
---|---|---|---|---|
单精度浮点数 | 1 位[31] | 8位 [30-23] | 23位 [22-00] | 127 |
双精度浮点数 | 1 位[63] | 11 位[62-52] | 52 位[51-00] | 1023 |
float类型总共4个字节——32位:
这里我们需要多说一下指数。虽然指数也是用8位二进制来表示的,但是IEEE在定义它的时候做了些手脚,使用了偏移来计算指数。
IEEE规定,在float类型中,用来计算指数的偏移量为127。也就是说,如果你的指数实际是0,那么在内存中存的就是0+127=127的二进制。稍后我们来看这个到底如何使用。
好了,看了这么多,我们该演示一下计算机如何将一个十进制的实数转换为二进制的。就拿6.9这个数字来举例吧。-_-||!
首先,我们按照上面说的方法,分别将整数和小数转换成对应的二进制。这样6.9的二进制表示就是110.1110011001100...。这里就看出来 了,6.9转换成二进制,小数部分是无限循环的,这在现在的计算机系统上是无法精确表示的。这是计算机在计算浮点数的时候常常不精确的原因之一。
其次,将小数点左移(或右移)到第一个有效数字之后。说的通俗些,就是把小数点移到第一个1之后。这样的话,对于上面的110.1110011001100...我们就需要把小数点左移2位,得到1.101110011001100...。
接下来的事情就有意思了。首先我们把得到的1.101110011001100..这个数,从小数点后第一位开始,数出23个来,填充到上面float内存 结构的尾数部分(就是那一堆F的地方),我们这里数出来的就是10111001100110011001100。这里又要发生一次不精确了,小数点后超出 23位的部分都将被舍弃,太惨了。
不过,这里有一个可能让大家觉得特别坑爹的事情,就是小数点前面的1也不要了。仔细看看上面的内存结构,确实没有地方存放这个1。原因是这样的:IEEE觉 得,既然我们大家都约定把小数点移动到第一个有效数字之后,那也就默认小数点前面一定有且只有一个1,所以把这个1存起来也浪费,干脆就不要了,以后大家 都这么默契的来就好。这也是为什么我上面说尾数是23位+1位的原因。
填充完尾数,该填充指数了。这个指数就是刚才我们把小数点移动的位数,左移为正,右移为负,再按照上面所说的偏移量算法,我们填充的指数应该是2+127=129。转换成8位二进制就是10000001。
最后,根据这个数的正负来填充符号位。我们这里是正数,所以填0。这样6.9的在内存中的存储结果就出来了:
0 10000001 10111001100110011001100 |
总结一下,实数转二进制float类型的方法:
A. 分别将实数的整数和小数转换为二进制 B. 左移或者右移小数点到第一个有效数字之后 C. 从小数点后第一位开始数出23位填充到尾数部分 D. 把小数点移动的位数,左移为正,右移为负,加上偏移量127,将所得的和转换为二进制填充到指数部分 E. 根据实数的正负来填充符号位,0为正,1为负
如果需要把float的二进制转换回十进制的实数,只要将上面的步骤倒着来一边就行了。
------------------------我是分割线------------------------------
需要注意的东西:
------------------------我是分割线-----------------------------
OK,废话了这么多,我觉得对float类型也大致有个了解了。float明白了以后,double类型也就好说了,基本和上面一样,只是指数和尾数的位数不一样而已。
参考:
Java 理论与实践: 您的小数点到哪里去了?: http://www.ibm.com/developerworks/cn/java/j-jtp0114/