Python及字节对齐的问题-blackjimmy-ChinaUnix博客

乱78遭blackjimmy.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

blackjimmy

博客访问： 381728
博文数量： 97
博客积分： 2846
博客等级：少校
技术积分： 1000
用户组：普通用户
注册时间： 2007-03-19 20:00

文章分类

全部博文（97）

创业（5）
c/c++（3）
技巧（37）
biopython（1）
linux（10）
python（35）
未分配的博文（6）

文章存档

2017年（1）

2013年（2）

2012年（6）

2011年（17）

2010年（12）

2009年（41）

2007年（18）

我的朋友

相关博文

Python及字节对齐的问题

分类： Python/Ruby

2009-08-21 10:58:50

该结构大致如下：

struct TestStruct { int data1; char data2; char data3; };

对应的Python代码：

import struct s = struct.unpack("icc", buf) #buf是从网络接收的字节流

结果却报“Unpack str size does not match format”错。

很明显是C++ struct产生的size和Python解码所需的不同。于是检查C++的struct size:

printf ("size=%d\n", sizeof(TestStruct));

结果得8。

而

struct.calcsize("icc")

结果却是6。

仔细想想，icc这种排列方式在字段间的确不会产生padding字节，也就是说，python的结果是对的。但为什么C++的结果会是8呢？原来C++的字节对齐，除了struct内部需要字节对齐之外，struct变量本身也是需要字节对齐的，这是为了当生成一个struct数组的时候仍然能够保证所有字段的字节对齐。因此，像icc这种本身没有padding，但整体需要padding的情形，编译器会在整个struct的末尾加上padding字节（在这里是2个字节），也正是这2个字节导致了Python的解码错误。

幸亏Python已经考虑到了这个问题，在Python struct module document的最后一段的Hint的中说，如果出现这种末尾对齐的情况，可以在格式字符串的最后加上一个“0X”，其中这个“X”可以是一个有效的格式字符，这个字符所代表的长度等于整个struct对齐的长度。在上面这种情况中，对齐长度是4字节，因此我们使用“l”字母（long, 4字节）来进行对齐：

s = struct.unpack("icc0l", buf)

额外的讨论

情形1：

struct Test2 { char a1; int a2; char a3; };

这个struct的size是12，原因是既有字段间padding又有整体padding。

对应的Python代码是：

s = struct.unpack("cic0l", buf) #cic时，Python会自己计算字节对齐。

情形2：

struct Test2 { char a1; int a2; char a3; };

在这里，使用pack编译指令强制改变为单字节对齐，其他不变，sizeof(Test2)=6。

对应的Python代码：

s = struct.unpack("=cic", buf) #在单字节对齐的情况下，使用=前缀。注意这时“0X”后缀已经没有意义了。

阅读(9642) | 评论(0) | 转发(0) |

上一篇：明眼穴按压

下一篇：爷们必看的东西，女生勿入

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6