内存地址对齐及大小端-piaoyizu-ChinaUnix博客

随风...embed.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

piaoyizu

博客访问： 2159139
博文数量： 288
博客积分： 10594
博客等级：上将
技术积分： 3469
用户组：普通用户
注册时间： 2006-10-27 19:27

文章分类

全部博文（288）

Camera（2）
Embeddeb（145）

GStreamer（1）

Android（13）

Kernel study（9）

嵌入式环境（24）

Wince Developmen（2）

Driver study（55）

Basic study（41）
工作相关记录（49）

管理类资料（7）

技术类资料（42）
心情随笔（11）
English（8）
Bash脚本相关（21）
Linux C开发（52）
未分配的博文（0）

文章存档

2012年（4）

2011年（30）

2010年（40）

2009年（32）

2008年（71）

2007年（79）

2006年（32）

我的朋友

大部分16位和32位的CPU不允许将字或者长字存储到内存中的任意地址. 比如Motorola 68000不允许将16位的字存储到奇数地址中, 将一个16位的字写到奇数地址将引发异常.

实际上, 对于c中的字节组织, 有这样的对齐规则:

单个字节(char)能对齐到任意地址
2字节(short)以2字节边界对齐
4字节(int, long)以4字节边界对齐

不同CPU的对其规则可能不同, 请参考手册.

为什么会有上述的限制呢? 理解了内存组织, 就会清楚了
CPU通过地址总线来存取内存中的数据, 32位的CPU的地址总线宽度既为32位置, 标为A[0:31]. 在一个总线周期内, CPU从内存读/写32位. 但是CPU只能在能够被4整除的地址进行内存访问, 这是因为: 32位CPU不使用地址总线的A1和A2. (比如ARM, 它的A[0:1]用于字节选择, 用于逻辑控制, 而不和存储器相连, 存储器连接到A[2:31].)

访问内存的最小单位是字节(byte), A0和A1不使用, 那么对于地址来说, 最低两位是无效的, 所以它只能识别能被4整除的地址了. 在4字节中, 通过A0和A1确定某一个字节.

再看看刚才的message结构, 你想想它占了多少字节? 别想当然的以为是10个字节. 实际上它占了12个字节. 不信? 用sizeof(message)看吧. 对于结构体, 编译器会针对起中的元素添加"pad"以满足字节对齐规则. message会被编译器改为下面的形式:

struct Message

{
   short opcode;
   char subfield;
   char pad1;             // Pad to start the long word at a 4 byte boundary
   long message_length;
   char version;
   char pad2;             // Pad to start a short at a 2 byte boundary
   short destination_processor;
   char pad3[4];          // Pad to align the complete structure to a 16 byte boundary
};

如果不同的编译器采用不同的对齐规则, 对传递message可就麻烦了.

Byte Endian

是指字节在内存中的组织，所以也称它为Byte Ordering.

对于数据中跨越多个字节的对象, 我们必须为它建立这样的约定:

(1) 它的地址是多少?

(2) 它的字节在内存中是如何组织的?

针对第一个问题，有这样的解释:

对于跨越多个字节的对象，一般它所占的字节都是连续的, 它的地址等于它所占字节最低地址.(链表可能是个例外, 但链表的地址可看作链表头的地址).

比如: int x, 它的地址为0x100. 那么它占据了内存中的Ox100, 0x101, 0x102, 0x103这四个字节.

上面只是内存字节组织的一种情况: 多字节对象在内存中的组织有一般有两种约定. 考虑一个W位的整数. 它的各位表达如下:

[Xw-1, Xw-2, ... , X1, X0]

它的MSB (Most Significant Byte, 最高有效字节)为[Xw-1, Xw-2, ... Xw-8]; LSB (Least Significant Byte, 最低有效字节)为 [X7, X6, ..., X0]. 其余的字节位于MSB, LSB之间.

LSB和MSB谁位于内存的最低地址, 即谁代表该对象的地址? 这就引出了大端(Big Endian)与小端(Little Endian)的问题。

如果LSB在MSB前面, 既LSB是低地址, 则该机器是小端; 反之则是大端. DEC (Digital Equipment Corporation, 现在是Compaq公司的一部分)和Intel的机器一般采用小端. IBM, Motorola, Sun的机器一般采用大端. 当然, 这不代表所有情况. 有的CPU即能工作于小端, 又能工作于大端, 比如ARM, PowerPC, Alpha. 具体情形参考处理器手册.

举个例子来说名大小端: 比如一个int x, 地址为0x100, 它的值为0x1234567. 则它所占据的0x100, 0x101, 0x102, 0x103地址组织如下图:

0x01234567的MSB为0x01, LSB为0x67. 0x01在低地址(或理解为"MSB出现在LSB前面，因为这里讨论的地址都是递增的), 则为大端; 0x67在低地址则为小端.

认清这样一个事实: C中的数据类型都是从内存的低地址向高地址扩展，取址运算"&"都是取低地址.

两个测试Bit Endian的小程序

method_1

#include

int main(int argc, char *argv[])
{

   int c = 1;
   if ((*(char *)&c) == 1) {
     printf("little endian\n");
   }
   else
     printf("big endian");

   return 0;
}

int c 在内存中的表达为: 0x00000001. (这里假设int为4字节). 用char可以截取一个字节. LSB为0x01, 若它出现在c的低地址, 则为小端.

method_2

#include

int main(void)
{
/* Each component to a union type is allocated storage at the beginning of the union */

   union {
     short n;
     char c[sizeof(short)];
   }un;

   un.n = 0x0102;

   if ((un.c[0] == 1 && un.c[1] == 2))
     printf("big endian\n");
   else if ((un.c[0] == 2 && un.c[1] == 1))
     printf("little endian\n");
   else
     printf("error!\n");
   return 0;
}

         union中元素的起始地址都是相同的——位于联合的开始. 用char来截取感兴趣的字节.

区分大端与小端有什么用呢? 如果两个不同Endian的机器进行通信时, 就有必要区分了

阅读(2894) | 评论(0) | 转发(0) |

上一篇：深入理解指针

下一篇：数组的插入和删除

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6