分类: LINUX
2016-11-29 11:32:47
原文地址:linux socket编程(一) 作者:zhenhuaqin
Socket接口是TCP/IP网络的API,他是使用 Unix 文件描述符 (file descriptor) 和其他程序通讯的方式。Socket接口定义了许多函数或例程,程序员可以用它们来开发TCP/IP网络上的应用程序。要学Internet上的TCP/IP网络编程,必须理解Socket接口。
Socket接口设计者最先是将接口放在Unix操作系统里面的。如果了解Unix系统的输入和输出的话,就很容易了解Socket了。网络的Socket数据传输是一种特殊的I/O,Socket也是一种文件描述符。Socket也具有一个类似于打开文件的函数调用Socket(),该函数返回一个整型的Socket描述符,随后的连接建立、数据传输等操作都是通过该Socket实现的。
Unix 中所有的东西是文件!因此,你想和 Internet 上别 的程序通讯的时候,你将要通过文件描述符。
常用的Socket类型有两种:流式Socket(SOCK_STREAM)和数据报式Socket(SOCK_DGRAM)。流式是一种面向连接的Socket,针对于面向连接的TCP服务应用;数据报式Socket是一种无连接的Socket,对应于无连接的UDP服务应用。
流式套接口是可靠的双向通讯的数据流。如果你向套接口安顺序输出“1,2”,那么他们 将安顺序“1,2”到达另一边。他们也是无错误的传递的,有自己的错误控制。
为什么流式套接口可以达到高质量的数据传输?他使用了“传输控制协议 (The Transmission Control Protocol)”,也叫 “TCP” (请参考 RFC-793 获得详细资料。)TCP 控制你的数据按顺序到达并且没有错误。比如:telnet,http等。
数据报也使用 IP 作路由,但是他不选择 TCP。他使用“用户数据报协议 (User Datagram Protocol)”,也叫 “UDP” (请参考 RFC-768.)
为什么他们是无连接的呢?主要原因是因为他并不象流式套接口那样维持一个连接。 你只要建立一个包,在目标信息中构造一个 IP 头,然后发出去。不需要连接。应用程序有: tftp, bootp 等等。
“如果数据丢失了这些程序如何正常工作?”例如,tftp 协议每发出一个包,收到者发回一个包来说“我收到了!” (一个“命令正确应答”也叫“ACK” 包)。如果在一定时间内(例如5秒),发送方没有收到应答, 他将重新发送,直到得到 ACK。这一点在实现 SOCK_DGRAM 应用程序的时候非常重要。
首先是简单的一个:socket descriptor。他是下面的类型: int
我的第一个结构(TM)--struct sockaddr. 这个数据结构 为许多类型的套接口储存套接口地址信息:
struct sockaddr {
unsigned short sa_family; /* address family, AF_xxx */
char sa_data[14]; /* 14 bytes of protocol address */
};
sa_family 能够是各种各样的事情,但是在这篇文章中是 "AF_INET"。 sa_data 为套接口储存目标地址和端口信息。
为了对付 struct sockaddr,程序员创造了一个并列的结构: struct sockaddr_in ("in" 代表 "Internet".)
struct sockaddr_in {
short int sin_family; /* Address family */
unsigned short int sin_port; /* Port number */
struct in_addr sin_addr; /* Internet address */
unsigned char sin_zero[8]; /* Same size as struct sockaddr */
};
这个数据结构让可以轻松处理套接口地址的基本元素。注意 sin_zero (他被加入到这个结构,并且长度和 struct sockaddr 一样) 应该使用函数 bzero() 或 memset() 来全部置零。同时,注意 sin_family 和 struct sockaddr 中的 sa_family 一致并能够设置为 "AF_INET"。最后, sin_port 和 sin_addr 必须是网络字节顺序 (Network Byte Order)!
你也许会反对道:"但是,怎么让整个数据结构 struct in_addr sin_addr 按照网络字节顺序呢?" 要知道这个问题的答案,我们就要仔细的看一看这个数据结构: struct in_addr, 有这样一个联合 (unions):
/* Internet address (a structure for historical reasons) */
struct in_addr {
unsigned long s_addr;
};
他曾经是个最坏的联合,但是现在那些日子过去了。如果你声明 "ina" 是 数据结构 struct sockaddr_in 的实例,那么 "ina.sin_addr.s_addr" 就储存4字节的 IP 地址(网络字节顺序)。
不同的计算机结构有时使用不同的字节顺序存储数据。例如,基于Intel的计算机存储数据的顺序与Macintosh(Motorola)计算机就是相反的。Intel字节顺序称为“Little-Endian”,
反之Macintosh(Motorola),还有网络上采用标准是“Big-Endian”。在将应用程序从一种架构类型迁移至另一种架构类型的过程中,经常会遇到字节排列顺序(endianness)问题。
字节排列顺序是数据元素及其单个字节在内存中存储和表示时的顺序。
通过以上分析,会发现有两类字节排列顺序:big-endian (通常为网络字节顺序)和
little-endian(主机字节顺序)。
下面是这些术语的解释。
Big-Endian 最重要的字节在整个内容的左端。
Little-Endian 最重要的字节在整个内容的右端。
对于big-endian处理器,在将字放在内存中时,是从最低位地址开始的,首先放入最重要的字节。另一方面,对于little-endian处理器,如Intel处理器,首先放入的是最不重要的字节。说完上面的概念还是很模糊,个人认为对于不了解的字节顺序的人绝对是废话,网上大多都是照搬照抄这几段废话。具体我们通过实际例子说明。
我们先看下面的代码,看完啥都明白了。
这是运行在HP-UNIX 9000/800下完整的C语言代码,即为 Big-Endian 方式。
#include
void main()
{
int i=0x41424344;
printf("int Address:%x Value:%x\n",&i,i);
printf("-------------------------------\n");
char* pAddress=(char*)&i;
int j;
for(j=0;j<=3;j++)
{
printf("char Address:%x Value:%c\n",pAddress,*pAddress);
pAddress++;
}
}
编译输出(cc -g ...):
int Address:
-------------------------------
char Address:
char Address:
char Address:
char Address:
我们回到Windows XP下,看看这段代码的输出。Little-Endian 模式。
#include
void main()
{
int i=0x41424344;
printf("int Address:%x Value:%x\n",&i,i);
printf("-------------------------------\n");
char* pAddress=(char*)&i;
int j;
for(j=0;j<=3;j++)
{
printf("char Address:%x Value:%c\n",pAddress,*pAddress);
pAddress++;
}
}
编译输出(VC 6.0):
int Address:12ff
-------------------------------
char Address:12ff
char Address:12ff7d Value:C
char Address:12ff7e Value:B
char Address:12ff
看完上面代码,应该就很清楚了,什么字节顺序?真是简单的要死!
int i=0x41424344; 采用16进制,我们知道A的ACSII码是65,16进制就是41,可以理解,本例是想通过输出 A,B,C,D来验证字节顺序。我再对内存数据进行列表,相信会更有深层次的理解。
Big-Endian的内存放置顺序如下:
地址:0x
0x41 0x42 0x43 0x44
Little-Endian的内存放置顺序如下:
地址:0x0012ff
0x44 0x43 0x42 0x41
你一定想到了组合 "n","h","s",和 "l"。但是这里没有 stolh() ("Short to Long Host") 函数,但是这里有:
htons()--"Host to Network Short"
htonl()--"Host to Network Long"
ntohs()--"Network to Host Short"
ntohl()--"Network to Host Long"
记住:在你将数据放到网络上的时候,确信他们是网络字节顺序。
最后一点:为什么在数据结构 struct sockaddr_in 中, sin_addr 和 sin_port 需要转换为网络字节顺序,而 sin_family 不需要呢? 答案是:sin_addr 和 sin_port 分别封装在包的 IP 和 UDP 层。因此,他们必须要是网络字节顺序。 但是 sin_family 域只是被内核 (kernel) 使用来决定在数据结构中包含什么类型的地址,所以他应该是本机字节顺序。也即 sin_family 没有发送到网络上,他们可以是本机字节顺序。
为了建立Socket,程序可以调用Socket函数,该函数返回一个类似于文件描述符的句柄。socket函数原型为:
int socket(int domain, int type, int protocol);
domain指明所使用的协议族,通常为PF_INET,表示互联网协议族(TCP/IP协议族);type参数指定socket的类型:SOCK_STREAM 或SOCK_DGRAM,Socket接口还定义了原始Socket(SOCK_RAW),允许程序使用低层协议;protocol通常赋值"0"。Socket()调用返回一个整型socket描述符,你可以在后面的调用使用它。
Socket描述符是一个指向内部数据结构的指针,它指向描述符表入口。调用Socket函数时,socket执行体将建立一个Socket,实际上"建立一个Socket"意味着为一个Socket数据结构分配存储空间。Socket执行体为你管理描述符表。
两个网络程序之间的一个网络连接包括五种信息:通信协议、本地协议地址、本地主机端口、远端主机地址和远端协议端口。Socket数据结构中包含这五种信息。
文件:
linux Socket.rar
大小:
32KB
下载:
下载