转贴2篇网卡驱动，协议栈相关的文章（转贴）-blowingwind-ChinaUnix博客

草本植物

首页　| 　博文目录　| 　关于我

blowingwind

博客访问： 548096
博文数量： 120
博客积分： 3030
博客等级：中校
技术积分： 1445
用户组：普通用户
注册时间： 2006-03-05 01:00

文章分类

全部博文（120）

文章存档

2011年（1）

2009年（2）

2008年（32）

2007年（33）

2006年（52）

我的朋友

相关博文

转贴2篇网卡驱动，协议栈相关的文章（转贴）

分类： LINUX

2006-03-24 18:01:13

　　Linux操作系统网络驱动程序编写
(4334 个字於此篇帖子)
(已阅读: 1984 次)

发信人: Bordi (do it), 信区: Linux
标题: Linux驱动程序编写
发信站: 网易 BBS (Sun Aug 8 11:38:15 1999), 转信
工作需要写了我们公司一块网卡的Linux驱动程序。经历一个从无到有的过程，
深感技术交流的重要。Linux作为挑战微软垄断的强有力武器，日益受到大家的喜
爱。真希望她能在中国迅速成长。把程序文档贴出来，希望和大家探讨Linux技术
和应用，促进Linux在中国的普及。
本文可随意转载，但请不要在盈利性出版物上刊登。
------------------ Linux操作系统网络驱动程序编写 -------------------
------------ Contact the author by mailto:bordi@bordi.dhs.org ------
Linux操作系统网络驱动程序编写
一.Linux系统设备驱动程序概述
1.1 Linux设备驱动程序分类
1.2 编写驱动程序的一些基本概念
二.Linux系统网络设备驱动程序
2.1 网络驱动程序的结构
2.2 网络驱动程序的基本方法
2.3 网络驱动程序中用到的数据结构
2.4 常用的系统支持
三.编写Linux网络驱动程序中可能遇到的问题
3.1 中断共享
3.2 硬件发送忙时的处理
3.3 流量控制(flow control)
3.4 调试
四.进一步的阅读
五.杂项
一.Linux系统设备驱动程序概述
1.1 Linux设备驱动程序分类
Linux设备驱动程序在Linux的内核源代码中占有很大的比例，源代码的长度日
益增加，主要是驱动程序的增加。在Linux内核的不断升级过程中，驱动程序的结构
还是相对稳定。在2.0.xx到2.2.xx的变动里，驱动程序的编写做了一些改变，但是
从2.0.xx的驱动到2.2.xx的移植只需做少量的工作。
Linux系统的设备分为字符设备(char device)，块设备(block device)和网络
设备(network device)三种。字符设备是指存取时没有缓存的设备。块设备的读写
都有缓存来支持，并且块设备必须能够随机存取(random access)，字符设备则没有
这个要求。典型的字符设备包括鼠标，键盘，串行口等。块设备主要包括硬盘软盘
设备，CD-ROM等。一个文件系统要安装进入操作系统必须在块设备上。
网络设备在Linux里做专门的处理。Linux的网络系统主要是基于BSD unix的socket

机制。在系统和驱动程序之间定义有专门的数据结构(sk_buff)进行数据的传递。系
统里支持对发送数据和接收数据的缓存，提供流量控制机制，提供对多协议的支持。
1.2 编写驱动程序的一些基本概念
无论是什么操作系统的驱动程序，都有一些通用的概念。操作系统提供给驱动
程序的支持也大致相同。下面简单介绍一下网络设备驱动程序的一些基本要求。
1.2.1 发送和接收
这是一个网络设备最基本的功能。一块网卡所做的无非就是收发工作。所以驱
动程序里要告诉系统你的发送函数在哪里，系统在有数据要发送时就会调用你的发
送程序。还有驱动程序由于是直接操纵硬件的，所以网络硬件有数据收到最先能得
到这个数据的也就是驱动程序，它负责把这些原始数据进行必要的处理然后送给系
统。这里，操作系统必须要提供两个机制，一个是找到驱动程序的发送函数，一个
是驱动程序把收到的数据送给系统。
1.2.2 中断
中断在现代计算机结构中有重要的地位。操作系统必须提供驱动程序响应中断
的能力。一般是把一个中断处理程序注册到系统中去。操作系统在硬件中断发生后
调用驱动程序的处理程序。Linux支持中断的共享，即多个设备共享一个中断。
1.2.3 时钟
在实现驱动程序时，很多地方会用到时钟。如某些协议里的超时处理，没有中
断机制的硬件的轮询等。操作系统应为驱动程序提供定时机制。一般是在预定的时
间过了以后回调注册的时钟函数。在网络驱动程序中，如果硬件没有中断功能，定
时器可以提供轮询(poll)方式对硬件进行存取。或者是实现某些协议时需要的超时
重传等。
二.Linux系统网络设备驱动程序
2.1 网络驱动程序的结构
所有的Linux网络驱动程序遵循通用的接口。设计时采用的是面向对象的方法。
一个设备就是一个对象(device 结构)，它内部有自己的数据和方法。每一个设备的
方法被调用时的第一个参数都是这个设备对象本身。这样这个方法就可以存取自身
的数据(类似面向对象程序设计时的this引用)。
一个网络设备最基本的方法有初始化、发送和接收。
------------------- ---------------------
|deliver packets | |receive packets queue|
|(dev_queue_xmit()) | |them(netif_rx()) |
------------------- ---------------------
| | /
/ | |
-------------------------------------------------------
| methods and variables(initialize,open,close,hard_xmit,|
| interrupt handler,config,resources,status...) |
-------------------------------------------------------
| | /
/ | |
----------------- ----------------------
|send to hardware | |receivce from hardware|
----------------- ----------------------
| | /
/ | |
-----------------------------------------------------
| hardware media |
-----------------------------------------------------
初始化程序完成硬件的初始化、device中变量的初始化和系统资源的申请。发送
程序是在驱动程序的上层协议层有数据要发送时自动调用的。一般驱动程序中不对发
送数据进行缓存，而是直接使用硬件的发送功能把数据发送出去。接收数据一般是通
过硬件中断来通知的。在中断处理程序里，把硬件帧信息填入一个skbuff结构中，然
------------------ Linux操作系统网络驱动程序编写 -------------------
------------ Contact the author by mailto:bordi@bordi.dhs.org ------
后调用netif_rx()传递给上层处理。
2.2 网络驱动程序的基本方法
网络设备做为一个对象，提供一些方法供系统访问。正是这些有统一接口的方法，

掩蔽了硬件的具体细节，让系统对各种网络设备的访问都采用统一的形式，做到硬件
无关性。
下面解释最基本的方法。
2.2.1 初始化(initialize)
驱动程序必须有一个初始化方法。在把驱动程序载入系统的时候会调用这个初
始化程序。它做以下几方面的工作。检测设备。在初始化程序里你可以根据硬件的
特征检查硬件是否存在，然后决定是否启动这个驱动程序。配置和初始化硬件。在
初始化程序里你可以完成对硬件资源的配置，比如即插即用的硬件就可以在这个时
候进行配置(Linux内核对PnP功能没有很好的支持，可以在驱动程序里完成这个功
能)。配置或协商好硬件占用的资源以后，就可以向系统申请这些资源。有些资源是
可以和别的设备共享的，如中断。有些是不能共享的，如IO、DMA。接下来你要初始
化device结构中的变量。最后，你可以让硬件正式开始工作。
2.2.2 打开(open)
open这个方法在网络设备驱动程序里是网络设备被激活的时候被调用(即设备状
态由down-->up)。所以实际上很多在initialize中的工作可以放到这里来做。比如资
源的申请，硬件的激活。如果dev->open返回非0(error)，则硬件的状态还是down。
open方法另一个作用是如果驱动程序做为一个模块被装入，则要防止模块卸载时
设备处于打开状态。在open方法里要调用MOD_INC_USE_COUNT宏。
2.2.3 关闭(stop)
close方法做和open相反的工作。可以释放某些资源以减少系统负担。close是在
设备状态由up转为down时被调用的。另外如果是做为模块装入的驱动程序，close里
应该调用MOD_DEC_USE_COUNT，减少设备被引用的次数，以使驱动程序可以被卸载。
另外close方法必须返回成功(0==success)。
2.2.4 发送(hard_start_xmit)
所有的网络设备驱动程序都必须有这个发送方法。在系统调用驱动程序的xmit
时，发送的数据放在一个sk_buff结构中。一般的驱动程序把数据传给硬件发出去。
也有一些特殊的设备比如loopback把数据组成一个接收数据再回送给系统，或者
dummy设备直接丢弃数据。
如果发送成功，hard_start_xmit方法里释放sk_buff，返回0(发送成功)。如果
设备暂时无法处理，比如硬件忙，则返回1。这时如果dev->tbusy置为非0，则系统
认为硬件忙，要等到dev->tbusy置0以后才会再次发送。tbusy的置0任务一般由中断
完成。硬件在发送结束后产生中断，这时可以把tbusy置0，然后用mark_bh()调用通
知系统可以再次发送。在发送不成功的情况下，也可以不置dev->tbusy为非0，这样
系统会不断尝试重发。如果hard_start_xmit发送不成功，则不要释放sk_buff。
传送下来的sk_buff中的数据已经包含硬件需要的帧头。所以在发送方法里不需
要再填充硬件帧头，数据可以直接提交给硬件发送。sk_buff是被锁住的(locked)，
确保其他程序不会存取它。
2.2.5 接收(reception)
驱动程序并不存在一个接收方法。有数据收到应该是驱动程序来通知系统的。
一般设备收到数据后都会产生一个中断，在中断处理程序中驱动程序申请一块
sk_buff(skb)，从硬件读出数据放置到申请好的缓冲区里。接下来填充sk_buff中
的一些信息。skb->dev = dev，判断收到帧的协议类型，填入skb->protocol(多协
议的支持)。把指针skb->mac.raw指向硬件数据然后丢弃硬件帧头(skb_pull)。还要
设置skb->pkt_type，标明第二层(链路层)数据类型。可以是以下类型：
PACKET_BROADCAST : 链路层广播
PACKET_MULTICAST : 链路层组播
PACKET_SELF : 发给自己的帧
PACKET_OTHERHOST : 发给别人的帧(监听模式时会有这种帧)
最后调用netif_rx()把数据传送给协议层。netif_rx()里数据放入处理队列然后返
回，真正的处理是在中断返回以后，这样可以减少中断时间。调用netif_rx()以后，
驱动程序就不能再存取数据缓冲区skb。
2.2.6 硬件帧头(hard_header)
硬件一般都会在上层数据发送之前加上自己的硬件帧头，比如以太网(Ethernet)
就有14字节的帧头。这个帧头是加在上层ip、ipx等数据包的前面的。驱动程序提供
一个hard_header方法，协议层(ip、ipx、arp等)在发送数据之前会调用这段程序。
硬件帧头的长度必须填在dev->hard_header_len，这样协议层回在数据之前保留好
硬件帧头的空间。这样hard_header程序只要调用skb_push然后正确填入硬件帧头就
可以了。
在协议层调用hard_header时，传送的参数包括(2.0.xx)：数据的sk_buff，
device指针，protocol，目的地址(daddr)，源地址(saddr)，数据长度(len)。数据
长度不要使用sk_buff中的参数，因为调用hard_header时数据可能还没完全组织好。
saddr是NULL的话是使用缺省地址(default)。daddr是NULL表明协议层不知道硬件目
的地址。如果hard_header完全填好了硬件帧头，则返回添加的字节数。如果硬件帧
头中的信息还不完全(比如daddr为NULL，但是帧头中需要目的硬件地址。典型的情
况是以太网需要地址解析(arp))，则返回负字节数。hard_header返回负数的情况
下，协议层会做进一步的build header的工作。目前Linux系统里就是做arp
(如果hard_header返回正，dev->arp=1，表明不需要做arp，返回负，dev->arp=0，
做arp)。
对hard_header的调用在每个协议层的处理程序里。如ip_output。
2.2.7 地址解析(xarp)
有些网络有硬件地址(比如Ethernet)，并且在发送硬件帧时需要知道目的硬件
地址。这样就需要上层协议地址(ip、ipx)和硬件地址的对应。这个对应是通过地址
解析完成的。需要做arp的的设备在发送之前会调用驱动程序的rebuild_header方
法。调用的主要参数包括指向硬件帧头的指针，协议层地址。如果驱动程序能够解
析硬件地址，就返回1，如果不能，返回0。
对rebuild_header的调用在net/core/dev.c的do_dev_queue_xmit()里。
2.2.8 参数设置和统计数据
在驱动程序里还提供一些方法供系统对设备的参数进行设置和读取信息。一般
只有超级用户(root)权限才能对设备参数进行设置。设置方法有：
dev->set_mac_address()
当用户调用ioctl类型为SIOCSIFHWADDR时是要设置这个设备的mac地址。一般
对mac地址的设置没有太大意义的。
dev->set_config()
------------------ Linux操作系统网络驱动程序编写 -------------------
------------ Contact the author by mailto:bordi@bordi.dhs.org ------
当用户调用ioctl时类型为SIOCSIFMAP时，系统会调用驱动程序的set_config
方法。用户会传递一个ifmap结构包含需要的I/O、中断等参数。
dev->do_ioctl()
如果用户调用ioctl时类型在SIOCDEVPRIVATE和SIOCDEVPRIVATE+15之间，系统
会调用驱动程序的这个方法。一般是设置设备的专用数据。
读取信息也是通过ioctl调用进行。除次之外驱动程序还可以提供一个
dev->get_stats方法，返回一个enet_statistics结构，包含发送接收的统计信息。
ioctl的处理在net/core/dev.c的dev_ioctl()和dev_ifsioc()里。
2.3 网络驱动程序中用到的数据结构
最重要的是网络设备的数据结构。定义在include/linux/netdevice.h里。它
的注释已经足够详尽。
struct device
{
/*
* This is the first field of the "visible" part of this structure
* (i.e. as seen by users in the "Space.c" file). It is the name
* the interface.
*/
char *name;
/* I/O specific fields - FIXME: Merge these and struct ifmap into one */
unsigned long rmem_end; /* shmem "recv" end */
unsigned long rmem_start; /* shmem "recv" start */
unsigned long mem_end; /* shared mem end */
unsigned long mem_start; /* shared mem start */
unsigned long base_addr; /* device I/O address */
unsigned char irq; /* device IRQ number */
/* Low-level status flags. */
volatile unsigned char start, /* start an operation */
interrupt; /* interrupt arrived */
/* 在处理中断时interrupt设为1，处理完清0。 */
unsigned long tbusy; /* transmitter busy must be
long
for
bitops */
struct device *next;
/* The device initialization function. Called only once. */
/* 指向驱动程序的初始化方法。 */
int (*init)(struct device *dev);
/* Some hardware also needs these fields, but they are not part of the
usual set specified in Space.c. */
/* 一些硬件可以在一块板上支持多个接口，可能用到if_port。 */
unsigned char if_port; /* Selectable AUI, TP,..*/
unsigned char dma; /* DMA channel */
struct enet_statistics* (*get_stats)(struct device *dev);
/*
* This marks the end of the "visible" part of the structure. All
* fields hereafter are internal to the system, and may change at
* will (read: may be cleaned up at will).
*/
/* These may be needed for future network-power-down code. */
/* trans_start记录最后一次成功发送的时间。可以用来确定硬件是否工作正常。*/

unsigned long trans_start; /* Time (in jiffies) of last Tx */
unsigned long last_rx; /* Time of last Rx */
/* flags里面有很多内容，定义在include/linux/if.h里。*/
unsigned short flags; /* interface flags (a la BSD) */
unsigned short family; /* address family ID (AF_INET) */
unsigned short metric; /* routing metric (not used) */
unsigned short mtu; /* interface MTU value */
/* type标明物理硬件的类型。主要说明硬件是否需要arp。定义在
include/linux/if_arp.h里。 */
unsigned short type; /* interface hardware type */
/* 上层协议层根据hard_header_len在发送数据缓冲区前面预留硬件帧头空间。*/
unsigned short hard_header_len; /* hardware hdr length */
/* priv指向驱动程序自己定义的一些参数。*/
void *priv; /* pointer to private data */
/* Interface address info. */
unsigned char broadcast[MAX_ADDR_LEN]; /* hw bcast add */
unsigned char pad; /* make dev_addr ali
gned
to 8
bytes */
unsigned char dev_addr[MAX_ADDR_LEN]; /* hw address */
unsigned char addr_len; /* hardware address length */
unsigned long pa_addr; /* protocol address */
unsigned long pa_brdaddr; /* protocol broadcast addr */
unsigned long pa_dstaddr; /* protocol P-P other side addr */
unsigned long pa_mask; /* protocol netmask */
unsigned short pa_alen; /* protocol address length */
struct dev_mc_list *mc_list; /* Multicast mac addresses */
int mc_count; /* Number of installed mcasts */
struct ip_mc_list *ip_mc_list; /* IP multicast filter chain */
__u32 tx_queue_len; /* Max frames per queue allowed */
------------------ Linux操作系统网络驱动程序编写 -------------------
------------ Contact the author by mailto:bordi@bordi.dhs.org ------
/* For load balancing driver pair support */
unsigned long pkt_queue; /* Packets queued */
struct device *slave; /* Slave device */
struct net_alias_info *alias_info; /* main dev alias info */
struct net_alias *my_alias; /* alias devs */
/* Pointer to the interface buffers. */
struct sk_buff_head buffs[DEV_NUMBUFFS];
/* Pointers to interface service routines. */
int (*open)(struct device *dev);
int (*stop)(struct device *dev);
int (*hard_start_xmit) (struct sk_buff *skb,
struct device *dev);
int (*hard_header) (struct sk_buff *skb,
struct device *dev,
unsigned short type,
void *daddr,
void *saddr,
unsigned len);
int (*rebuild_header)(void *eth, struct device *dev,
unsigned long raddr, struct sk_buff *skb);
#define HAVE_MULTICAST
void (*set_multicast_list)(struct device *dev);
#define HAVE_SET_MAC_ADDR
int (*set_mac_address)(struct device *dev, void *addr)
;
#define HAVE_PRIVATE_IOCTL
int (*do_ioctl)(struct device *dev, struct ifreq *ifr,
int
cmd);
#define HAVE_SET_CONFIG
int (*set_config)(struct device *dev, struct ifmap *ma
p);
#define HAVE_HEADER_CACHE
void (*header_cache_bind)(struct hh_cache **hhp, struct
dev
ce
*dev, unsigned short htype, __u32 daddr);
void (*header_cache_update)(struct hh_cache *hh, struct
dev
ce
*dev, unsigned char * haddr);
#define HAVE_CHANGE_MTU
int (*change_mtu)(struct device *dev, int new_mtu);
struct iw_statistics* (*get_wireless_stats)(struct device *dev);
};
2.4 常用的系统支持
2.4.1 内存申请和释放
include/linux/kernel.h里声明了kmalloc()和kfree()。用于在内核模式下申
请和释放内存。
void *kmalloc(unsigned int len,int priority);
void kfree(void *__ptr);
与用户模式下的malloc()不同，kmalloc()申请空间有大小限制。长度是2的整
次方。可以申请的最大长度也有限制。另外kmalloc()有priority参数，通常使用
时可以为GFP_KERNEL，如果在中断里调用用GFP_ATOMIC参数，因为使用GFP_KERNEL
则调用者可能进入sleep状态，在处理中断时是不允许的。
kfree()释放的内存必须是kmalloc()申请的。如果知道内存的大小，也可以用
kfree_s()释放。
2.4.2 request_irq()、free_irq()
这是驱动程序申请中断和释放中断的调用。在include/linux/sched.h里声明。
request_irq()调用的定义：
int request_irq(unsigned int irq,
void (*handler)(int irq, void *dev_id, struct pt_regs *regs
),
unsigned long irqflags,
const char * devname,
void *dev_id);
irq是要申请的硬件中断号。在Intel平台，范围0--15。handler是向系统登记
的中断处理函数。这是一个回调函数，中断发生时，系统调用这个函数，传入的参
数包括硬件中断号，device id，寄存器值。dev_id就是下面的request_irq时传递
给系统的参数dev_id。irqflags是中断处理的一些属性。比较重要的有SA_INTERRUPT，

标明中断处理程序是快速处理程序(设置SA_INTERRUPT)还是慢速处理程序(不设置
SA_INTERRUPT)。快速处理程序被调用时屏蔽所有中断。慢速处理程序不屏蔽。还有
一个SA_SHIRQ属性，设置了以后运行多个设备共享中断。dev_id在中断共享时会用
到。一般设置为这个设备的device结构本身或者NULL。中断处理程序可以用dev_id
找到相应的控制这个中断的设备，或者用irq2dev_map找到中断对应的设备。
void free_irq(unsigned int irq,void *dev_id);
2.4.3 时钟
时钟的处理类似中断，也是登记一个时间处理函数，在预定的时间过后，系统
会调用这个函数。在include/linux/timer.h里声明。
struct timer_list {
struct timer_list *next;
struct timer_list *prev;
unsigned long expires;
unsigned long data;
void (*function)(unsigned long);
};
void add_timer(struct timer_list * timer);
int del_timer(struct timer_list * timer);
void init_timer(struct timer_list * timer);
使用时钟，先声明一个timer_list结构，调用init_timer对它进行初始化。
time_list结构里expires是标明这个时钟的周期，单位采用jiffies的单位。
jiffies是Linux一个全局变量，代表时间。它的单位随硬件平台的不同而不同。
系统里定义了一个常数HZ，代表每秒种最小时间间隔的数目。这样jiffies的单位
就是1/HZ。Intel平台jiffies的单位是1/100秒，这就是系统所能分辨的最小时间
间隔了。所以expires/HZ就是以秒为单位的这个时钟的周期。
function就是时间到了以后的回调函数，它的参数就是timer_list中的data。
data这个参数在初始化时钟的时候赋值，一般赋给它设备的device结构指针。
在预置时间到系统调用function，同时系统把这个time_list从定时队列里清
除。所以如果需要一直使用定时函数，要在function里再次调用add_timer()把这
------------------ Linux操作系统网络驱动程序编写 -------------------
------------ Contact the author by mailto:bordi@bordi.dhs.org ------
个timer_list加进定时队列。
2.4.4 I/O
I/O端口的存取使用：
inline unsigned int inb(unsigned short port);
inline unsigned int inb_p(unsigned short port);
inline void outb(char value, unsigned short port);
inline void outb_p(char value, unsigned short port);
在include/adm/io.h里定义。
inb_p()、outb_p()与inb()、outb_p()的不同在于前者在存取I/O时有等待
(pause)一适应慢速的I/O设备。
为了防止存取I/O时发生冲突，Linux提供对端口使用情况的控制。在使用端口
之前，可以检查需要的I/O是否正在被使用，如果没有，则把端口标记为正在使用，
使用完后再释放。系统提供以下几个函数做这些工作。
int check_region(unsigned int from, unsigned int extent);
void request_region(unsigned int from, unsigned int extent,const char *n
ame)
void release_region(unsigned int from, unsigned int extent);
其中的参数from表示用到的I/O端口的起始地址，extent标明从from开始的端
口数目。name为设备名称。
2.4.5 中断打开关闭
系统提供给驱动程序开放和关闭响应中断的能力。是在include/asm/system.h
中的两个定义。
#define cli() __asm__ __volatile__ ("cli"::)
#define sti() __asm__ __volatile__ ("sti"::)
2.4.6 打印信息
类似普通程序里的printf()，驱动程序要输出信息使用printk()。在include
/linux/kernel.h里声明。
int printk(const char* fmt, ...);
其中fmt是格式化字符串。...是参数。都是和printf()格式一样的。
2.4.7 注册驱动程序
如果使用模块(module)方式加载驱动程序，需要在模块初始化时把设备注册
到系统设备表里去。不再使用时，把设备从系统中卸除。定义在drivers/net/net_init
.h
里的两个函数完成这个工作。
int register_netdev(struct device *dev);
void unregister_netdev(struct device *dev);
dev就是要注册进系统的设备结构指针。在register_netdev()时，dev结构一
般填写前面11项，即到init，后面的暂时可以不用初始化。最重要的是name指针和
init方法。name指针空(NULL)或者内容为''或者name[0]为空格(space)，则系统
把你的设备做为以太网设备处理。以太网设备有统一的命名格式，ethX。对以太网
这么特别对待大概和Linux的历史有关。
init方法一定要提供，register_netdev()会调用这个方法让你对硬件检测和
设置。
register_netdev()返回0表示成功，非0不成功。
2.4.8 sk_buff
Linux网络各层之间的数据传送都是通过sk_buff。sk_buff提供一套管理缓冲
区的方法，是Linux系统网络高效运行的关键。每个sk_buff包括一些控制方法和一
块数据缓冲区。控制方法按功能分为两种类型。一种是控制整个buffer链的方法，
另一种是控制数据缓冲区的方法。sk_buff组织成双向链表的形式，根据网络应用
的特点，对链表的操作主要是删除链表头的元素和添加到链表尾。sk_buff的控制
方法都很短小以尽量减少系统负荷。(translated from article written by Alan
Cox)
常用的方法包括：
.alloc_skb() 申请一个sk_buff并对它初始化。返回就是申请到的sk_buff。
.dev_alloc_skb()类似alloc_skb，在申请好缓冲区后，保留16字节的帧头空
间。主要用在Ethernet驱动程序。
.kfree_skb() 释放一个sk_buff。
.skb_clone() 复制一个sk_buff，但不复制数据部分。
.skb_copy()完全复制一个sk_buff。
.skb_dequeue() 从一个sk_buff链表里取出第一个元素。返回取出的sk_buff，
如果链表空则返回NULL。这是常用的一个操作。
.skb_queue_head() 在一个sk_buff链表头放入一个元素。
.skb_queue_tail() 在一个sk_buff链表尾放入一个元素。这也是常用的一个
操作。网络数据的处理主要是对一个先进先出队列的管理，skb_queue_tail()
和skb_dequeue()完成这个工作。
.skb_insert() 在链表的某个元素前插入一个元素。
.skb_append() 在链表的某个元素后插入一个元素。一些协议(如TCP)对没按
顺序到达的数据进行重组时用到skb_insert()和skb_append()。
.skb_reserve() 在一个申请好的sk_buff的缓冲区里保留一块空间。这个空间
一般是用做下一层协议的头空间的。
.skb_put() 在一个申请好的sk_buff的缓冲区里为数据保留一块空间。在
alloc_skb以后，申请到的sk_buff的缓冲区都是处于空(free)状态，有一个
tail指针指向free空间，实际上开始时tail就指向缓冲区头。skb_reserve()
在free空间里申请协议头空间，skb_put()申请数据空间。见下面的图。
.skb_push() 把sk_buff缓冲区里数据空间往前移。即把Head room中的空间移
一部分到Data area。
.skb_pull() 把sk_buff缓冲区里Data area中的空间移一部分到Head room中。
--------------------------------------------------
| Tail room(free) |
--------------------------------------------------
After alloc_skb()
--------------------------------------------------
| Head room | Tail room(free) |
--------------------------------------------------
After skb_reserve()
--------------------------------------------------
| Head room | Data area | Tail room(free) |
--------------------------------------------------
After skb_put()
--------------------------------------------------
|Head| skb_ | Data | Tail room(free) |
|room| push | | |
| | Data area | |
--------------------------------------------------
After skb_push()
--------------------------------------------------
| Head | skb_ | Data area | Tail room(free) |
| | pull | | |
| Head room | | |
--------------------------------------------------
After skb_pull()
------------------ Linux操作系统网络驱动程序编写 -------------------
------------ Contact the author by mailto:bordi@bordi.dhs.org ------
三.编写Linux网络驱动程序中需要注意的问题
3.1 中断共享
Linux系统运行几个设备共享同一个中断。需要共享的话，在申请的时候指明
共享方式。系统提供的request_irq()调用的定义：
int request_irq(unsigned int irq,
void (*handler)(int irq, void *dev_id, struct pt_regs *regs
),
unsigned long irqflags,
const char * devname,
void *dev_id);
如果共享中断，irqflags设置SA_SHIRQ属性，这样就允许别的设备申请同一个
中断。需要注意所有用到这个中断的设备在调用request_irq()都必须设置这个属
性。系统在回调每个中断处理程序时，可以用dev_id这个参数找到相应的设备。一
般dev_id就设为device结构本身。系统处理共享中断是用各自的dev_id参数依次调
用每一个中断处理程序。
3.2 硬件发送忙时的处理
主CPU的处理能力一般比网络发送要快，所以经常会遇到系统有数据要发，但
上一包数据网络设备还没发送完。因为在Linux里网络设备驱动程序一般不做数据
缓存，不能发送的数据都是通知系统发送不成功，所以必须要有一个机制在硬件不
忙时及时通知系统接着发送下面的数据。
一般对发送忙的处理在前面设备的发送方法(hard_start_xmit)里已经描述过，
即如果发送忙，置tbusy为1。处理完发送数据后，在发送结束中断里清tbusy，同
时用mark_bh()调用通知系统继续发送。
但在具体实现我的驱动程序时发现，这样的处理系统好象并不能及时地知道硬
件已经空闲了，即在mark_bh()以后，系统要等一段时间才会接着发送。造成发送
效率很低。2M线路只有10%不到的使用率。内核版本为2.0.35。
我最后的实现是不把tbusy置1，让系统始终认为硬件空闲，但是报告发送不成
功。系统会一直尝试重发。这样处理就运行正常了。但是遍循内核源码中的网络驱
动程序，似乎没有这样处理的。不知道症结在哪里。
3.3 流量控制(flow control)
网络数据的发送和接收都需要流量控制。这些控制是在系统里实现的，不需要
驱动程序做工作。每个设备数据结构里都有一个参数dev->tx_queue_len，这个参数
标明发送时最多缓存的数据包。在Linux系统里以太网设备(10/100Mbps)
tx_queue_len一般设置为100，串行线路(异步串口)为10。实际上如果看源码可以
知道，设置了dev->tx_queue_len并不是为缓存这些数据申请了空间。这个参数只是
在收到协议层的数据包时判断发送队列里的数据是不是到了tx_queue_len的限度，
以决定这一包数据加不加进发送队列。发送时另一个方面的流控是更高层协议的发
送窗口(TCP协议里就有发送窗口)。达到了窗口大小，高层协议就不会再发送数据。
接收流控也分两个层次。netif_rx()缓存的数据包有限制。另外高层协议也会
有一个最大的等待处理的数据量。
发送和接收流控处理在net/core/dev.c的do_dev_queue_xmit()和netif_rx()
中。
3.4 调试
很多Linux的驱动程序都是编译进内核的，形成一个大的内核文件。但对调试
来说，这是相当麻烦的。调试驱动程序可以用module方式加载。支持模块方式的
驱动程序必须提供两个函数：int init_module(void)和void cleanup_module(void)。

init_module()在加载此模块时调用，在这个函数里可以register_netdev()注册
设备。init_module()返回0表示成功，返回负表示失败。cleanup_module()在驱动
程序被卸载时调用，清除占用的资源，调用unregister_netdev()。
模块可以动态地加载、卸载。在2.0.xx版本里，还有kerneld自动加载模块，
但是2.2.xx中已经取消了kerneld。手工加载使用insmod命令，卸载用rmmod命令，
看内核中的模块用lsmod命令。
编译驱动程序用gcc，主要命令行参数-DKERNEL -DMODULE。并且作为模块加载
的驱动程序，只编译成obj形式(加-c参数)。编译好的目标文件放在/lib/modules
/2.x.xx/misc下，在启动文件里用insmod加载。
四.进一步的阅读
Linux程序设计资料可以从网上获得。这就是开放源代码的好处。并且没有什
么“未公开的秘密”。我编写驱动程序时参阅的主要资料包括：
Linux内核源代码
<> by Michael K. Johnson
<> by Ori Pomerantz
<> by olly in BBS水木清华站
可以选择一个模板作为开始，内核源代码里有一个网络驱动程序的模板，
drivers/net/skeleton.c。里面包含了驱动程序的基本内容。但这个模板是以以太
网设备为对象的，以太网的处理在Linux系统里有特殊“待遇”，所以如果不是以
太网设备，有些细节上要注意，主要在初始化程序里。
最后，多参照别人写的程序，听听其他开发者的经验之谈大概是最有效的帮助
了。

Linux的源码里，网络接口的实现部份是非常值得一读的，通过读源码，不仅对网络协议会有更深的了解，也有助于在网络编程的时候，对应用函数有更精确的了解和把握。

　　本文把重点放在网络接口程序的总体结构上，希望能作为读源码时一些指导性的文字。

　　本文以Linux2.4.16内核作为讲解的对象，内核源码可以在上下载。我读源码时参考的是这个交差参考的网站，我个人认为是一个很好的工具，如果有条件最好上这个网站。

　　二.网络接口程序的结构

　　Linux的网络接口分为四部份：网络设备接口部份，网络接口核心部份，网络协议族部份，以及网络接口socket层。
　　网络设备接口部份主要负责从物理介质接收和发送数据。实现的文件在linu/driver/net目录下面。

　　网络接口核心部份是整个网络接口的关键部位，它为网络协议提供统一的发送接口，屏蔽各种各样的物理介质，同时有负责把来自下层的包向合适的协议配送。它是网络接口的中枢部份。它的主要实现文件在linux/net/core目录下，其中linux/net/core/dev.c为主要管理文件。

　　网络协议族部份是各种具体协议实现的部份。Linux支持TCP/IP，IPX，X.25，AppleTalk等的协议，各种具体协议实现的源码在linux/net/目录下相应的名称。在这里主要讨论TCP/IP(IPv4)协议，实现的源码在linux/net/ipv4,其中linux/net/ipv4/af_inet.c是主要的管理文件。

　　网络接口Socket层为用户提供的网络服务的编程接口。主要的源码在linux/net/socket.c

　　三.网络设备接口部份

　　物理层上有许多不同类型的网络接口设备, 在文件include/linux/if_arp.h的28行里定义了ARP能处理的各种的物理设备的标志符。网络设备接口要负责具体物理介质的控制，从物理介质接收以及发送数据，并对物理介质进行诸如最大数据包之类的各种设置。这里我们以比较简单的3Com3c501 太网卡的驱动程序为例，大概讲一下这层的工作原理。源码在Linux/drivers/net/3c501.c。

　　我们从直觉上来考虑，一个网卡当然最主要的是完成数据的接收和发送，在这里我们来看看接收和发送的过程是怎么样的。

　　发送相对来说比较简单，在Linux/drivers/net/3c501.c的行475 开始的el_start_xmit()这个函数就是实际向3Com3c501以太网卡发送数据的函数，具体的发送工作不外乎是对一些寄存器的读写，源码的注释很清楚，大家可以看看。

　　接收的工作相对来说比较复杂。通常来说，一个新的包到了，或者一个包发送完成了，都会产生一个中断。Linux/drivers/net/3c501.c的572开始el_interrupt()的函数里面，前半部份处理的是包发送完以后的汇报，后半部份处理的是一个新的包来的，就是说接收到了新的数据。el_interrupt()函数并没有对新的包进行太多的处理，就交给了接收处理函数el_receive()。el_receive()首先检查接收的包是否正确，如果是一个“好”包就会为包分配一个缓冲结构(dev_alloc_skb())，这样驱动程序对包的接收工作就完成了，通过调用上层的函数netif_rx()(net/core/dev.c1214行) ，把包交给上层。

　　现在驱动程序有了发送和接收数据的功能了，驱动程序怎么样和上层建立联系呢？就是说接收到包以后怎么送给上层，以及上层怎么能调用驱动程序的发送函数呢？

　　由下往上的关系，是通过驱动程序调用上层的netif_rx()(net/core/dev.c 1214行)函数实现的，驱动程序通过这个函数把接到的数据交给上层，请注意所有的网卡驱动程序都需要调用这个函数的，这是网络接口核心层和网络接口设备联系的桥梁。

　　由上往下的关系就复杂点。网络接口核心层需要知道有多少网络设备可以用，每个设备的函数的入口地址等都要知道。网络接口核心层会大声喊，“嘿，有多少设备可以帮我发送数据包？能发送的请给我排成一队！”。这一队就由dev_base开始，指针structnet_device *dev_base (Linux/include/linux/netdevice.h 436行)就是保存了网络接口核心层所知道的所有设备。对于网络接口核心层来说，所有的设备都是一个net_device结构，它在include/linux/netdevice.h,line 233里被定义，这是从网络接口核心层的角度看到的一个抽象的设备，我们来看看网络接口核心层的角度看到的网络设备具有的功能：

　　struct net_device {
　　………
　　open()
　　stop()
　　hard_start_xmit()
　　hard_header()
　　rebuild_header()
　　set_mac_address()
　　do_ioctl()
　　set_config()
　　hard_header_cache()
　　header_cache_update()
　　change_mtu()
　　tx_timeout()
　　hard_header_parse()
　　neigh_setup()
　　accept_fastpath()
　　………
　　}

　　如果网络接口核心层需要由下层发送数据的时候，在dev_base找到设备以后，就直接调dev->hard_start_xmit()的这个函数来让下层发数据包。

　　驱动程序要让网络接口核心层知道自己的存在，当然要加入dev_base所指向的指针链，然后把自己的函数以及各种参数和net_device里的相应的域对应起来。加入dev_base所指向的指针链是通过函数register_netdev(&dev_3c50)(linux/drivers/net/net_init.c, line 532)

　　建立的。而把自己的函数以和net_device里的相应的域及各种参数关系的建立是在el1_probe1()(Linux/drivers/net/3c501.c)里进行的：

　　el1_probe1(){
　　………
　　dev->open = &el_open;
　　dev->hard_start_xmit = &el_start_xmit;
　　dev->tx_timeout = &el_timeout;
　　dev->watchdog_timeo = HZ;
　　dev->stop = &el1_close;
　　dev->get_stats = &el1_get_stats;
　　dev->set_multicast_list = &set_multicast_list;
　　………
　　ether_setup(dev);
　　………

　　}

　　进一步的对应工作在ether_setup(dev) (drivers/net/net_init.c, line 405 )里进行。我们注意到dev->hard_start_xmit =&el_start_xmit，这样发送函数的关系就建立了，上层只知道调用dev->hard_start_xmit这个来发送数据，上面的语句就把驱动程序实际的发送函数告诉了上层。

　　四.网络接口核心部分

　　刚才谈论了驱动程序怎么和网络接口核心层衔接的。网络接口核心层知道驱动程序以及驱动程序的函数的入口是通过*dev_base指向的设备链的，而下层是通过调用这一层的函数netif_rx()(net/core/dev.c
1214行) 把数据传递个这一层的。

　　网络接口核心层的上层是具体的网络协议，下层是驱动程序，我们以及解决了下层的关系，但和上层的关系没有解决。先来讨论一下网络接口核心层和网络协议族部份的关系，这种关系不外乎也是接收和发送的关系。

　　网络协议，例如IP，ARP等的协议要发送数据包的时候会把数据包传递给这层，那么这种传递是通过什么函数来发生的呢？网络接口核心层通过dev_queue_xmit()(net/core/dev.c,line975)这个函数向上层提供统一的发送接口，也就是说无论是IP，还是ARP协议，通过这个函数把要发送的数据传递给这一层，想发送数据的时候就调用这个函数就可以了。dev_queue_xmit()做的工作最后会落实到dev->hard_start_xmit()，而dev->hard_start_xmit()会调用实际的驱动程序来完成发送的任务。例如上面的例子中，调用dev->hard_start_xmit()实际就是调用了el_start_xmit()。

　　现在讨论接收的情况。网络接口核心层通过的函数netif_rx()(net/core/dev.c 1214行)接收了上层发送来的数据，这时候当然要把数据包往上层派送。所有的协议族的下层协议都需要接收数据，TCP/IP的IP协议和ARP协议，SPX/IPX的IPX协议，AppleTalk的DDP和AARP协议等都需要直接从网络接口核心层接收数据，网络接口核心层接收数据是如何把包发给这些协议的呢？这时的情形和于下层的关系很相似，网络接口核心层的下面可能有许多的网卡的驱动程序，为了知道怎么向这些驱动程序发数据，前面以及讲过时，是通过*dev_base这个指针指向的链解决的，现在解决和上层的关系是通过static struct packet_ptype_base[16]( net/core/dev.c line 164)这个数组解决的。这个数组包含了需要接收数据包的协议，以及它们的接收函数的入口。

　　从上面可以看到，IP协议接收数据是通过ip_rcv()函数的，而ARP协议是通过arp_rcv()的，网络接口核心层只要通过这个数组就可以把数据交给上层函数了。

　　如果有协议想把自己添加到这个数组，是通过dev_add_pack()(net/core/dev.c, line233)函数，从数组删除是通过dev_remove_pack()函数的。Ip层的注册是在初始化函数进行的void __init ip_init(void) (net/ipv4/ip_output.c, line 1003)

　　{
　　………
　　dev_add_pack(&ip_packet_type);
　　………

　　}

　　重新到回我们关于接收的讨论，网络接口核心层通过的函数netif_rx()(net/core/dev.c 1214行)接收了上层发送来的数据，看看这个函数做了些什么。

　　由于现在还是在中断的服务里面，所有并不能够处理太多的东西，剩下的东西就通过cpu_raise_softirq(this_cpu, NET_RX_SOFTIRQ)

　　交给软中断处理，从open_softirq(NET_RX_SOFTIRQ, net_rx_action, NULL)可以知道NET_RX_SOFTIRQ软中断的处理函数是net_rx_action()(net/core/dev.c, line 1419)，net_rx_action()根据数据包的协议类型在数组ptype_base[16]里找到相应的协议，并从中知道了接收的处理函数，然后把数据包交给处理函数，这样就交给了上层处理，实际调用处理函数是通过net_rx_action()里的pt_prev->func()这一句。例如如果数据包是IP协议的话，ptype_base[ETH_P_IP]->func()(ip_rcv()),这样就把数据包交给了IP协议。

　　五.网络协议部分

　　协议层是真正实现是在这一层。在linux/include/linux/socket.h里面，Linux的BSD
Socket定义了多至32支持的协议族，其中PF_INET就是我们最熟悉的TCP/IP协议族(IPv4, 以下没有特别声明都指IPv4)。以这个协议族为例，看看这层是怎么工作的。实现TCP/IP协议族的主要文件在inux/net/ipv4/目录下面，Linux/net/ipv4/af_inet.c为主要的管理文件。

　　在Linux2.4.16里面，实现了TCP/IP协议族里面的的IGMP,TCP,UDP,ICMP,ARP,IP。我们先讨论一下这些协议之间的关系。IP和ARP协议是需要直接和网络设备接口打交道的协议，也就是需要从网络核心模块(core)
接收数据和发送数据的。而其它协议TCP,UDP,IGMP,ICMP是需要直接利用IP协议的，需要从IP协议接收数据，以及利用IP协议发送数据，同时还要向上层Socket层提供直接的调用接口。可以看到IP层是一个核心的协议，向下需要和下层打交道，又要向上层提供所以的传输和接收的服务。

　　先来看看IP协议层。网络核心模块(core) 如果接收到IP层的数据，通过ptype_base[ETH_P_IP] 数组的IP层的项指向的IP协议的ip_packet_type->ip_rcv()函数把数据包传递给IP层,也就是说IP层通过这个函数ip_rcv()(linux/net/ipv4/ip_input.c)接收数据的。ip_rcv()这个函数只对IP数据保做了一些checksum的检查工作，如果包是正确的就把包交给了下一个处理函数ip_rcv_finish()(注意调用是通过NF_HOOK这个宏实现的)。现在，ip_rcv_finish()这个函数真正要完成一些IP层的工作了。IP层要做的主要工作就是路由，要决定把数据包往那里送。路由的工作是通过函数ip_route_input()(/linux/net/ipv4/route.c,line 1622)实现的。对于进来的包可能的路由有这些：

　　属于本地的数据(即是需要传递给TCP，UDP，IGMP这些上层协议的) ；
　　需要要转发的数据包(网关或者NAT服务器之类的)；
　　不可能路由的数据包(地址信息有误)；

　　我们现在关心的是如果数据是本地数据的时候怎么处理。ip_route_input()调用ip_route_input_slow()(net/ipv4/route.c, line 1312)，在ip_route_input_slow()里面的1559行rth->u.dst.input=

　　ip_local_deliver，这就是判断到IP包是本地的数据包，并把本地数据包处理函数的地址返回。好了，路由工作完成了，返回到ip_rcv_finish()。ip_rcv_finish()最后调用拉skb->dst->input(skb)，从上面可以看到，这其实就是调用了ip_local_deliver()函数，而ip_local_deliver(),接着就调用了ip_local_deliver_finish()。现在真正到了往上层传递数据包的时候了。

　　现在的情形和网络核心模块层(core) 往上层传递数据包的情形非常相似,怎么从多个协议选择合适的协议，并且往这个协议传递数据呢？网络网络核心模块层(core) 通过一个数组ptype_base[16]保存了注册了的所有可以接收数据的协议，同样网络协议层也定义了这样一个数组struct net_protocol*inet_protos[MAX_INET_PROTOS](/linux/net/ipv4/protocol.c#L102),它保存了所有需要从IP协议层接收数据的上层协议(IGMP，TCP，UDP，ICMP)的接收处理函数的地址。我们来看看TCP协议的数据结构是怎么样的：

　　linux/net/ipv4/protocol.c line67
　　static struct inet_protocol tcp_protocol = {
　　handler: tcp_v4_rcv,// 接收数据的函数
　　err_handler: tcp_v4_err,// 出错处理的函数
　　next: IPPROTO_PREVIOUS,
　　protocol: IPPROTO_TCP,
　　name: "TCP"
　　};

　　第一项就是我们最关心的了，IP层可以通过这个函数把数据包往TCP层传的。在linux/net/ipv4/protocol.c的上部，我们可以看到其它协议层的处理函数是igmp_rcv(),
udp_rcv(), icmp_rcv()。同样在linux/net/ipv4/protocol.c，往数组inet_protos[MAX_INET_PROTOS] 里面添加协议是通过函数inet_add_protocol()实现的，删除协议是通过 inet_del_protocol()实现的。inet_protos[MAX_INET_PROTOS]初始化的过程在linux/net/ipv4/af_inet.c inet_init()初始化函数里面。

　　inet_init(){
　　……
　　printk(KERN_INFO "IP Protocols: ");
　　for (p = inet_protocol_base; p != NULL;) {
　　struct inet_protocol *tmp = (struct inet_protocol *) p->next;
　　inet_add_protocol(p);// 添加协议
　　printk("%s%s",p->name,tmp?", ":"\n");
　　p = tmp;
　　………
　　}

　　如果你在Linux启动的时候有留意启动的信息, 或者在linux下打命令dmesg就可以看到这一段程序输出的信息：
　　IP Protocols： ICMP，UDP，TCP，IGMP也就是说现在数组inet_protos[]里面有了ICMP，UDP，TCP，IGMP四个协议的inet_protocol数据结构，数据结构包含了它们接收数据的处理函数。

　　Linux 2.4.16在linux/include/linux/socket.h里定义了32种支持的BSDsocket协议，常见的有TCP/IP,IPX/SPX,X.25等，而每种协议还提供不同的服务，例如TCP/IP协议通过TCP协议支持连接服务，而通过UDP协议支持无连接服务，面对这么多的协议，向用户提供统一的接口是必要的，这种统一是通过socket来进行的。

　　在BSD socket网络编程的模式下，利用一系列的统一的函数来利用通信的服务。例如一个典型的利用TCP协议通信程序是这样：

　　sock_descriptor = socket(AF_INET,SOCK_STREAM,0);
　　connect(sock_descriptor, 地址，) ；
　　send(sock_descriptor,”hello world”);
　　recv(sock_descriptor,buffer,1024,0);

　　第一个函数指定了协议Inet协议，即TCP/IP协议，同时是利用面向连接的服务，这样就对应到TCP协议，以后的操作就是利用socket的标准函数进行的。

　　从上面我们可以看到两个问题，首先socket层需要根据用户指定的协议族(上面是AF_INET)
从下面32种协议中选择一种协议来完成用户的要求，当协议族确定以后，还要把特定的服务映射到协议族下的具体协议，例如当用户指定的是面向连接的服务时，Inet协议族会映射到TCP协议。

　　从多个协议中选择用户指定的协议，并把具体的出理交给选中的协议，这和一起网络核心层向上和向下衔接的问题本质上是一样的，所以解决的方法也是一样的，同样还是通过数组。在Linux/net/socket.c定义了这个数组staticstruct net_proto_family *net_families[NPROTO] 。数组的元素已经确定了，net_families[2] 是TCP/IP协议，net_families[3]

　　是X.25协议，具体那一项对应什么协议，在include/linux/socket.h有定义。但是每一项的数据结构net_proto_family的ops是空的，也就是具体协议处理函数的地址是不知道的。协议的处理函数和ops建立联系是通过sock_register()(Linux/net/socket.c)这个函数建立的，例如TCP/IP协议的是这样建立关系的：

　　int __init inet_init(void) (net/ipv4/af_inet.c)
　　{
　　(void) sock_register(&inet_family_ops);

　　}

　　只要给出AF_INET(在宏里定义是2)，就可以找到net_failies[2] 里面的处理函数了。

　　协议的映射完成了，现在要进行服务的映射了。上层当然不可能知道下层的什么协议能对应特定的服务，所以这种映射自然由协议族自己完成。在TCP/IP协议族里，这种映射是通过struct
list_head inetsw[SOCK_MAX]( net/ipv4/af_inet.c)

　　这个数组进行映射的，在谈论这个数组之前我们来看另外一个数组inetsw_array[](net/ipv4/af_inet.c)

　　static struct inet_protosw inetsw_array[] =
　　{
　　{
　　type: SOCK_STREAM,
　　protocol: IPPROTO_TCP,
　　prot: &tcp_prot,
　　ops: &inet_stream_ops,
　　capability: -1,
　　no_check: 0,
　　flags: INET_PROTOSW_PERMANENT,
　　},

　　{
　　type: SOCK_DGRAM,
　　protocol: IPPROTO_UDP,
　　prot: &udp_prot,
　　ops: &inet_dgram_ops,
　　capability: -1,
　　no_check: UDP_CSUM_DEFAULT,
　　flags: INET_PROTOSW_PERMANENT,
　　},

　　{
　　type: SOCK_RAW,
　　protocol: IPPROTO_IP, /* wild card */
　　prot: &raw_prot,
　　ops: &inet_dgram_ops,
　　capability: CAP_NET_RAW,
　　no_check: UDP_CSUM_DEFAULT,
　　flags: INET_PROTOSW_REUSE,
　　}
　　};

　　我们看到，SOCK_STREAM映射到了TCP协议，SOCK_DGRAM映射到了UDP协议，SOCK_RAW映射到了IP协议。现在只要把inetsw_array里的三项添加到数组inetsw[SOCK_MAX]就可以了，添加是通过函数inet_register_protosw()实现的。在inet_init()

　　(net/ipv4/af_inet.c) 里完成了这些工作。

　　还有一个需要映射的就是socket其它诸如accept,send(),

　　connect(),release(),bind()等的操作函数是怎么映射的呢？我们来看一下上面的数组的TCP的项
　　{
　　type: SOCK_STREAM,
　　protocol: IPPROTO_TCP,
　　prot: &tcp_prot,
　　ops: &inet_stream_ops,
　　capability: -1,
　　no_check: 0,
　　flags: INET_PROTOSW_PERMANENT,
　　},

　　我们看到这种映射是通过ops，和prot来映射的，我们再来看看 tcp_prot这一项：

　　struct proto tcp_prot = {
　　name: "TCP",
　　close: tcp_close,
　　connect: tcp_v4_connect,
　　disconnect: tcp_disconnect,
　　accept: tcp_accept,
　　ioctl: tcp_ioctl,
　　init: tcp_v4_init_sock,
　　destroy: tcp_v4_destroy_sock,
　　shutdown: tcp_shutdown,
　　setsockopt: tcp_setsockopt,
　　getsockopt: tcp_getsockopt,
　　sendmsg: tcp_sendmsg,
　　recvmsg: tcp_recvmsg,
　　backlog_rcv: tcp_v4_do_rcv,
　　hash: tcp_v4_hash,
　　unhash: tcp_unhash,
　　get_port: tcp_v4_get_port,
　　};

　　所以的映射都已经完成了，用户调用connect()函数，其实就是调用了tcp_v4_connect()函数，按照这幅图，读起源码来就简单了很多了。

　　六 Socket层

　　上一节把socket层大多数要讨论的东西都谈论了，现在只讲讲socket 层和用户的衔接。

　　系统调用socket(),bind(),connect(),accept,send(),release()等是在Linux/net/socket.c里面的实现的,系统调用实现的函数是相应的函数名加上sys_的前缀。

　　现在看看当用户调用socket()这个函数，到底下面发生了什么。

　　Socket(AF_INET,SOCK_STREAM,0)调用了sys_socket(),sys_socket()接着调用socket_creat(),socket_creat()就要根据用户提供的协议族参数在net_families[]里寻找合适的协议族，如果协议族没有被安装就要请求安装该协议族的模块，然后就调用该协议族的create()函数的处理句柄。根据参数AF_INET，inet_creat()就被调用了，在inet_creat()根据服务类型在inetsw[SOCK_MAX]

　　选择合适的协议，并把协议的操作集赋给socket就是了，根据SOCK_STREAM，TCP协议被选中，
　　inet_creat(){
　　answer=inetsw [用户要求服务服务] ；
　　sock->ops = answer->ops;
　　sk->prot = answer->prot
　　}

　　到此为止，上下都打通了，该是大家都源码的时候了。

发表时间:2005-12-27 08:39

阅读(1605) | 评论(0) | 转发(0) |

上一篇：linux设备驱动实践5（ldd2的scullc)

下一篇：关于spin_lock

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6