Linux网卡驱动
NE2000以太网卡的基础上进行的。
只要看懂一块网卡的驱动,那么其他网卡的驱动是类似的,模块的划分也是一致的,只是具体的函数和芯片的操作有区别。
文档中红色的标注都是重点。
自己看代码的时候避免依赖于硬件和芯片的代码,而对整个网络设备管理机制的学习,并关注一般网络设备所共有的东西。
一. 网络设备驱动
网络的物理设备,称为接口(Interface)。所有对网络硬件的访问都是通过接口进行的,接口提供了一个对所有类型的硬件一致化的操作集合来处理基本数据的发送和接收。
一个网络接口被看作是一个发送和接收数据包(packets)的实体。
对于每个网络接口,都用一个device的数据结构表示,有关该数据结构的具体内容,将在本文的后面详细介绍,周日的代码中已经将主要的部分注释了。
网络设备是一个物理设备如以太网卡,但软件也可以作为网络设备,如回送设备(loopback)。
在内核启动时,通过网络设备驱动程序,将登记存在的网络设备。设备用标准的支持网络的机制来转递收到的数据到相应的网络层。
所有被发送和接收的包都用数据结构sk_buff表示。这是一个具有很好的灵活性的数据结构,可以很容易增加或删除网络协议数据包的首部,是和上层的接口,对于IP层的网络来说,只能识别和区分skbuff。
网络接口的核心用一个device数据结构表示的。网络设备在做数据包发送和接收时,直接通过接口访问。
网络接口是在系统初始化时实时生成的,对于核心支持的但不存在的物理网络设备,将不可能有与之相对应的device结构。
在内核中也存在着一张网络接口管理表dev_base,但与前两张表不同,dev_base是指向device结构的指针,因为网络设备是通过device数据结构来表示的。dev_base实际上是一条device结构链表的表头,在系统初始化完成以后,系统检测到的网络设备将自动地保存在这张链表中,其中每一个链表单元表示一个存在的物理网络设备。当要发送数据时,网络子系统将根据系统路由表选择相应的网络接口进行数据传输,而当接收到数据包时,通过驱动程序登记的中断服务程序进行数据的接收处理。
网络设备工作原理图:
每一个具体的网络接口都应该有一个名字,以在系统中能唯一标识一个网络接口。通常一个名字仅表明该接口的类型。Linux对网络设备命名有以下约定:(其中N为一个非负整数)
ethN 以太网接口,包括10Mbps和100Mbps,对应到代码里的字符串“eth%d”;
trN 令牌环接口;
slN SLIP网络接口;
pppN PPP网络接口,包括同步和异步;
plipN PLIP网络接口,其中N与打印端口号相同;
tunlN IPIP压缩频道网络接口;
nrN NetROM虚拟设备接口;
isdnN ISDN网络接口;
dummyN 空设备;
lo 回送网络接口。
二. struct device
这里是我从代码里拷回来的,和代码里的注释是对应的,最好和代码一起看;
/* from include/linux/netdevice.h */
struct device
{
1. 属性
char *name;
设备的名字。如果第一字符为NULL(即’\0’),register_netdev (drivers/net/net_init.c)将会赋给它一个n最小的可用网络设备名ethn。
unsigned long rmem_end; /* shmem "recv" end */
unsigned long rmem_start; /* shmem "recv" start */
unsigned long mem_end; /* shared mem end */
unsigned long mem_start; /* shared mem start */
这些域段标识被设备使用的共享内存的首地址及尾地址。如果设备用来接收和发送的内存块不同,则mem域段用来标识发送的内存位置,rmem用来标识接收的内存位置。mem_start和mem_end可在系统启动时用内核的命令行指定,用ifconfig可以查看它们的值。rmem域段从来不被驱动程序以外的程序所引用。
unsigned long base_addr; /* device I/O address */
unsigned char irq; /* device IRQ number */
I/O基地址和中断号。它们都是在设备检测期间被赋值的,但也可以在系统启动时指定传入(如传给LILO)。ifconfig命令可显示及修改他们的当前值。
volatile unsigned char start; /* start an operation */
volatile unsigned char interrupt; /* interrupt arrived */
这是两个二值的低层状态标志。通常在设备打开时置start标志,在设备关闭时清start标志。当interrupt置位时,表示有一个中断已到达且正在进行中断服务程序理。
unsigned long tbusy; /* transmitter busy must be long for bitops */
标识“发送忙”。在驱动程序不能接受一个新的需传输的包时,该域段应该为非零。
struct device *next;
指向下一个网络设备,用于维护链表。
unsigned char if_port;
记录哪个硬件I/O端口正在被接口所用,如BNC,AUI,TP等(drivers/net/de4x5.h)。
unsigned char dma;
设备用的DMA通道。
一些设备可能需要以上两个域段,但非必需的。
unsigned long trans_start; /* Time (in jiffies) of last Tx */
上次传输的时间点(in jiffies)
unsigned long last_rx; /* Time of last Rx */
上次接收的时间点(in jiffies)。如trans_start可用来帮助内核检测数据传输的死锁(lockup)。
unsigned short flags; /* interface flags (BSD) */
该域描述了网络设备的能力和特性。它包括以下flags:(include/linux/if.h)
IFF_UP
表示接口在运行中。当接口被激活时,内核将置该标志位。
IFF_BROADCAST
表示设备中的广播地址时有效的。以太网支持广播。
IFF_DEBUG
调试模式,表示设备调试打开。当想控制printk及其他一些基于调试目的的信息显示时,可利用这个标志位。虽然当前没有正式的驱动程序使用它,但它可以在程序中通过ioctl来设置从而使用它。
IFF_LOOPBACK
表示这是一个回送(loopback)设备,回送接口应该置该标志位。核心是通过检查此标志位来判断设备是否是回送设备的,而不是看设备的名字是否是lo。
IFF_POINTTOPOINT
表示这是一个点对点链接(SLIP and PPP),点对点接口必须置该标志位。Ifconfig也可以置此标志位及清除它。若置上该标志位,则dev->dstaddr应也相应的置为链接对方的地址。
IFF_MASTER /* master of a load balancer */
IFF_SLAVE /* slave of a load balancer */
此两个标志位在装入平等化中要用到。
IFF_NOARP
表示不支持ARP协议。通常的网络接口能传输ARP包,如果想让接口不执行ARP,可置上该标志位。如点对点接口不需要运行ARP。
IFF_PROMISC
全局接受模式。在该模式下,设备将接受所有的包,而不关这些包是发给谁的。在缺省情况下,以太网接口会使用硬件过滤,以保证只接受广播包及发给本网络接口的包。Sniff的原理就是通过设置网络接口为全局接受模式,接受所有到达本接口媒介的包,来“偷听”本子网的“秘密”。
IFF_MULTICAST
能接收多点传送的IP包,具有多点传输的能力。ether_setup缺省是置该标志位的,故若不想支持多点传送,必须在初始化时清除该标志位。
IFF_ALLMULTI
接收所有多点传送的IP包。
IFF_NOTRAILERS /*无网络TRAILER*/
IFF_RUNNING /*资源被分配*/
unsigned short family; /* address family ID (AF_INET) */
该域段标识本设备支持的协议地址簇。大部分为AF_INET(英特网IP协议),接口通常不需要用这个域段或赋值给它。
unsigned short metric; /* routing metric (not used) */
unsigned short mtu;
不包括数据链路层帧首帧尾的最大传输单位(Maximum Transfer Unit)。网络层在包传输时要用到。对以太网而言,该域段为1500,不包括MAC帧的帧首和帧尾(MAC帧格式稍后所示)。
unsigned short type; /* interface hardware type */
接口的硬件类型,描述了与该网络接口绑在一起的媒介类型。Linux网络设备支持许多不同种类的媒介,如以太网,X.25,令牌环,SLIP,PPP,Apple Localtalk等。ARP在判定接口支持哪种类型的物理地址时要用到该域段。若是以太网接口,则在ether_setup中将之设为ARPHRD_ETHER(Ethernet 10Mbps)。
unsigned short hard_header_len; /* hardware hdr length */
在被传送的包中IP头之前的字节数。对于以太网接口,该域段为14(ETH_HLEN,include\linux\if_ether.h),这个值可由MAC帧的格式得出:
MAC帧格式:
目的地址(6字节)+ 源地址(6字节)+ 数据长度(2字节)+ 数据(46~~1500)+FCS
void *priv; /* pointer to private data */
该指针指向私有数据,通常该数据结构中包括struct enet_statistics。类似于struct file的private_data指针,但priv指针是在设备初始化时被分配内存空间的(而不是在设备打开时),因为该指针指向的内容包括设备接口的统计数据,而这些数据即使在接口卸下(down)时也应可以得到的,如用户通过ifconfig查看。
unsigned char pad; /* make dev_addr aligned to 8 bytes */
unsigned char broadcast[MAX_ADDR_LEN]; /* hw bcast add */
广播地址由六个0xff构成,即表示255.255.255.255。
memset(dev->broadcast,0xFF, ETH_ALEN); (drivers/net/net_init.c)
unsigned char dev_addr[MAX_ADDR_LEN]; /* hw address */
设备的物理地址。当包传送给驱动程序传输时,要用物理地址来产生正确的帧首。
unsigned char addr_len; /* hardware address length */
物理地址的长度。以太网网卡的物理地址为6字节(ETH_ALEN)。
unsigned long pa_addr; /* protocol address */
unsigned long pa_brdaddr; /* protocol broadcast addr */
unsigned long pa_mask; /* protocol netmask */
该三个域段分别描述接口的协议地址、协议广播地址和协议的网络掩码。若dev->family为AF_INET,则它们即为IP地址。这些域段可用ifconfig赋值。
unsigned short pa_alen; /* protocol address length */
协议地址的长度。AF_INET的为4。
unsigned long pa_dstaddr; /* protocol P-P other side addr */
点对点协议接口(如SLIP、PPP)用这个域记录连接另一边的IP值。
struct dev_mc_list *mc_list; /* Multicast mac addresses */
int mc_count; /* Number of installed mcasts */
struct ip_mc_list *ip_mc_list; /* IP multicast filter chain */
这三个域段用于处理多点传输。其中mc_count表示mc_list中的项目数。
__u32 tx_queue_len; /* Max frames per queue allowed */
一个设备的传输队列能容纳的最大的帧数。对以太网,缺省为100;而plip则为节省系统资源,仅设为10。
/* For load balancing driver pair support */
unsigned long pkt_queue; /* Packets queued */
struct device *slave; /* Slave device */
struct net_alias_info *alias_info; /* main dev alias info */
struct net_alias *my_alias; /* alias devs */
struct sk_buff_head buffs[DEV_NUMBUFFS];
指向网络接口缓冲区的指针。
2. 结构中指向函数的指针,用来作为服务操作
网络接口操作可以分为两部分,一部分为基本操作,即每个网络接口都必须有的操作;另一部分是可选操作。
/* 基本操作 */
int (*init) (struct device *dev); /* Called only once. */
初始化函数的指针,仅被调用一次。当登记一个设备时,核心一般会让驱动程序初始化该设备。初始化函数功能包括以下内容:检测设备是否存在;自动检测该设备的I/O端口和中断号;填写该设备device结构的大部分域段;用kmalloc分配所需的内存空间等。若初始化失败,该设备的device结构就不会被链接到全局的网络设备表上。在系统启动时,每个驱动程序都试图登记自己,当只有那些实际存在的设备才会登记成功。这与用主设备号及次设备号索引的字符设备和块设备不同。
int (*open) (struct device *dev);
打开网络接口。每当接口被ifconfig激活时,网络接口都要被打开。Open操作做以下工作:登记一些需要的系统资源,如IRQ、DMA、I/O端口等;打开硬件;将module使用计数器加一。
int (*stop) (struct device *dev);
停止网络接口。操作内容与open相逆。
int (*hard_start_xmit) (struct sk_buff *skb, struct device *dev);
硬件开始传输。这个操作请求对一个包的传输,这个包原保存在一个socket缓冲区结构中(sk_buff)。
int (*hard_header) (struct sk_buff *skb, struct device *dev, unsigned short type,
void *daddr, void *saddr, unsigned len);
这个函数可根据先前得到的源物理地址和目的物理地址建立硬件头(hardware header)。以太网接口的缺省函数是eth_header。
int (*rebuild_header)(void *eth, struct device *dev, unsigned long raddr, struct sk_buff *skb);
在一个包被发送之前重建硬件头。对于以太网设备,若有未知的信息,缺省函数将使用ARP填写。
struct enet_statistics* (*get_stats)(struct device *dev);
当一个应用程序需要知道网络接口的一些统计数据时,可调用该函数,如ifconfig、netstat等。
/* 可选操作 */
void (*set_multicast_list)(struct device *dev);
设置多点传输的地址链表(*mc_list)。
int (*set_mac_address)(struct device *dev, void *addr);
改变硬件的物理地址。如果网络接口支持改变它的硬件物理地址,就可用这个操作。许多硬件不支持该功能。
int (*do_ioctl)(struct device *dev, struct ifreq *ifr, int cmd);
执行依赖接口的ioctl命令。
int (*set_config)(struct device *dev, struct ifmap *map);
改变接口配置。设备的I/O地址和中断号可以通过该函数进行实时修改。
void (*header_cache_bind)(struct hh_cache **hhp, struct device *dev,
unsigned short htype, __u32 daddr);
void (*header_cache_update)(struct hh_cache *hh, struct device *dev, unsigned char * haddr);
int (*change_mtu) (struct device *dev, int new_mtu);
这个函数负责使接口MTU改变后生效。如果当MTU改变时驱动程序要作一些特殊的事情,就应该写这个函数。
struct iw_statistics* (*get_wireless_stats) (struct device *dev);
};
三. 网卡的初始化
网络设备的初始化主要工作是检测设备的存在、初始化设备的device结构及在系统中登记该设备。系统内核中存在着一张网络接口管理表dev_base,但与dev_base是指向device结构的,因为网络设备是通过device数据结构来表示的。
dev_base实际上是一条device结构链表的表头,在系统初始化完成以后,系统检测到的网络设备将自动地保存在这张链表中,其中每一个链表单元表示一个存在的物理网络设备。登记成功的网络设备必定可在dev_base链表中找到。
网络设备的初始化从触发角度看可分为两类:
一类是由shell命令insmod触发的模块化驱动程序(module),只有模块化的网络设备驱动程序才能用这种方式对设备进行初始化,称为“模块初始化模式”;
另一类是系统驱动时由核心自动检测网络设备并进行初始化,我们称为“启动初始化模式”。
1. “模块初始化模式”的分析
insmod命令将调用相应模块的init_module(),装载模块。init_module函数在初始化dev->init函数指针后,将调用register_netdev()在系统登记该设备。
若登记成功,则模块装载成功,否则返回出错信息。
register_netdev首先检查设备名是否已确定,若没赋值则给它一个缺省的值ethN,N为最小的可用以太网设备号