Linux網(wǎng)絡(luò)驅(qū)動(dòng)程序編寫(二)
二.Linux系統(tǒng)網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序
2.1 網(wǎng)絡(luò)驅(qū)動(dòng)程序的結(jié)構(gòu)
所有的Linux網(wǎng)絡(luò)驅(qū)動(dòng)程序遵循通用的接口。設(shè)計(jì)時(shí)采用的是面向?qū)ο蟮姆椒āR粋€(gè)設(shè)備就是一個(gè)對象(device 結(jié)構(gòu)),它內(nèi)部有自己的數(shù)據(jù)和方法。每一個(gè)設(shè)備的方法被調(diào)用時(shí)的第一個(gè)參數(shù)都是這個(gè)設(shè)備對象本身。這樣這個(gè)方法就可以存取自身的數(shù)據(jù)(類似面向?qū)ο蟪绦蛟O(shè)計(jì)時(shí)的this引用)。一個(gè)網(wǎng)絡(luò)設(shè)備最基本的方法有初始化、發(fā)送和接收。
初始化程序完成硬件的初始化、device中變量的初始化和系統(tǒng)資源的申請、發(fā)送程序是在驅(qū)動(dòng)程序的上層協(xié)議層有數(shù)據(jù)要發(fā)送時(shí)自動(dòng)調(diào)用的。一般驅(qū)動(dòng)程序中不對發(fā)送數(shù)據(jù)進(jìn)行緩存,而是直接使用硬件的發(fā)送功能把數(shù)據(jù)發(fā)送出去。接收數(shù)據(jù)一般是通過硬件中斷來通知的。在中斷處理程序里,把硬件幀信息填入一個(gè)skbuff結(jié)構(gòu)中,然后調(diào)用netif_rx()傳遞給上層處理.
2.2 網(wǎng)絡(luò)驅(qū)動(dòng)程序的基本方法
網(wǎng)絡(luò)設(shè)備做為一個(gè)對象,提供一些方法供系統(tǒng)訪問。正是這些有統(tǒng)一接口的方法,掩蔽了硬件的具體細(xì)節(jié),讓系統(tǒng)對各種網(wǎng)絡(luò)設(shè)備的訪問都采用統(tǒng)一的形式,做到硬件無關(guān)性。
下面解釋最基本的方法。
2.2.1 初始化(initialize)
驅(qū)動(dòng)程序必須有一個(gè)初始化方法。在把驅(qū)動(dòng)程序載入系統(tǒng)的時(shí)候會調(diào)用這個(gè)初始化程序。它做以下幾方面的工作。檢測設(shè)備。在初始化程序里你可以根據(jù)硬件的特征檢查硬件是否存在,然后決定是否啟動(dòng)這個(gè)驅(qū)動(dòng)程序。配置和初始化硬件。在初始化程序里你可以完成對硬件資源的配置,比如即插即用的硬件就可以在這個(gè)時(shí)候進(jìn)行配置(Linux內(nèi)核對PnP功能沒有很好的支持,可以在驅(qū)動(dòng)程序里完成這個(gè)功能)。配置或協(xié)商好硬件占用的資源以后,就可以向系統(tǒng)申請這些資源。有些資源是能)。配置或協(xié)商好硬件占用的資源以后,就可以向系統(tǒng)申請這些資源。有些資源是可以和別的設(shè)備共享的,如中斷。有些是不能共享的,如IO、DMA。接下來你要初始化device結(jié)構(gòu)中的變量。最后,你可以讓硬件正式開始工作。
2.2.2 打開(open)
open這個(gè)方法在網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序里是網(wǎng)絡(luò)設(shè)備被激活的時(shí)候被調(diào)用(即設(shè)備狀態(tài)由down-->up)。所以實(shí)際上很多在initialize中的工作可以放到這里來做。比如資源的申請,硬件的激活。如果dev->open返回非0(error),則硬件的狀態(tài)還是down。
open方法另一個(gè)作用是如果驅(qū)動(dòng)程序做為一個(gè)模塊被裝入,則要防止模塊卸載時(shí)設(shè)備處于打開狀態(tài)。在open方法里要調(diào)用MOD_INC_USE_COUNT宏。
2.2.3 關(guān)閉(stop)
close方法做和open相反的工作??梢葬尫拍承┵Y源以減少系統(tǒng)負(fù)擔(dān)。close是在設(shè)備狀態(tài)由up轉(zhuǎn)為down時(shí)被調(diào)用的。另外如果是做為模塊裝入的驅(qū)動(dòng)程序,close里應(yīng)該調(diào)用MOD_DEC_USE_COUNT,減少設(shè)備被引用的次數(shù),以使驅(qū)動(dòng)程序可以被卸載。另外close方法必須返回成功(0==success)。
2.2.4 發(fā)送(hard_start_xmit)
所有的網(wǎng)絡(luò)設(shè)備驅(qū)動(dòng)程序都必須有這個(gè)發(fā)送方法。在系統(tǒng)調(diào)用驅(qū)動(dòng)程序的xmit時(shí),發(fā)送的數(shù)據(jù)放在一個(gè)sk_buff結(jié)構(gòu)中。一般的驅(qū)動(dòng)程序把數(shù)據(jù)傳給硬件發(fā)出去。也有一些特殊的設(shè)備比如loopback把數(shù)據(jù)組成一個(gè)接收數(shù)據(jù)再回送給系統(tǒng),或者dummy設(shè)備直接丟棄數(shù)據(jù)。如果發(fā)送成功,hard_start_xmit方法里釋放sk_buff,返回0(發(fā)送成功)。如果發(fā)送成功,hard_start_xmit方法里釋放sk_buff,返回0(發(fā)送成功)。如果設(shè)備暫時(shí)無法處理,比如硬件忙,則返回1。這時(shí)如果dev->tbusy置為非0,則系統(tǒng)認(rèn)為硬件忙,要等到dev->tbusy置0以后才會再次發(fā)送。tbusy的置0任務(wù)一般由中斷完成。硬件在發(fā)送結(jié)束后產(chǎn)生中斷,這時(shí)可以把tbusy置0,然后用mark_bh()調(diào)用通知系統(tǒng)可以再次發(fā)送。在發(fā)送不成功的情況下,也可以不置dev->tbusy為非0,這樣系統(tǒng)會不斷嘗試重發(fā)。如果hard_start_xmit發(fā)送不成功,則不要釋放sk_buff。
傳送下來的sk_buff中的數(shù)據(jù)已經(jīng)包含硬件需要的幀頭。所以在發(fā)送方法里不需要再填充硬件幀頭,數(shù)據(jù)可以直接提交給硬件發(fā)送。sk_buff是被鎖住的(locked),確保其他程序不會存取它。
2.2.5 接收(reception)
驅(qū)動(dòng)程序并不存在一個(gè)接收方法。有數(shù)據(jù)收到應(yīng)該是驅(qū)動(dòng)程序來通知系統(tǒng)的。一般設(shè)備收到數(shù)據(jù)后都會產(chǎn)生一個(gè)中斷,在中斷處理程序中驅(qū)動(dòng)程序申請一塊sk_buff(skb),從硬件讀出數(shù)據(jù)放置到申請好的緩沖區(qū)里。接下來填充sk_buff中的一些信息。skb->dev = dev,判斷收到幀的協(xié)議類型,填入skb->protocol(多協(xié)議的支持)。把指針skb->mac.raw指向硬件數(shù)據(jù)然后丟棄硬件幀頭(skb_pull)。還要設(shè)置skb->pkt_type,標(biāo)明第二層(鏈路層)數(shù)據(jù)類型??梢允且韵骂愋停?
PACKET_BROADCAST : 鏈路層廣播
PACKET_MULTICAST : 鏈路層組播
PACKET_SELF : 發(fā)給自己的幀
PACKET_OTHERHOST : 發(fā)給別人的幀(監(jiān)聽模式時(shí)會有這種幀)
最后調(diào)用netif_rx()把數(shù)據(jù)傳送給協(xié)議層。netif_rx()里數(shù)據(jù)放入處理隊(duì)列然后返最后調(diào)用netif_rx()把數(shù)據(jù)傳送給協(xié)議層。netif_rx()里數(shù)據(jù)放入處理隊(duì)列然后返回,真正的處理是在中斷返回以后,這樣可以減少中斷時(shí)間。調(diào)用netif_rx()以后,驅(qū)動(dòng)程序就不能再存取數(shù)據(jù)緩沖區(qū)skb。
2.2.6 硬件幀頭(hard_header)
硬件一般都會在上層數(shù)據(jù)發(fā)送之前加上自己的硬件幀頭,比如以太網(wǎng)(Ethernet)就有14字節(jié)的幀頭。這個(gè)幀頭是加在上層ip、ipx等數(shù)據(jù)包的前面的。驅(qū)動(dòng)程序提供一個(gè)hard_header方法,協(xié)議層(ip、ipx、arp等)在發(fā)送數(shù)據(jù)之前會調(diào)用這段程序。硬件幀頭的長度必須填在dev->hard_header_len,這樣協(xié)議層回在數(shù)據(jù)之前保留好硬件幀頭的空間。這樣hard_header程序只要調(diào)用skb_push然后正確填入硬件幀頭就可以了。
在協(xié)議層調(diào)用hard_header時(shí),傳送的參數(shù)包括(2.0.xx):數(shù)據(jù)的sk_buff,
device指針,protocol,目的地址(daddr),源地址(saddr),數(shù)據(jù)長度(len)。數(shù)據(jù)長度不要使用sk_buff中的參數(shù),因?yàn)檎{(diào)用hard_header時(shí)數(shù)據(jù)可能還沒完全組織好。saddr是NULL的話是使用缺省地址(default)。daddr是NULL表明協(xié)議層不知道硬件目的地址。如果hard_header完全填好了硬件幀頭,則返回添加的字節(jié)數(shù)。如果硬件幀頭中的信息還不完全(比如daddr為NULL,但是幀頭中需要目的硬件地址。典型的情況是以太網(wǎng)需要地址解析(arp)),則返回負(fù)字節(jié)數(shù)。hard_header返回負(fù)數(shù)的情況下,協(xié)議層會做進(jìn)一步的build header的工作。目前Linux系統(tǒng)里就是做arp(如果hard_header返回正,dev->arp=1,表明不需要做arp,返回負(fù),dev->arp=0,做arp)。對hard_header的調(diào)用在每個(gè)協(xié)議層的處理程序里。如ip_output。
2.2.7 地址解析(xarp)
有些網(wǎng)絡(luò)有硬件地址(比如Ethernet),并且在發(fā)送硬件幀時(shí)需要知道目的硬件地址。這樣就需要上層協(xié)議地址(ip、ipx)和硬件地址的對應(yīng)。這個(gè)對應(yīng)是通過地址解析完成的。需要做arp的的設(shè)備在發(fā)送之前會調(diào)用驅(qū)動(dòng)程序的rebuild_header方法。調(diào)用的主要參數(shù)包括指向硬件幀頭的指針,協(xié)議層地址。如果驅(qū)動(dòng)程序能夠解析硬件地址,就返回1,如果不能,返回0。
對rebuild_header的調(diào)用在net/core/dev.c的do_dev_queue_xmit()里。
2.2.8 參數(shù)設(shè)置和統(tǒng)計(jì)數(shù)據(jù)
在驅(qū)動(dòng)程序里還提供一些方法供系統(tǒng)對設(shè)備的參數(shù)進(jìn)行設(shè)置和讀取信息。一般只有超級用戶(root)權(quán)限才能對設(shè)備參數(shù)進(jìn)行設(shè)置。設(shè)置方法有:
dev->set_mac_address()
當(dāng)用戶調(diào)用ioctl類型為SIOCSIFHWADDR時(shí)是要設(shè)置這個(gè)設(shè)備的mac地址。一般對mac地址的設(shè)置沒有太大意義的。
dev->set_config()
當(dāng)用戶調(diào)用ioctl時(shí)類型為SIOCSIFMAP時(shí),系統(tǒng)會調(diào)用驅(qū)動(dòng)程序的set_config方法。用戶會傳遞一個(gè)ifmap結(jié)構(gòu)包含需要的I/O、中斷等參數(shù)。
dev->do_ioctl()
dev->do_ioctl()
如果用戶調(diào)用ioctl時(shí)類型在SIOCDEVPRIVATE和SIOCDEVPRIVATE+15之間,系統(tǒng)會調(diào)用驅(qū)動(dòng)程序的這個(gè)方法。一般是設(shè)置設(shè)備的專用數(shù)據(jù)。
讀取信息也是通過ioctl調(diào)用進(jìn)行。除次之外驅(qū)動(dòng)程序還可以提供一個(gè)
dev->get_stats方法,返回一個(gè)enet_statistics結(jié)構(gòu),包含發(fā)送接收的統(tǒng)計(jì)信息。
ioctl的處理在net/core/dev.c的dev_ioctl()和dev_ifsioc()里。
2.3 網(wǎng)絡(luò)驅(qū)動(dòng)程序中用到的數(shù)據(jù)結(jié)構(gòu)
最重要的是網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)結(jié)構(gòu)。定義在include/linux/netdevice.h里。它的注釋已經(jīng)足夠詳盡。
struct device
{
/*
* This is the first field of the visible part of this structure
* (i.e. as seen by users in the Space.c file). It is the name
* the interface.
*/
char *name;
/* I/O specific fields - FIXME: Merge these and struct ifmap into one */
unsigned long rmem_end; /* shmem recv end */
unsigned long rmem_end; /* shmem recv end */
unsigned long rmem_start; /* shmem recv start */
unsigned long mem_end; /* shared mem end */
unsigned long mem_start; /* shared mem start */
unsigned long base_addr; /* device I/O address */
unsigned char irq; /* device IRQ number */
/* Low-level status flags. */
volatile unsigned char start, /* start an operation */
interrupt; /* interrupt arrived */
/* 在處理中斷時(shí)interrupt設(shè)為1,處理完清0。 */
unsigned long tbusy; /* transmitter busy must be long
for
struct device *next;
/* The device initialization function. Called only once. */
/* 指向驅(qū)動(dòng)程序的初始化方法。 */
int (*init)(struct device *dev);
/* Some hardware also needs these fields, but they are not part of the
usual set specified in Space.c. */
/* 一些硬件可以在一塊板上支持多個(gè)接口,可能用到if_port。 */
unsigned char if_port; /* Selectable AUI, TP,..*/
unsigned char dma; /* DMA channel */
struct enet_statistics* (*get_stats)(struct device *dev);
/*
* This marks the end of the visible part of the structure. All
* fields hereafter are internal to the system, and may change at
* will (read: may be cleaned up at will).
*/
/* These may be needed for future network-power-down code. */
/* trans_start記錄最后一次成功發(fā)送的時(shí)間??梢杂脕泶_定硬件是否工作正常。*/
unsigned long trans_start; /* Time (in jiffies) of last Tx */
unsigned long last_rx; /* Time of last Rx */
/* flags里面有很多內(nèi)容,定義在include/linux/if.h里。*/
unsigned short flags; /* interface flags (a la BSD) */
unsigned short family; /* address family ID (AF_INET) */
unsigned short metric; /* routing metric (not used) */
unsigned short mtu; /* interface MTU value */
/* type標(biāo)明物理硬件的類型。主要說明硬件是否需要arp。定義在
include/linux/if_arp.h里。 */
unsigned short type; /* interface hardware type */
/* 上層協(xié)議層根據(jù)hard_header_len在發(fā)送數(shù)據(jù)緩沖區(qū)前面預(yù)留硬件幀頭空間。*/
unsigned short hard_header_len; /* hardware hdr length */
/* priv指向驅(qū)動(dòng)程序自己定義的一些參數(shù)。*/
void *priv; /* pointer to private data */
/* Interface address info. */
unsigned char broadcast[MAX_ADDR_LEN]; /* hw bcast add */
unsigned char pad; /* make dev_addr aligned
to 8
bytes */
unsigned char dev_addr[MAX_ADDR_LEN]; /* hw address */
unsigned char addr_len; /* hardware address length */
unsigned long pa_addr; /* protocol address */
unsigned long pa_brdaddr; /* protocol broadcast addr */
unsigned long pa_dstaddr; /* protocol P-P other side addr */
unsigned long pa_mask; /* protocol netmask */
struct dev_mc_list *mc_list; /* Multicast mac addresses */
int mc_count; /* Number of installed mcasts */
struct ip_mc_list *ip_mc_list; /* IP multicast filter chain */
__u32 tx_queue_len; /* Max frames per queue allowed */
/* For load balancing driver pair support */
unsigned long pkt_queue; /* Packets queued */
struct device *slave; /* Slave device */
struct net_alias_info *alias_info; /* main dev alias info */
struct net_alias *my_alias; /* alias devs */
/* Pointer to the interface buffers. */
struct sk_buff_head buffs[DEV_NUMBUFFS];
/* Pointers to interface service routines. */
int (*open)(struct device *dev);
int (*hard_start_xmit) (struct sk_buff *skb,
struct device *dev);
int (*hard_header) (struct sk_buff *skb,
struct device *dev,
unsigned short type,
void *daddr,
void *saddr,
unsigned len);
int (*rebuild_header)(void *eth, struct device *dev,
unsigned long raddr, struct sk_buff *skb);
#define HAVE_MULTICAST
void (*set_multicast_list)(struct device *dev);
#define HAVE_SET_MAC_ADDR
int (*set_mac_address)(struct device *dev, void *addr);
#define HAVE_PRIVATE_IOCTL
int (*do_ioctl)(struct device *dev, struct ifreq *ifr, int
cmd);
#define HAVE_SET_CONFIG
int (*set_config)(struct device *dev, struct ifmap *map);
#define HAVE_HEADER_CACHE
void (*header_cache_bind)(struct hh_cache **hhp, struct dev
ice
*dev, unsigned short htype, __u32 daddr);
*dev, unsigned short htype, __u32 daddr);
void (*header_cache_update)(struct hh_cache *hh, struct dev
ice
*dev, unsigned char * haddr);
#define HAVE_CHANGE_MTU
struct iw_statistics* (*get_wireless_stats)(struct device *dev);
評論