分享

linux下ip协议(V4)的实现(一)

 WUCANADA 2013-01-04
首先来看校验相关的一些结构:

1 net_device结构:

包含一个features的域,这个表示设备的一些特性(比如控制校验),下面的几个flag就是用来控制校验:

Java代码  收藏代码
  1. #define NETIF_F_IP_CSUM     2   /* Can checksum TCP/UDP over IPv4. */  
  2. #define NETIF_F_NO_CSUM     4   /* Does not require checksum. F.e. loopack. */  
  3. #define NETIF_F_HW_CSUM     8   /* Can checksum all the packets. */  
  4. #define NETIF_F_IPV6_CSUM   16  /* Can checksum TCP/UDP over IPV6 */  


每个flags的介绍,注释里面都写得很清楚,这里就不一一解释了。这里要注意的是NETIF_F_HW_CSUM,他其实表示在硬件上为所有协议校验。

2 sk_buff:

skb->csum和skb->ip_summed这两个域也是与校验相关的,这两个域的含义依赖于skb表示的是一个输入包还是一个输出帧。

当数据包是一个输入包时,skb->csum表示的是当前数据包的4层的checksum值,skb->ip_summed表示的是 四层校验的状态,下面的几个宏定义表示了设备驱动传递给4层的一些信息(通过ip_sumed),这里要注意,一旦当四层接受了这个包,他可能会改变 ip_summed的值。

Java代码  收藏代码
  1. /* Don't change this without changing skb_csum_unnecessary! */  
  2. #define CHECKSUM_NONE 0  
  3. #define CHECKSUM_UNNECESSARY 1  
  4. #define CHECKSUM_COMPLETE 2  


CHECKSUM_NONE表示csum域中的校验值是错误的,也就是校验失败。这里要注意的是,一般来说当2层的校验失败后,驱动会直接丢掉这 个包,可是如果输入帧是要被forward的,那么路由器不应该由于一个四层的校验失败而丢掉这个包(路由器不建议查看四层的校验值),它将会将这位置为 CHECKSUM_NONE,然后将包发向目的地址,交由目的地址的主机来进行处理。

CHECKSUM_UNNECESSARY表示网卡已经计算和验证了四层的头和校验值。也就是计算了tcp udp的伪头。还有一种情况就是回环,因为在回环中错误发生的概率太低了,因此就不需要计算校验来节省cpu事件。

CHECKSUM_COMPLETE表示nic已经计算了4层头的校验,并且csum已经被赋值,此时4层的接收者只需要加伪头并验证校验结果。

接下来我们来看当数据包是输出包时的情况,此时csum表示为一个指针,它表示硬件网卡存放将要计算的校验值的地址。这个域在输出包时使用,只在 校验值在硬件计算的情况下。比如NAT,它会修改ip头,此时就需要重新计算4层的校验值,也就是从4层传递下来的4层校验值需要在底层进行修改。当修改 后,我们在底层就可以通过csum来存取这个校验值。

而此时ip_summed可以被设置的值有下面两种:
Java代码  收藏代码
  1. #define CHECKSUM_NONE 0  
  2. #define CHECKSUM_COMPLETE 2  


这时含义就完全不一样了。第一个表示已经计算好了校验值,设备不需要做任何事。

第二个表示4层的伪头的校验已经完毕,并且已经加入到ip头中,此时只需要设备计算整个头4层头的校验值。


主要来看一下ip输入数据包的处理,也就是ip协议处理函数。

具体的协议注册什么的,可以看我前面的blog,这里我们知道处理ip输入的函数是ip_rcv.

先来看下当执行ip_rcv执行之前,sk_buff的结构:




Java代码  收藏代码
  1. int ip_rcv(struct sk_buff *skb, struct net_device *dev, struct packet_type *pt, struct net_device *orig_dev)  
  2. {  
  3.     struct iphdr *iph;  
  4.     u32 len;  
  5.   
  6.     ///我们知道当为PACKET_OTHERHOST是,2层就会直接丢掉所有的包,可是如果网卡被设置为混杂模式,此时包就会传递到3层,这个时侯内核会有hook来处理这个,而我们这里就只需要直接丢掉所有的包。  
  7.     if (skb->pkt_type == PACKET_OTHERHOST)  
  8.         goto drop;  
  9.   
  10.     IP_INC_STATS_BH(dev_net(dev), IPSTATS_MIB_INRECEIVES);  
  11.   
  12. ///检测这个数据包是否被内核其他部分使用,也就是监测引用计数。如果有被其他部分使用,则直接复制一份副本,然后返回。  
  13.     if ((skb = skb_share_check(skb, GFP_ATOMIC)) == NULL) {  
  14.         IP_INC_STATS_BH(dev_net(dev), IPSTATS_MIB_INDISCARDS);  
  15.         goto out;  
  16.     }  
  17.   
  18. //检测skb->data的数据至少要和ip头大小一样。(这个原因很简单,每个包都必须包含一个ip头,如果比ip头还小,说明包头有错误了。  
  19.     if (!pskb_may_pull(skb, sizeof(struct iphdr)))  
  20.         goto inhdr_error;  
  21. ///取出ip头  
  22.     iph = ip_hdr(skb);  
  23.   
  24.     /* 
  25.      *  RFC1122: 3.2.1.2 MUST silently discard any IP frame that fails the checksum. 
  26.      * 
  27.      *  Is the datagram acceptable? 
  28.      * 
  29.      *  1.  Length at least the size of an ip header 
  30.      *  2.  Version of 4 
  31.      *  3.  Checksums correctly. [Speed optimisation for later, skip loopback checksums] 
  32.      *  4.  Doesn't have a bogus length 
  33.      */  
  34.   
  35. ///ip 头的ihl域表示ip头的大小(就是也就是IP层头部包含多少个32位),version表示ip协议版本,这里第一个检测的原因是基本ip头的大小是 20个字节,也就是最小为20个字节,20*8/32=5,所以最小必须是5。而这里版本,由于这个只处理ipv4,因此version必须是4.  
  36.     if (iph->ihl < 5 || iph->version != 4)  
  37.         goto inhdr_error;  
  38.   
  39. ///这次来检测整个ip头的大小(包括option)和skb->data.这个检测到这里才执行,是因为,必须首先确定ip头的基本正确。  
  40.     if (!pskb_may_pull(skb, iph->ihl*4))  
  41.         goto inhdr_error;  
  42.   
  43.     iph = ip_hdr(skb);  
  44.   
  45. ///开始校验ip头,也就是开始三层校验。  
  46.     if (unlikely(ip_fast_csum((u8 *)iph, iph->ihl)))  
  47.         goto inhdr_error;  
  48. ///取出整个ip头的长度(包括option)  
  49.     len = ntohs(iph->tot_len);  
  50. ///接下来的检测是因为在2层由于要满足最小帧的大小,因此可能会填充一些空数据,而三层ip头计算长度时,会忽略这些空数据,因此这里的skb->len一定是大于或等于len  
  51.     if (skb->len < len) {  
  52.         IP_INC_STATS_BH(dev_net(dev), IPSTATS_MIB_INTRUNCATEDPKTS);  
  53.         goto drop;  
  54.     } else if (len < (iph->ihl*4))   
  55. ///这个判断是因为ip头不能被切包,也就是每个切好的包必须至少包含一个ip头。  
  56.         goto inhdr_error;  
  57.   
  58.     /* Our transport medium may have padded the buffer out. Now we know it 
  59.      * is IP we can trim to the true length of the frame. 
  60.      * Note this now means skb->len holds ntohs(iph->tot_len). 
  61.      */  
  62. ///这里也就是我们上面说的情况,需要把skb->len和len统一起来(去除掉空数据)  
  63.     if (pskb_trim_rcsum(skb, len)) {  
  64.         IP_INC_STATS_BH(dev_net(dev), IPSTATS_MIB_INDISCARDS);  
  65.         goto drop;  
  66.     }  
  67.   
  68.     /* Remove any debris in the socket control block */  
  69.     memset(IPCB(skb), 0, sizeof(struct inet_skb_parm));  
  70.   
  71. ///调用net filter hook。  
  72.     return NF_HOOK(PF_INET, NF_INET_PRE_ROUTING, skb, dev, NULL,  
  73.                ip_rcv_finish);  
  74.   
  75. inhdr_error:  
  76.     IP_INC_STATS_BH(dev_net(dev), IPSTATS_MIB_INHDRERRORS);  
  77. drop:  
  78.     kfree_skb(skb);  
  79. out:  
  80.     return NET_RX_DROP;  
  81. }  


我们这里先不详细介绍net filter,这里我们只需要知道,在NF_HOOK中,会检测每个包(通过用户空间设置的规则)然后来决定要不要这个数据包通过。最后如果允许的话,就 会调用 ip_rcv_finish函数。所以这里我们详细看下 ip_rcv_finish函数:

它主要会做两件事:

1 决定这个包是被传递给高层,还是被forward。

2 解析并执行一些ip option。

Java代码  收藏代码
  1. static int ip_rcv_finish(struct sk_buff *skb)  
  2. {  
  3.     const struct iphdr *iph = ip_hdr(skb);  
  4.     struct rtable *rt;  
  5.   
  6.     /* 
  7.      *  Initialise the virtual path cache for the packet. It describes 
  8.      *  how the packet travels inside Linux networking. 
  9.      */  
  10.   
  11. ///查找路由表的相关操作。  
  12.     if (skb->dst == NULL) {  
  13. ///查找路由。这里也会初始化skb->dst->input。  
  14.     int err = ip_route_input(skb, iph->daddr, iph->saddr, iph->tos,  
  15.                      skb->dev);  
  16.         if (unlikely(err)) {  
  17.             if (err == -EHOSTUNREACH)  
  18.                 IP_INC_STATS_BH(dev_net(skb->dev),  
  19.                         IPSTATS_MIB_INADDRERRORS);  
  20.             else if (err == -ENETUNREACH)  
  21.                 IP_INC_STATS_BH(dev_net(skb->dev),  
  22.                         IPSTATS_MIB_INNOROUTES);  
  23.             goto drop;  
  24.         }  
  25.     }  
  26.   
  27. ///QOS的相关操作.  
  28. #ifdef CONFIG_NET_CLS_ROUTE  
  29.     if (unlikely(skb->dst->tclassid)) {  
  30.         struct ip_rt_acct *st = per_cpu_ptr(ip_rt_acct, smp_processor_id());  
  31.         u32 idx = skb->dst->tclassid;  
  32.         st[idx&0xFF].o_packets++;  
  33.         st[idx&0xFF].o_bytes+=skb->len;  
  34.         st[(idx>>16)&0xFF].i_packets++;  
  35.         st[(idx>>16)&0xFF].i_bytes+=skb->len;  
  36.     }  
  37. #endif  
  38.   
  39.   
  40. ///当ihl比5大,意味着有option。因此调用ip_rcv_options来进行解析和执行。  
  41.     if (iph->ihl > 5 && ip_rcv_options(skb))  
  42.         goto drop;  
  43.     rt = skb->rtable;  
  44.     if (rt->rt_type == RTN_MULTICAST)  
  45.         IP_INC_STATS_BH(dev_net(rt->u.dst.dev), IPSTATS_MIB_INMCASTPKTS);  
  46.     else if (rt->rt_type == RTN_BROADCAST)  
  47.         IP_INC_STATS_BH(dev_net(rt->u.dst.dev), IPSTATS_MIB_INBCASTPKTS);  
  48.   
  49. /// 最后调用skb->dst->input,而这个虚函数的的值,首先是在ip_route_input中赋值,然后 在 ip_rcv_options也有可能被修改。这个虚函数要么被ip_local_deliver(也就是直接发向高层),要么是 ip_forward(直接被forward).这两个函数以后会详细介绍。  
  50.     return dst_input(skb);  
  51.   
  52. drop:  
  53.     kfree_skb(skb);  
  54.     return NET_RX_DROP;  
  55. }

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多