分享

TCP时延分析法分析连接失败(详细案例)

 hh3755 2013-07-02

故障现象描述

1、故障现象描述

某运营商为3G用户提供访问的web portal系统,在每天业务高峰(22:30至23:30)时段都会接到大量的用户投诉:网站访问不了!在故障时间段, web服务器和各网络设备的进程、资源开销与平时相比并无异常;事后查看各设备的日志,也找不到故障的原因。

2、基本环境描述

用户基本网络拓扑如下图所示,3G手机用户经过无线网络后,通过3G核心网访问web portal系统,web portal系统内部由多台服务器上联到一台交换机,通过Redware做负载均衡, 再通过出口路由器和防火墙上联到3G核心网:

网络分析工具排查门户网站访问失败原因

系统管理员一直尝试通过监控服务器和网络设备本身的状态、进程和日志的手段来解决问题,但这种传统的网管方式存在以下几个难点:

系统结构复杂:系统管理员没有3G核心网的管理权限,而web portal系统内部需要监控的设备很多,工作量大,无法迅速定位是web portal系统内部还是3G核心网端的问题;

无法关联分析:不同设备的监控数据无法进行有效的关联分析,无法拿出一个整体解决方案 ;

缺乏故障回溯数据:各设备的日志系统内容有限,无法对故障进行回溯;

监控网络设备时无法获取应用信息,监控应用服务器时无?ɑ袢⊥缧畔ⅰ?/p>

分析方案设计

1、分析目标

借助网络协议分析工具,能够从网络的角度分析到应用信息,实现web portal系统端到端的性能监控,分析web portal系统在故障时间段与平时相比有何异常,最终定位到有问题的设备节点。

2、分析设备部署

在web portal的出口路由器上抓包分析,能够迅速的定位到时web portal内部问题还是3G核心网端的问题。

网络分析工具排查门户网站访问失败原因

分析情况

1、基本流量分析

流量负载分析:由下图可见,web portal系统的平均流量为8.060Mbps,与平时相比并无异常,也没有发现异常爆发的广播和组播流量;平均包长为718.507字节,并无异常。

网络分析工具排查门户网站访问失败原因

流量突发分析:由下图可见,在故障时间段,并未发现明显的流量突发。

网络分析工具排查门户网站访问失败原因

包尺寸分析:未发现异常

网络分析工具排查门户网站访问失败原因

小结:通过流量的负载和突发分析,没有发现异常现象,可以排除网络异常流量原因,可进一步分析网络层以上的信息

2、TCP连接分析

如下图所示,通过TCP统计信息我们发现:在故障时间段,总共有135个用户访问了该web服务器,建立的TCP连接数为5235个,而可疑的是这5235个连接,有2213次是通过TCP复位发送(RST)来结束连接,而不是通过正常的4次握手来结束连接。

网络分析工具排查门户网站访问失败原因

3、通过三次握手分析网络时延技巧

业界通过三次握手分析网络时延的技巧如下图所示:

网络分析工具排查门户网站访问失败原因

我们可以利用网络时延分析的技巧,为正常的TCP连接建立模型,以便在对异常连接分析时能够提供对比。

4、成功连接的分析模型

某对成功连接的TCP连接时序图如下所示:

网络分析工具排查门户网站访问失败原因

由上图可见,该客户端通过三次握手与服务器建立连接,再进行数据传输:其中,第二个数据包“SYN,ACK”与第一个数据包“SYN”的时间差T1=0.032毫秒,可视为web portal系统内部网络时延,第三个数据包“ACK”与第二个数据包“SYN,ACK”的时间差T2=102.036毫秒,可视为手机用户到web portal系统的网络时延,包括了出口路由器、3G核心网端的网络时延。

通过以上分析分析,我们可以得出这样的结论:正常情况下,web portal系统内部网络时延大致在1毫秒以内,而3G核心网端(包含出口路由器)的时延为100毫秒左右。

5、快速发现失败连接

失败的连接一般数据量较少,因此我们根据“字节”进行排序,能够快速的定位到那些响应失败的连接:

网络分析工具排查门户网站访问失败原因

6、失败原因分析

下图为某对失败连接的TCP连接时序图,从图中可以看出,该客户端向服务器发起了三次建立连接的请求,三次都以失败告终。

网络分析工具排查门户网站访问失败原因

右上图可见,服务器回应客户端同步请求的“SYN,ACK”数据包都是在1毫秒内完成的,由此可见,web portal系统能够快速的响应客户端的连接请求,并非连接失败的原因。

而在服务器同步确认后,客户端反而发送“RST(TCP复位发送)”数据包中断了连接,从而导致在10秒钟内三次连接都没有成功,从手机用户的角度来看就是“网页打不开”,之前的TCP统计中我们发现5235个连接中,有2213次这种连接失败,于是便有大量的用户投诉。

由于RST数据包来至客户端方向,我们可以初步定为问题在于:web portal出口路由器或者3G 核心网端。

进一步查看上图,我们发现这三次RST的时延分别为:

(0.398-0.032)毫秒= 0.366毫秒
(3.279895-3.275531)秒= 0.00034秒= 0.344毫秒
(9.359916-9.359537)秒=0.000379秒=0.379毫秒

全部都在1毫秒以内,结合我们之前建立的分析模型,如果该RST是由3G核心网端发起的,响应时延应?迷?00毫?胱笥遥挥性诒镜赝绲某隹诼酚善鞯腞ST包能够1毫秒内到达我们的数据分析点。通过时延的判定,可以确认出口路由器就是导致本次故障的根源。

分析结论

Web portal管理员将分析结果提交给出口路由器得厂家支持人员,厂家支持人员很快发现这是路由器的bug,最后通过升级路由器解决问题。

运营商、金融、政府及大型企业的业务系统,由于网络业务系统结构复杂、网络节点及设备繁多,且业务量日益增长,系统管理员碰到的问题也会越来越复杂;当遇到问题时,很难迅速的定位到有问题的节点,通过传统的网管方式独立的去分析每一台网络设备或服务器,就像是管中窥豹,往往消耗很多时间也解决不了问题。而通过网络协议分析工具,用“旁观”的方式、从网络角度对业务应用进行端到端的分析,能更快速、有效的定位到问题。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多