检查接口出方向是否存在Discard计数

您所在的位置:网站首页 交换机丢包故障处理 检查接口出方向是否存在Discard计数

检查接口出方向是否存在Discard计数

2023-11-24 23:44| 来源: 网络整理| 查看: 265

本节点内容也应该包含在“检查设备的接口状态”章节,但由于拥塞造成丢包的现网问题较多,所以在此单独介绍。

网络中,有时会出现在非常短的时间(毫秒级别)内收到非常多的突发数据,以至于瞬时突发速率达到平均速率的数十倍、数百倍,甚至超过端口带宽的现象。这种现象被称为微突发。网管设备或网络性能监控软件通常是基于比较长的时间(数秒到数分钟)计算网络实时带宽。在这种情况下,流量速率通常是一条比较平稳的曲线,如图9-3所示。

图9-3 宏观流量速率

但是,一秒钟对于一个高速收发数据包的接口来说是非常长的一个时间段。如果将数据更改为毫秒级进行观察,流量速率很可能是带锯齿的。如果锯齿突变很大,可以认为是微突发,如图9-4所示。

图9-4 微观流量速率

目前的运维手段很难监控到微突发,原因如下:

网管软件的数据统计依赖于设备数据的上报,且网管软件的轮询周期一般是分钟级别,计算的是平均流量。交换机默认端口带宽的统计周期是300秒,可以设置的最小统计间隔为10秒。交换机的端口峰值速率统计周期为秒级,只能计算出秒级内的平均最大值。

因此,需要通过获取报文后进行分析,才能证明网络中的确存在微突发。详细过程请参考小窍门:拥塞丢包的界定。

拥塞是指网络资源不足而造成速率下降,引入额外延时的现象。当网络中存在大量的组播流容易引起流量突发,或者多业务并存的复杂环境下,拥塞现象极为常见。流量突发导致设备接口发送带宽超出限制,设备出现拥塞丢包。

拥塞主要在以下的场景发生:

高速率端口向低速率端口发送流量,流量超过低速率端口的带宽。多个端口向一个端口发送流量,流量叠加之和超过发送端口的带宽。端口的出方向配置限速或者流量整形,发送的流量超过限速或者流量整形的阈值。网络流量存在突发,在某个时刻,端口流量超过端口的带宽。

出现拥塞丢包时,按照以下步骤处理:

检查端口是否存在Discard丢包计数。

在任意视图执行命令display interface interface-type interface-number,或在接口视图执行命令display this interface,查看设备连接用户侧端口出方向报文计数,存在Discard丢包计数则说明端口曾经存在拥塞。在业务受到影响时,观察该Discard是否增加。

如果不增加,则业务影响与Discard丢包无关。请跳过该节,参考检查是否存在环路进行问题定位。如果增加,则业务影响与Discard丢包相关,请执行下一步。 [HUAWEI] display interface GigabitEthernet 1/0/2 GigabitEthernet1/0/2 current state : UP Line protocol current state : UP Description:link-to-OLT-LB Switch Port, PVID :1, TPID : 8100(Hex), The Maximum Frame Length is 1600 IP Sending Frames' Format is PKTFMT_ETHNT_2, Hardware address is 4c1f-cc45-b1c0 Current system time: 2016-06-18 15:12:52 Port Mode: COMMON COPPER Speed : 1000,Loopback: NONE Duplex: FULL,Negotiation: ENABLE Mdi: AUTO,Flow-control: DISABLE Last 300 seconds input rate 99894144 bits/sec, 141895 packets/sec Last 300 seconds output rate 190939848 bits/sec, 271220 packets/sec Input peak rate 173002368 bits/sec, Record time: 2016-06-18 15:03:12 Output peak rate 346005880 bits/sec, Record time: 2016-06-18 15:03:12 Input:175946456 packets, 15483288128 bytes Unicast:0,Multicast:0 Broadcast:175946456,Jumbo:0 Discard:0, Pause:0 Total Error:0 CRC:0,Giants:0 Jabbers:0,Fragments:0 Runts:0,DropEvents:0 Alignments:0,Symbols:0 Ignoreds:0,Frames:0 Output:348119287 packets, 30634557621 bytes Unicast:0,Multicast:773 Broadcast:348118514,Jumbo:0 Discard:3769937,Pause:0 Total Error:0 Collisions:0,ExcessiveCollisions:0 Late Collisions:0,Deferreds:0 Buffers Purged:0

对于支持display qos queue statistics命令行的单板,可以通过该命令行了解各个队列的丢包情况。

display qos queue statistics interface gigabitethernet 1/0/1 --------------------------------------------------------- Queue ID : 0 CIR(kbps) : 0 PIR(kbps) : 1,000,000 Used Length(byte) : 239,104 Passed Packets : 47,655,381 Passed Rate(pps) : 128 Passed Bytes : 4,956,144,598 Passed Rate(bps) : 106,976 Dropped Packets : 47,655,381 Dropped Rate(pps) : 128 Dropped Bytes : 4,956,144,598 Dropped Rate(bps) : 106,976 --------------------------------------------------------- ...... 配置接口缓存管理的突发模式为增强模式,检查端口Discard计数是否增加。

当突发流量的瞬时速率超过交换机的转发能力时,交换机会将突发的数据进行缓存以便稍后发送。如果交换机没有足够的缓存,那么超出的数据只能丢弃,这就产生了拥塞丢包。

一般来说,交换机接口缓存较小,接口上的流量如果突发达到接口带宽的50%~60%左右就会出现丢包现象。而在接口上配置缓存管理的突发模式为增强模式,单个接口可以抢占到更多的剩余动态缓存,接口应对流量突发的能力更强,拥塞丢包现象就会减少。 system-view [HUAWEI] interface gigabitethernet 1/0/2 [HUAWEI-GigabitEthernet1/0/1] qos burst-mode enhanced

X1E系列单板不支持此命令。

配置为增强模式时,qos burst-mode(接口视图)命令与qos burst-mode(系统视图)命令不能同时配置,且上述两条命令均不能与qos queue length命令同时配置。

重新执行步骤1,检查端口Discard计数是否增加。

如果不增加,则拥塞问题解决。观察丢包现象是否解决,如果未解决,请跳过该节,参考检查是否存在环路进行问题定位。如果仍然增加或设备不支持qos burst-mode命令,则需要优化网络,请执行下一步。 优化网络。

一般从以下方面考虑,来进行网络优化:

端口扩容

如果有多条流量冲突,可以用更高速率的端口扩大设备之间的链路带宽,或者用Eth-Trunk增加成员端口负载分担。

对设备的上行流量做限速或进行流量整形

突发是造成网络中无规则丢包的主要原因,当突发的尺寸超过端口缓存的限制时,就会存在业务丢包,从而可能影响到客户的业务。从这方面来说,在上游设备对用户的数据做限速或进行流量整形,在一定程度上可以减少突发的产生或者减少突发尺寸,在下行设备上出现突发的拥塞丢包的可能性就会降低。

X系列单板设备可以支持HQoS,提供精细化的QoS服务。HQoS通过多级队列进一步细化区分业务流量,对多个用户、多种业务等传输对象进行统一管理和分层调度,更能保证业务流量的公平性以及平稳性。

对端口业务进行差分服务,关键业务入高优先级队列,在拥塞时得到优先处理

一般而言,接口上承载的业务比较多,有高优先级的业务(如语音,视频业务),也有低优先级的业务(如上网业务)。对于高优先级的业务在上行设备指定不同的优先级,或者在设备的入方向进优先级映射,确保在出方向时,关键业务入高优先级队列,在出方向配置PQ调度,确保高优先级的业务能够得到优先调度。

如果设备使用了组播业务,通过调整组播源服务器发包方式,对服务器发包优化,减小发生流量拥塞的情况。 小窍门:拥塞丢包的界定

端口丢包日志

对于业务端口,交换机支持定时监控端口的拥塞丢包计数。如果在统计周期内丢包计数超过阈值,则会记录丢包日志。日志格式如下:

IFPDT/4/PKT_OUTDISCARD_ABNL:Interface output discard exceeded the log threshold. (Interface=[STRING], Statistics=[STRING], LogThreshold=[ULONG], LogInterval=[ULONG](s)) IFPDT/4/PKT_OUTDISCARD_ABNL:Interface output discard exceeded the log threshold. (Interface=[STRING], Statistics=[STRING], LogThreshold=[ULONG], LogInterval=[ULONG](s),PortQueueNumber=[ULONG], PortQueuePassed=[STRING], PortQueueDropped=[STRING], PortQueueNumber=[ULONG], PortQueuePassed=[STRING], PortQueueDropped=[STRING],PortQueueNumber=[ULONG], PortQueuePassed=[STRING], PortQueueDropped=[STRING], PortQueueNumber=[ULONG], PortQueuePassed=[STRING], PortQueueDropped=[STRING],PortQueueNumber=[ULONG], PortQueuePassed=[STRING], PortQueueDropped=[STRING], PortQueueNumber=[ULONG], PortQueuePassed=[STRING], PortQueueDropped=[STRING],PortQueueNumber=[ULONG], PortQueuePassed=[STRING], PortQueueDropped=[STRING], PortQueueNumber=[ULONG], PortQueuePassed=[STRING], PortQueueDropped=[STRING]) 表9-2 拥塞丢包日志在各形态设备及版本的支持情况

形态

V200R003

V200R008

V200R010

V200R011及后续版本

框式交换机

SPH023补丁默认开启定时统计,每5分钟丢包计数超过300个,则会记录丢包日志。

SPH013补丁默认开启定时统计,每5分钟丢包计数超过300个,则会记录丢包日志。之前的补丁版本可以通过命令log-thresholdoutput-discard配置。

SPH005补丁默认开启定时统计,每5分钟丢包计数超过300个,则会记录丢包日志。之前的补丁版本可以通过命令log-thresholdoutput-discard配置。

默认开启定时统计,每5分钟丢包计数超过300个,则会记录丢包日志。

盒式交换机

不支持

默认不开启,可以通过命令log-thresholdoutput-discard配置。

默认不开启,可以通过命令log-thresholdoutput-discard配置。

默认开启定时统计,每5分钟丢包计数超过300个,则会记录丢包日志。

对于内部单板互联通道HG端口,每5分钟检测一次HG端口的拥塞丢包计数,如果在检测周期内存在丢包计数,则记录丢包日志。日志格式如下:

ALML/3/DISCARD_PKT: Packets are discarded for congestion. (SlotID=[STRING1], UnitID=[INTEGER], PortID=[STRING2], PeerSlotID=[STRING3], DiscardNumber=[STRING4]) 表9-3 HG端口拥塞丢包日志在各形态设备及版本的支持情况

形态

V200R003

V200R008

V200R009及后续版本

框式交换机

SPH013补丁支持

SPH011补丁支持

支持

盒式交换机

不支持

不支持

支持

端口拥塞风险日志预警

交换机定时轮询设备端口缓存的使用情况。如果缓存使用超过阈值,则选取缓存占用较多,存在拥塞风险的端口记录日志。日志格式如下:

QOSE/4/CONGESTIONRISK:There is a congestion risk on port [string]. 表9-4 端口拥塞风险日志预警在各形态设备及版本的支持情况

形态

V200R003

V200R008

V200R010

V200R011及后续版本

框式交换机

SPH021补丁

SPH011补丁

SPH003补丁

支持

盒式交换机

不支持

不支持

SPH003补丁

支持

使用Wireshark分析确定突发

有时候,通过display interface命令(或者在网管上监控端口带宽)查看端口带宽使用率可能只有30%~40%,端口流量的Output peak rate字段也不大,会误认为不可能存在流量超过端口转发能力导致丢包的现象。这是由于突发一般都是毫秒级别的,当前的端口流量统计、网管监控软件的统计周期一般都是秒级或者分钟级别,并不能反映毫秒级别的微观流量情况。通常情况下使用报文获取软件可以证明网络中存在流量突发的情况。

下面介绍如何通过Wireshark软件分析来判断流量是否存在突发。

使用Wireshark软件打开获取到的报文。图9-5 获取到的报文 在工具栏中选择Statistics中的IO Graph页面。图9-6 IO Graph页面 调整IO Graph中X轴、Y轴的单位。

对于GE接口,一般选取X轴的时间刻度为毫秒,Y轴选择bit,这样计算出来的报文速率值就是Kbit/s。

图9-7 设置X轴和Y轴的单位 X轴、Y轴刻度选择好之后,IO Graph会显示出报文的速率。如果峰值速率超过端口带宽,则表示端口存在突发超过带宽的情况。如果存在丢包,就是流量突发导致的。如图9-8所示,可以明显看出峰值速率超过了1Gbps。图9-8 Wireshark中显示的流量突发


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3