首页 Cisco故障诊断方法

Cisco故障诊断方法

举报
开通vip

Cisco故障诊断方法故障分类 一、故障分类 1、软故障:配置错误,软件bug,病毒攻击; 2、链路问题,硬件故障,性能不足,环境问题。 二、故障关注的内容 1、鼓励故障点——测试方法 2、配置合理性——三层配置/二层配置 3、传输问题——自环测试 4、拓扑正确性——环路 5、环境问题——温度/压力 6、产品性能——产品结构 7、硬件故障——硬件表象/隐性故障 8、攻击——流量分析 三、故障信息收集 1、拓扑信息 2、测试记录...

Cisco故障诊断方法
故障分类 一、故障分类 1、软故障:配置错误,软件bug,病毒攻击; 2、链路问题,硬件故障,性能不足,环境问题。 二、故障关注的内容 1、鼓励故障点——测试方法 2、配置合理性——三层配置/二层配置 3、传输问题——自环测试 4、拓扑正确性——环路 5、环境问题——温度/压力 6、产品性能——产品结构 7、硬件故障——硬件表象/隐性故障 8、攻击——流量分析 三、故障信息收集 1、拓扑信息 2、测试记录 3、show tech 4、show log 5、Crashinfo文件 6、网管/日志服务器记录 四、故障诊断工具 1、Error message Decoder(错误信息解码) 2、Software Advisor(软件指导) 3、Bug Toolkit(bug工具包) 4、Command Lookup Tool(命令查找工具) 6、Output Interpreter(输出解释) 6、TAC Case Collection(TAC故障采集) 五、故障推导 1.孤立故障点 一、对于复杂的拓扑如何测试? 􀂋范围由远及近,逐步缩小范围 - 根据业务受影响的范围,比如只有单一分支节点受损,应该从该分支逐步向核心测试 􀂋范围由近至远,逐步延伸范围 - 根据业务受影响的范围,比如大部分分支节点受损,应该从总部核心最接近业务服务器的部分开始测试 􀂋双向连通性,路由测试 􀂋应用由上至下,vpn,mpls->路由->二层->物理 二、 1、充分利用扩展ping 2、Trace 3、其他测试 ①寻找规律 -故障是否集中在某个vlan? -故障是否集中发生在某个时段? -故障是否发生在做了某些变化之后? ②排除法测试故障位置 -拔掉所有业务板卡测试启动,再逐一插回测试 -更换传输测试 -更换怀疑有问题的板卡测试 -更换槽位测试 -更换引擎测试 -更换机箱测试 2.配置合理性 一、静态路由 谨慎配置静态路由,通常不恰当的静态路由是导致路由环路的根源 案例1: 1.路由器将会发送192.168.x.x的arp请求到防火墙 2.防火墙只能对接口地址,global地址作arp代理的应答(开启arp代理) 3.如果防火墙上如果没有地址转换(路由模式),将不会对到192.168.x.x的arp request作应答 案例2: 现象: 7609上配置静态路由,但接口down的时候路由并不消失 分析:静态路由从路由表中消失的原则-----指定的下一跳不可达 本例中静态路由配置为递归路由,因此当下一跳可达时静态路由不会消失 例如:ip route 121.0.19.128 255.255.255.0 121.0.31.82 如果只是这样,当接口down的时候,下一跳121.0.31.82不可达了,路由将会消失。 但如果同时配置中还有一条ip route 121.0.31.0 255.255.255.0 Null0到121.0.19.128 255.255.255.0 递归路由下一跳为null0. null0永远可达,则无论接口是否down路由都不会消失。 二、Spanning-tree 案例3: 􀁺 set spantree portfast bpdu-filter x/x enable 􀁺 spanning-tree bpdufilter enable 三、Firewall NAT 案例四: 故障现象:防火墙部分用户无法上网或访问缓慢 测试:排除物理故障 故障原因:Firewall上只配置了一个global地址,最多只支持65535个xlata转换,当连接数过大的时候就会出现 xlate分配不足的现象 解决方法:再分配一个global地址 asa5540(config)# show run global global (outside) 1 221.7.77.203 global (outside) 1 221.7.77.204 3.传输问题 一、 show log show interface show controller 时钟配置 滑码 二、 由近及远分段打环测试,排除故障 4.拓扑是否正确 一、拓扑链接 故障现象:客户端到网关不通或丢包 测试:影响范围在1-2个vlan,或者1-2台交换机 分析受影响的设备各端口,发现有些端口上广播包比例过大 二、限制广播包比例 5.环境问题 􀂋 机房温度-影响设备温度 􀂋 机房洁净度-影响设备温度 􀂋 设备过滤网洁净度-影响设备温度 􀂋 机柜通风-影响设备温度 􀂋 设备挡板安装情况-影响设备温度 􀂋 设备安装密度-影响设备温度 􀂋 信号干扰-影响传输线路质量 􀂋 静电干扰-影响设备端口链路稳定性 􀂋 外部供电电压电流不稳-影响设备运行稳定性 􀂋 接地情况-影响设备运行稳定性 案例: 一、12016温度问题 温度过高环境原因 􀂾16-20槽csc,sfc温度高通常是过滤网脏 􀂾板卡没有插但并未封上挡板 􀂾机房温度过高 􀂾机柜风路阻塞 6.产品性能影响 一、有可能记住每个产品的特性吗? 二、7206带宽点问题 案例1:7200的带宽点问题 现象:7206上某块板卡端口突然不转发数据,端口状态正常 测试:确认板卡,线路均正常 可疑日志(通常在启动日志或show version中可见): %PLATFORM-3-PACONFIG: Exceeds 600 bandwidth points for slots 0, 1, 3 & 5 1 Port adapter slot 5 left bus) 5 Port adapter slot 6(right bus) 2 Port adapter slot 3 (left bus) 6 Port adapter slot 4 (right bus) 3 Port adapter slot 1 (left bus) 7 Port adapter slot 2 (right bus) 4 Port Adapter Jacket Card slot 0 (mb0 bus), and port adapter slot 7 对于NPE-G1引擎I/O controller不受带宽点影响(实际大多不需要I/O controller) PCI bus mb1 (Slots 1, 3 and 5) has an aggregate of 600 bandwidth points. Total of 580 bandwidth points have been used on PCI bus mb1. PCI bus mb2 (Slots 2, 4, 6) has an aggregate of 600 bandwidth points. Total of 450 bandwidth points have been used on PCI bus mb2. 􀂋 对于C7200-I/O-2FE如果只使用一个以太口,只占200点 三、3GE卡问题 案例2:GSR上3GE-GBIC-SC板卡cpu高 现象:3GE-GBIC-SC上配置双向ACL可能会导致cpu高, 测试:删除出方向ACL后可以恢复正常 故障原因:源于该类型板卡对Egress方向的ACL支持问题。 案例3:12016上3GE-GBIC-SC板卡丢包 现象:当流量不大时使用正常,但当3个端口流量和增大到2.5G时发生丢包 测试:流量未达到端口带宽满负荷值,但发生丢包,排除链路问题 故障原因:12016的SFC矩阵是2.5G的,如果插槽上使用3GE卡,在流量小时可能还没有影响,但流量大或流量类型变化时会发生丢包。 7.硬件表像及隐性故障 故障现象:12016上一块pos卡端口上的流量延迟或丢包,甚至板卡crash 测试:排除链路故障 问题:是否一定是这块板卡的硬件故障? 对于一个模块化,分布式处理的系统,一个表面上的板卡故障可能与其他关联部件相关
本文档为【Cisco故障诊断方法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_329321
暂无简介~
格式:doc
大小:1MB
软件:Word
页数:16
分类:互联网
上传时间:2012-06-12
浏览量:12