华三IMC Portal服务器常见错误分析 |
您所在的位置:网站首页 › portal服务器获取不到设备信息或者设备没有回应mac › 华三IMC Portal服务器常见错误分析 |
目录 1Portal Server进程不能启动 (2) 2提示“接收或解析响应报文失败” (4) 3上线一段时间掉线 (6) 4Portal服务器获取不到设备信息或者设备没有回应req-info报文 (10) 5页面显示向设备发送报文超时 (13) 6设备没有回应ACK_INFO报文 (14) 7设备拒绝请求 (16) 8返回radius错误码信息 (18) 9Portal页面一直处于请求状态无法打开或响应速度很慢 (18) 10iNode客户端上线提示有一个用户正在认证 (18) 11Portal认证提示“raidus服务器没有响应” (19) 12使用iNode可以上线,使用网页不能上线 (19) 13客户端反复上下线 (19) 14Portal日志增长过快问题 (19) 15弹出心跳页面但实际上并未上线成功 (19) 本文介绍了Portal常见错误,供研发人员和用服人员分析portal问题使用,其中前11个错误比较普遍,文档还在不断完善中。 1 Portal Server进程不能启动 有如下可能原因: 1、统一地址文件中保存的portal地址不正确,造成该情况可能是部署时输入地址错误或 者是服务器地址改变过但没有同步修改统一地址文件 2、50100、50200、50500等端口被占用,造成该情况可能是之前进程退出存在问题或 者其他应用程序占用,比如DNS服务器。 可以通过如下命令查看端口是否占用: 如果是windows,如果linux,请使用命令:netstat –anp | grep 50200 1)查到如下进程ID为7348 2)打开windows任务管理器,选中显示进程ID列 3)找到对应的进程名称,如果是java.exe则基本可以确定是我们自己的进程占用,否则为其他程序占用。 3、portal.properties文件被意外清空。 该情况目前还不好确定,只在极少局点出现过,可能是由于意外断电、关机等造成的数据丢失。 4、数据库存在问题,导致无法连接数据库。 这种情况在portal日志中会提示数据库相关加载失败,可以通过osql(sqlserver)或sqlplus(oracle)连接数据库进行初步排查。 5、网卡处于禁用状态。 2 提示“接收或解析响应报文失败”或“向portal server 发送请求超时” 日志文件一般会有如下错误,目前该提示已修改为:向Portal Server发送请求超时。 有如下可能原因: 1、Portal web获取的portal server地址为null,导致报文发向127.0.0.1,从而portal server 收不到报文,也就不会响应给portal web。 这种情况日志文件: 2、Portal服务器与Portal设备之间交互出现错误,并且portal web的超时时间小于Portal 服务器与Portal设备之间通信超时时间。 Portal web的超时时间为15秒,可以在如下文件中修改: Portal服务器与Portal设备之间通信超时时间和如下界面设置相关: 超时时间=报文请求超时时长(单次发送超时)×(认证重发次数+ 1) 如下设置超时为8秒。 3、Portal Web与Portal服务器之间通信存在问题,比如socket绑定、端口占用等导致报 文发送接收问题。 3 上线一段时间掉线 有如下可能原因: 1、可能是用户关掉心跳页面导致,比如单任务的手机终端就会存在该问题。 2、页面有缓存,发送心跳功能失效。 3、设备或iMC上设置限制时长或者设备配置相关命令,这样在超过闲置时间就会收到 设备的下线报文(NTF_LOGOUT)。 2012-09-25 15:55:41.468[Portal服务器][调试(0)][ProxyRequestHandler::run]192.168.26.5 ; NTF_LOGOUT(8) ; 1143 ; 192.168.26.1:2000 ; 报文处理成功 Packet Type:NTF_LOGOUT(8) SerialNo:1143 Address:192.168.50.2 Port:50908 RemoteIp:192.168.26.1 RemotePort:2000 Version:portal 2.0 Auth Type:CHAP ErrorID:0 UserIP:192.168.26.5 UserPort:0 ReqID:0 Rsvd:0 attriNum:4 Device Ip:192.168.26.1 Session Id:d4 3d 7e 11 f9 19 Text Info:Send NTF_LOGOUT when online! Device Time Stamp:1320777567 4、同一帐号在多处登录,在线数量限制为1,且设置了如下参数: 5、配置了Portal服务器和Portal设备之间的用户级心跳,之前版本iMC在某些情况下处 理存在问题会导致心跳报文不携带在线用户IP,后面版本已经改正。 6、收到设备NTF_LOGOUT报文,出现这个报文情况比较多,需要咨询设备具体原因, 常见下述2种原因的下线报文。 2012-06-12 09:54:08.859[Portal服务器][调试(0)][ProxyRequestHandler::run]10.11.1.155 ; NTF_LOGOUT(8) ; 7238 ; 10.11.255.5:2000 ; 报文处理成功 Packet Type:NTF_LOGOUT(8) SerialNo:7238 Address:10.10.203.5 Port:50908 RemoteIp:10.11.255.5 RemotePort:2000 Version:portal 2.0 Auth Type:PAP ErrorID:0 UserIP:10.11.1.155 UserPort:0 ReqID:0 Rsvd:0 attriNum:4 Device Ip:10.11.255.5 Session Id:90 fb a6 1d f7 10 Text Info:Send NTF_LOGOUT when waiting LOGIN_ACK! Device Time Stamp:1277448815 Packet Type:NTF_LOGOUT(8) SerialNo:7540 Address:10.10.203.5 Port:50908 RemoteIp:10.11.255.5 RemotePort:2000 Version:portal 2.0 Auth Type:PAP ErrorID:0 UserIP:10.11.1.105 UserPort:0 ReqID:0 Rsvd:0 attriNum:4 Device Ip:10.11.255.5 Session Id:00 21 97 c8 c8 fe Text Info:Send NTF_LOGOUT when online! Device Time Stamp:1277448815 7、UAM后台回应计费更新报文Session-Timeout(27) 属性为0,常见一个原因是余额不 足,还有其他一些特殊原因,举一个之前发生的特殊例子: 上线报文正常,但计费开始和更新报文携带mac地址不全,如下所示,mac少了1段,导致收到计费开始报文时不会插入在线表,这样在收到计费更新报文时就会出现如下错误而回应Session-Timeout(27)= 0属性。 % 2012-11-28 09:32:12 ; [WARNING (2)] ; LAN ; $SYS$ ; (NULL) ; (NULL) ; (NULL) ; Fail to process user accounting update request: E63010: 使用指定业务的用户不在线 CODE = 4. ID = 80. ATTRIBUTES: User-Name(1) = "xueping". NAS-Identifier(32) = "TZ-S75E-AC4". NAS-Port(5) = 16789554. NAS-Port-Id(87) = "0100003000000050". NAS-Port-Type(61) = 19. Calling-Station-Id(31) = "00-1F-3B-CD-3C-63". Called-Station-Id(30) = "00-0F-E2-EA-DD-D0:OA". Acct-Status-Type(40) = 1. Acct-Authentic(45) = 1. Acct-Session-Id(44) = "1121028085739b0". Framed-IP-Address(8) = 2230363123. NAS-IP-Address(4) = 2230362882. Event-Timestamp(55) = 1354093042. hw_Connect_ID(26) = 1099. hw_Input_Peak_Rate(1) = 0. hw_Input_Average_Rate(2) = 0. hw_Output_Peak_Rate(4) = 0. hw_Output_Average_Rate(5) = 0. hw_Priority(22) = 0. hw_IP_Host_Addr(60) = "132.240.163.243 00:1f:3b:cd:3c:". 4 Portal服务器获取不到设备信息或者设备没有回应 req-info报文 实际上目前实现和发送req_info已关系不大,所以出现此错误基本可以确认是根据用户地址找不到对应portal设备信息,有如下可能原因: 1、用户上线IP地址没有包含在iMC的Portal IP地址组网段中。 2、ACK_INFO回应的端口信息不在端口组设置范围内: 上述端口设置不支持中文或特殊字,因此出现这种情况最典型的原因是设备的 sysname含有中文或特殊字符,将sysname改为英文字符即可。 3、没有配置端口组,或者端口组中引用的地址组不正确。 4、使用移动终端等上线,IP地址经常变化,而由于Portal具有缓存机制,因此,造成缓存 中原地址和现有报文头地址不一致(分别对应私网地址属性和公网地址属性),被识别为NAT,从而无法匹配到对应的地址组,参见如下红色部分,正常情况下如果不是NAT 这2个地址是一样的。 Packet Type:CODE_PP_DOMAIN_REQUEST(110) SerialNo:15545 Address:10.80.162.3 Port:50908 RemoteIp:10.80.164.10 RemotePort:52719 Version:portal 2.0 Auth Type:CHAP ErrorID:0 UserIP:10.80.164.10 UserPort:0 ReqID:0 Rsvd:0 attriNum:2 Private Ip:10.80.164.10 Public Ip:10.80.164.10 5、ACK_INFO报文返回错误码1,原因可能是设备没有学习到该用户的arp表项,或者 较老设备不支持REQ_INFO报文,目前iMC版本已对这种情况进行了放行处理。6、ACK_INFO报文返回成功,但没有携带端口信息,目前iMC版本已对这种情况进行 了放行处理。 Packet Type:ACK_INFO(10) SerialNo:90 Address:172.16.88.64 Port:50908 RemoteIp:192.168.80.2 RemotePort:2000 Version:portal 2.0 Auth Type:CHAP ErrorID:0 UserIP:192.168.80.77 UserPort:0 ReqID:0 Rsvd:0 attriNum:2 Device Ip:192.168.80.2 Device Time Stamp:1324145120 7、配置台配置没有生效,即,通知portal服务器加载失败,造成这种情况原因可能是portal 服务器未正常启动或50900端口没有正常绑定,可以查看如下界面Portal主页信息显示正常与否来确认50900端口是否正常工作。 5 页面显示向设备发送报文超时 有如下可能原因: 1、大用户量并发上线,Portal服务器代理出现队列满情况,导致报文丢弃。 这种情况如下日志文件中会有队列慢(英文full)的错误。 2、设备没有及时回应ACK_INFO/ACK_ CHALLENGE/ACK_AUTH等报文。 3、对于没有接收到设备回应ACK_INFO报文情况较多,在下节单独列出。 6 设备没有回应ACK_INFO报文 这种情况portalserver_2013-02-20.txt日志会记录req_info报文,但却没有ack_info报文,同时有如下错误提示: 2013-02-05 15:25:44.964[Portal服务器][调试(0)][TimerSendTask::stopProcess]用户“10.80.164.10”状态从 “LOGIN_PORT_REQUEST_STATUS”变为“DEL_STATUS” 2013-02-05 15:25:44.965[Portal服务器][调试(0)][RequestProcessor::sendLoginRespToUser]errorCode = 124 2013-02-05 15:25:44.965[Portal服务器][调试(0)][ProxyResponseClientHandler::run]10.80.164.10 ; CODE_PP_LOGIN_RESPONSE(101) ; 16 ; 10.80.162.3:65285 ; 向设备发送请求超时(124) 发生这种错误有如下可能原因: 1、设备对应端口没有启用portal。 2、iMC上Portal设备地址配置错误 3、iMC配置的Portal设备地址是Portal设备某个端口地址,但是和Portal设备回应报文使 用的地址不一致,会出现如下红色框框所示的错误。 4、有防火墙阻挡,可以通过抓包确认。 5、设备上配置的portal server地址不正确。 可以通过如下命令查看: 6、设备上没有配置对应的用户地址段。 7、Portal设备上配置的密钥和iMC配置台上配置的Portal设备密钥不一致。 7 设备拒绝请求 1、设备回应ACK_CHALLENGE报文时携带错误码1,可能是设备没有对应arp表项, 或者设备处理队列满导致,需要设备配合定位。 Packet Type:ACK_CHALLENGE(2) SerialNo:13 Address:2001:250:f004:400:0:0:0:100 Port:50915 RemoteIp:2001:0250:F004:0400:0000:0000:0000:0001 RemotePort:2000 Version:portal 3.0 Auth Type:CHAP ErrorID:1 UserIP:0.0.0.0 UserPort:0 ReqID:5 Rsvd:0 attriNum:2 UserIPv6:2001:0250:F004:0400:69B5:2FA2:0A4C:4B50 Device Ipv6:2001:0250:F004:0400:0000:0000:0000:0001 Device Time Stamp:956750412 2、设备回应ack_auth报文时携带错误码1,日志会有如下记录,出现这样的错误原因很 多,可以先查看radius日志是否认证通过,如果通过就需要咨询设备具体原因了,比如,配置了下发ACL,但设备没有配置对应ACL的情况。 8 返回radius错误码信息 凡是返回信息中带有如下红色框框所示错误号的说明radius认证出错,需要分析 radius日志来确认具体失败原因。 9 Portal页面一直处于请求状态无法打开或响应速度很慢 1、系统资源不足导致,查看启动脚本设置的内存是否足够大 如下设置中至少应为1024m。 2、系统资源不足导致,查看是否存在其他耗内存的程序,比如sqlserver数据库是否限 制了最大占用内存数。之前发生过sqlserver数据库不断占用内存情况导致系统变慢。 3、原有Portal web实现依赖session,在用户量大时性能下降明显,新版本已经进行改善。 10 iNode客户端上线提示有一个用户正在认证 这个提示通常是存在其他错误导致上次认证未完成,客户端超时重发,所以有此提示,如果出现这个提示,必然存在上述1~9中的某个问题。 2013-02-05 15:21:15.227[Portal服务器][调试(0)][ProxyResponseClientHandler::run]10.80.164.10 ; CODE_PP_LOGIN_RESPONSE(101) ; 4963 ; 10.80.164.10:63173 ; Portal认证失败,该用户正在认证过程中,请稍后重试。(3) 11 Portal认证提示“raidus服务器没有响应” 设备和radius服务器之间认证出现问题,可以通过分别在radius服务器、设备上抓包分析原因。 12 使用iNode可以上线,使用网页不能上线 网页获取客户端IP和iNode客户端获取IP方式不同,因此,这种情况多半为网页方式 传递IP地址不正确,比如,前面提到的网页缓存导致使用旧IP上线失败情况。 13 客户端反复上下线 从服务器上看已经发送了上线成功报文,但仍不断收到客户端发来的上线请求报文,出现该问题的可能原因有: 1、客户端没有收到服务器发来的报文,可以通过在客户端抓包确认。 2、服务器发送上线成功报文迟延,导致客户端超时重发。 14 Portal日志增长过快问题 在极少情况下(具体什么情况不确定),网卡绑不上多播端口,而原代码未对该种情况进行保护处理,该问题在iMC UAM 3.60-E6301P06及之后的版本已经解决。 15 弹出心跳页面但实际上并未上线成功 某些终端由于自身机制问题,一旦上线成功过,后续上线不会发送任何报文,但仍 会弹出心跳报文,造成上线成功假象。这个问题仅在实验环境下出现过一次。 解决方法:将浏览器缓存和本地cookie信息全部清除,重新上线可解决问题。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |