互联网产品线上故障管理规范

您所在的位置:网站首页 线上软件开发 互联网产品线上故障管理规范

互联网产品线上故障管理规范

2024-02-24 23:15| 来源: 网络整理| 查看: 265

备注:一年半以前网上搜索参考了多篇文章,结合实践做了修正和细化之后进行的内部规范,忘记收藏参考文的链接了。

为了让产品人员和开发人员可以更快速解决问题,也为探索更好保证软件质量的方法,针对线上故障,需要规范的处理流程。QA/软件测试人员,在这个过程中需承担非常重要的规范制定和推动落地实施的责任。

线上故障定义:

产品研发完成,验收通过并发布生产环境后,用户反馈的问题都算线上故障。

线上故障级别:

与互联网软件缺陷规范一文中的缺陷严重程度定义保持一致。

故障报告标准

什么情况的线上故障需要报告?block/critical - p0级- 需要故障调查报告 & 复盘会议对收益有很大影响。例如无法打开页面,无法操作对用户有很大影响。例如无法支付或提现

什么情况的不需要报告?- 无需报告,但需要记录&简短案例分析简单用户体验或纯UI显示问题不影响用户使用核心功能的问题

线上故障处理流程

快速处理故障先让系统恢复正常以减少损失,比找到问题原因更重要。

线上故障发现途径

这个环节建议由QA/测试人员负责追踪,确保所有线上问题及其解决方案等系统化管理,并被详细记录。

主动发现——开发或者运维不经意间查看生产环境的error日志,或者例行检查监控项时,看到了一些异常的现象,进而发现了故障;

系统监控告警——通常包括cpu、内存、io、tcp连接数、disk、线程数、GC、连接池等各个服务器指标异常,可能是服务器出现了异常,但业务还未受到大面积影响;

业务监控告警——如用户登录失败率增加,订单堆积量增大,则意味着系统的异常已经很严重,影响了业务处理;

关联系统故障追溯——上游系统或者下游系统的故障处理追溯,可能和本系统有关系,而且情况已经变得很糟糕了,需要快速定位;

客服事件上报——通常业务异常带来的影响传递到用户,再从用户传递到客服人员,再到技术人员手里,存在一定时延,所以一旦有生产事件上报,严重性已经到了最高,技术人员的压力也会增大,会有领导的关注,产品经理询问和催促,客户人员焦虑带来的压力。

线上故障处理常规思路

研发人员需针对具体业务线形成线上故障处理思路,收集当前业务线故障常发的服务/系统及其解决方案并同步给团队。

故障调查报告

模板参考

建议语言简洁明了,快速输出调查报告,解决方案侧重描述当前解决方案,长远改进措施也可后续输出。

线上故障复盘会议

人员:产品/研发发起,产品/开发/测试等相关人员参与时间:故障发生后一周之内Actions:

复盘故障原因、解决方案

进一步讨论改进措施,建立任务追踪并分配到人

改进措施的初步排期

故障协调人

1. 按产品线或项目组安排

2. 协调人需有backup,能够第一时间响应并积极主动协



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3