hxz
发布于 2022-08-15 / 84 阅读
0

建立线上问题快速定位与处理流程

前言

面对线上问题,如何快速、准确地定位和解决问题,成为了每个测试团队必须面对的挑战。在这个过程中,一套完善的线上问题排查体系流程至关重要。它不仅可以帮助我们提高问题排查的效率,减少线上问题对用户的影响,以及帮助pm优化需求,提升用户体验 还可以为今后遇到类似问题提供宝贵的经验和教训。下面,我将从以下角度阐述作为一名合格的测试工程师,遇到线上问题的处理流程。

一、问题确认:

1.线上问题复现

首先是在线上环境对问题的复现,确认问题在线上环境稳定复现后,评估问题严重程度和影响面。确认问题影响面后,采取以下措施降低问题影响面,如:

1)如果发现严重的安全漏洞,可能会导致用户数据泄露或系统被恶意攻击,或者是影响到用户核心体验的功能出现故障,且无法通过在线修复解决时,此时停服进行修复是必要的。

2)如果之前有过热修复的积累,可以先判断是否能通过热修复技术来解决问题,如果不行,就只能尽快修复并且发版了;

3)如果bug严重程度为一般,比方说某个按钮的显示不符合需求定义,可以先记录问题,排期到下个版本解决;

4)对于影响用户体验类的线上问题,可以采用提示的方式,引导用户使用。

2.测试环境复现问题(问题精准定位)

除了上述在线上环境的一系列措施外,我们更需要去测试环境复现,从根源上定位到问题,在开发的协助下评估该模块代码涉及的代码影响面。

二、问题处理:

1.问题分析:产研侧对问题进行初步分析,确定问题原因和影响范围。

2.问题定位:开发团队进一步深入分析问题,通过日志、调试等手段定位到具体的问题代码。

3.问题修复:开发团队在测试环境进行问题修复,开发自测通过。

4.问题验证:测试团队在测试环境验证问题是否已经修复,包括功能验证和性能验证等。

5.线上验证:修复后的版本提交到版本控制系统,准备进行上线部署。运维团队将修复后的版本部署到线上环境,测试团队进行线上问题的验证,确保问题已经彻底解决。

三、事后复盘:

定期复盘是一个非常好的习惯,不管是对个人还是对公司。而发生这些紧急的事故之后,也需要在事故解决之后,进行复盘,总结一下在这个事故之中,有什么做的不好的地方,有什么可以做的更好的地方。

1)责任明确:首先是定位到线上事故产生的原因,是开发的配置问题,还是测试团队的测试用例没有覆盖到;

2)闭环解决方案:

① 定义测试周期的各个阶段,如需求分析、测试计划、测试设计、测试执行、缺陷管理、风险评估和测试报告,确定每个阶段的目标、任务、责任人和完成标准。

② 按照既定的流程进行工作,确保每个阶段的输出物符合要求。

③ 制定统一的测试设计规范,包括测试用例格式、命名规则、测试数据管理等。

④ 通过培训和文档共享,对所有测试人员进行流程、规范和工具的培训,确保大家对变化有充分的理解。

⑤ 增设验收测试环节

复盘是为了之后更好的规避和应对这种突发事故,可能大部分情况下,我们的准备都是白费的,但是一旦出现事故,这些准备就可以让我们更从容。