难以重现的 Bug如何处理

对很多测试人员(尤其是对新手来说)在工作过程中最不愿遇到的一件事情就是:在测试过

程中发现了一个问题,觉得是 bug,再试的时候又正常了。

碰到这样的事情,职业素养和测试人员长期养成的死磕的习性会让她们觉得不能放过这个

bug,但是重现这样的 bug 有时候需要花费大量的时间,有的时候还有一些盲目性(因为黑

盒测试的缘故,很多内部状态是不可见的,因此无法获取有效的信息来做跟踪),效率较为

低下。

在实际工作中,时间和进度摆在那里,在经历了多次痛苦的失败尝试之后,测试人员的处理

方法一般会有如下几种:

        1.向开发人员寻求帮助来重现 bug;

        2.当做一个 issue 报给开发人员。

可是这样的做法存在如下问题:

        1.开发人员责任心不够强,不愿意花太多精力去求证这件事情,常见的回复就是:在我这儿

没事儿啊,我也重现不了,bug 关了吧。结果随后在生产系统上,bug 又开始随机出现了。

        2.就跟测试人员不擅长编码和调试一样,开发人员并不擅长找出 bug。经过一番尝试以后,

他们也找不出什么问题来,常见的回复同第一条是一样的。bug 上线后又出现的宿命也是一

样的。

这时候,真正的问题来了:如何捕捉难以重现的 bug?这件事儿对于测试人员来说就这么难

么?

        答案并不那么乐观,重现“难以”重现的 bug 本来就是一件“难以”完成的事情。但“难以”并不

是不可能,通过一系列的测试、分析方法,我们是能够抽丝剥茧把绝大部分隐藏的很深的

bug 揪出来的,当然有的时候你要考虑投入产出比,但投入产出比不是本篇要考虑的,本篇

只讲一些我积累的经验。

为什么不能重现 bug?

最大的原因就是:测试人员对被测物的了解还不够深入。

我曾经做过一段很长时间的收集和统计,那些被称作过“难以重现”的 bug 最后都可以分为如

下几类:

        1.环境的变更造成了 bug 难以重现,这里的环境包括了:基础软硬件环境(操作系统、网络、

存储、中间件、容器等等),被测物自身发生了某些变更。环境的变更一般是由于多人共用

环境造成的,也有少量情况下是系统内部或者时间触发的变更(这类 bug 非常难重现)。

        2.没有找到真正引发 bug 的操作。这些操作往往是一些不怎么显而易见的操作,测试人员在

不经意间完成,而又忽略了这一操作,以致难于重现 bug。

        3.没有找到真正会引发 bug 的操作序列。很多 bug 的重现需要满足多个条件。在满足多个条

件的状态下,你做了对应的操作,bug 才会被触发。

        4.Bug 必须使用特殊的数据才会出现,测试人员没有意识到她使用的数据的特殊性。一种比

较难搞的情况是:同一组输入,在不同情况下(不是不同的业务情况)输入会被转化成不同

的数据。我曾经见到过这么个例子,程序员用系统当前时间作为随机数的种子来生成 id,但

是 id 设置的比较短,一个存储的操作使用这个 id,在一些情况下,发生了冲突,当时做功

能测试这种小概率事件耗费了测试人员大量时间也没有稳定重现,还是在性能测试的阶段测

试了出来。

        5.测试人员由于错误操作,出现了误报(这很常见)。比如,记得自己执行了 step3,其实没

有,或者没有正确执行 step 却觉得正确执行了。

怎样对付这样的 bug 呢?

我喜欢 James Bach 说的那句话:测试就像 CSI。CSI 是 CriminalScene Investigation 的缩写,

也是我非常喜欢的美国系列剧。

从我来看 CSI 的精髓在于:仔细观察,详细记录,科学分析,严密推理,有序求证,大胆

假设,持续不懈,团队协作和一点儿运气。找 bug 其实和 CSI 探员做犯罪现场调查没什么

太大区别。得知道,你工作的重要性一点儿不亚于 CSI 探员。

仔细观察

第一件事情就是要观察,观察你所做的一切操作和一切相关的系统反馈。在一开始,观察的

重要性要远远大于思考,通过观察你获得蛛丝马迹,这些蛛丝马迹是你进行思考和假设的关

键输入。例如,我在一次测试的过程中,发现做某种操作的时候会相当慢,极少数情况下还

报错过一两次,当询问了开发人员后得知这个操作的后台实现步骤是:先查看数据是否在缓

存中,如果不在,则从远端服务器请求数据。我抓住少数情况下会报错的这一现象,仔细观

察它的出错信息后猜测报错并不是因为网络连接不稳定引起的,而是由于远端服务接口实现

有问题引起的,后来重新设计了测试用例,果然找到了问题所在。如果不仔细观察出错信息,

就会听信开发人员认为这是网络不稳定引发的正常 issue 而错过这个 bug。

详细记录

详细记录你的操作步骤及返回结果非常有助于回朔问题,也有助于后续分析。准备一个 word

文档,和截图工具有时候非常必要。另外,在观察的时候,你不仅要注意被测物的最终返回,

还需要观察过程中的一些中间状态,往往这些中间状态提供的信息才是解开问题的关键。这

些中间状态一般会被记录在 log 文件中,因此知道你的被测物是如何记 log 的,log 被记录

在哪里非常重要。log 给了你另外一个看系统的角度。log 是有级别的,如果级别可以动态

调整,在找比较难找的 bug 时,可以将 log 记录的级别调至最低(DEBUG 级)让它们记录

更多内容。利用系统的错误转储文件(比如 linux 的 core dump 文件,windows 下也有相应

的记录转储文件的方式)分析也是个不错的办法(需要较高技术能力),但一般建议测试人

员把这些转储文件交给更专业的开发人员来分析。

除了 Log,如果能有监控信息,也要查看他们。比如系统提供的监控平台,监控日志;应用

自己的监控平台、监控日志(如果有的话);采用一些外部技术手段截取一些中间状态信息,

如使用 sniffer 抓取通讯包,使用 Fiddler 截获 HTTP 报文内容;给运行程序插桩来查看内存,

堆栈,线程,函数被调用情况等情况,如 Jprofile,gpertool 等等。

科学分析

对于黑盒测试人员来说,科学分析意味着你需要有一定的分析策略。我们需要采取一些形式

化的方法来完成我们的分析。基于我的统计,缺陷难以重现有很大一部分原因是因为“没有

找到真正引发 bug 的操作序列“。测试人员不可能像开发人员那样去跟入到代码内部,设置

断点调试程序,他们主要的测试方式是直接来操纵被测物,并从外部观察被测物状态的改变。

显而易见,“状态转换图分析法”是测试人员对付“难以重现 bug”的最强有力武器之一。状态

转化图能够帮助测试人员很好的选择操作路径,并且知道这么做有什么意义。“状态图转化

法”绝对是测试人员值得花时间学习和研究的一种方法,你可以走的很深,也可以研究得很

远(可以从 MBT 的方向进行拓展),限于篇幅,这里就不展开了。在这里推荐《探索吧!

深入理解探索式软件测试》这本书,它的第八章对“状态转换”做了非常实用的描述。

上文分析的让 bug 难于重现的另一种原因是没有找到“真正引发 bug 的特殊数据”。

我的常用做法是这样的:

1.画出系统交互图(要真正弄清系统的边界,这很重要),并识别出每种交互会有什么样的

输入、输出数据和中间数据,识别出这些数据的规约和格式,这样你就不会对数据有遗漏。

2.考虑数据的等价类、边界值,对这些输入进行组合,分析数据之间是否有耦合关系,如果

有耦合关系,弄明白关系是什么,设计违背这些关系的用例,最后采用组合测试工具初步生

成测试集,再人工选取最可能出问题的数据集(直觉有时候非常管用)。

严密推理

天马行空对测试人员很重要,但是当你试图重现一个 bug 的时候,这并不是一个非常好的方

法。抓住了蛛丝马迹,你就要推理是为什么产生了这种蛛丝马迹。限于工作性质,测试人员

更多的会从:业务完整性、数据完整性、业务正确性、数据正确性等方面考虑问题。但是,

如果测试人员对被测物的 IT 架构有比较深入了解的话,推理的范围会扩大到技术实现层面,

如:多线程可能引发的问题,网络引发的问题,excepiton 处理不当引发的问题,全局事务

设计不当引发的问题,内存泄漏引发的问题,数据库表设计不合规引发的问题等等等等,这

些会让你的分析推理能力如虎添翼。当然,如果限于条件,测试人员不具备这类能力,则应

该在适当的时候请求开发人员协助。

有序求证

这里只有一点需要注意。那就是,在求证的过程中不要打散弹枪,按照你的推理一步一步的

来,一个个推理的来验证,一次只引入一处修改。这样才能让你的捕虫网编制的足够细密。

大胆假设

有的时候,看似八竿子打不着的东西竟然存在着千丝万缕的联系,而你获取信息的过程总是

一个由少及多的过程,一开始这些联系是无法被识别出来的。通过推理,逐步验证,你慢慢

的识别出了大部分内在联系。但有时候这种逐步推进的工作也会有局限性,工作如果出现了

瓶颈(你试遍了你所有的假设,都没有重现 bug),这时候就需要发挥一点儿想象力了,天

马行空这时候从一定程度上又变得有用起来,当然天马行空也不是无厘头,还得靠我们所谓

的“灵光一闪”,这号称是潜意识在帮助你。CSI 的剧情中不也总是出现这种柳暗花明的桥段

么?

坚持不懈

话不多说,有的时候你差的就是那么一点儿点儿耐心。

团队协作

很多情况下,重现 bug 不是一个人能搞定的。我们需要测试环境 ready,测试数据 ready,各

种监控、分析工具 ready,各种不同的视角开拓思路、加深对被测试物的认识。这是 team

work!!!独行侠有时候很管用,但是终究有极限。这就是为什么 CSI 是一票人在做而不

是一两个人在做。

一点儿运气

说实在的,有的时候重现 bug 就是靠运气,你不得不承认这一点。事实上很多美好的事情发

生都得依靠运气,比如中彩票。要记住的一点是,运气是建立在你不懈努力的基础上的。如

果你一张彩票不买,你肯定什么也中不了。但如果你坚持买上几年,中个五块十块甚至二百

也不是梦。

Let it go

全试过了,连运气都没有。你只能放手,回到最上面我说的那两条了:找开发来帮忙,或者

给开发报 issue。btw,即使不能重现 bug,也应该给开发人员提供更多信息:如 log、dump

文件、监控记录、屏幕截图等。做一个负责人的测试人员,把烦恼真实的留给下家,这很重

要:)

其实上面的大段论述是站在测试人员角度上来看的。我也写很多代码,作为一个开发人员(哈

哈)我查错的方式一般是:

1.先能稳定的复现错误。(这一步最难)

2.设桩,打印出一些中间状态来分析,看到那一块儿错了。

3.摘除不相干的代码,慢慢迭代,定位错误。

4.如果发现调用第三方依赖跟你想的不一样,先读文档,然后再测试第三方依赖。有问题再

想办法。

5.良好的程序设计和单元测试覆盖度才是不二法门,会让你的调试变得简化的太多。。。用

过都说好:)

6.测试工作的确增强了我排错的能力。coding 的同学都尝试做几个月测试吧。会有相当大的

好处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/11463.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot工程引用其他工程构建的jar包

1、问题 存在A、B两个工程,其中B工程需要引用A工程的jar包。 2、解决办法 A工程 (1)自动配置bean。 Configuration ComponentScan("cn.ac.trimps.auth.**") public class AuthClientConfig {} Retention(RetentionPolicy.RUNTIME…

Android Studio开发之路(十)app中使用aar以及报错记录

书接上文:Android Studio开发之路(九)创建android library以及生成aar文件 五、app中使用aar文件的方法 先复制一下上面生成的aar文件。然后在你要添加到的app左上角选择“project”模式,然后找到libs文件夹,点击右键…

全自动封箱机:智能包装与物流领域的新引擎,助力产业升级

在智能化、自动化的浪潮下,全自动封箱机以其高效、精准的特点,正逐渐成为智能包装和物流领域的新宠。这种先进的机械设备不仅提升了包装效率,还大大地推动了物流行业的现代化进程,为产业升级注入了新动力。 全自动封箱机的重要性不…

Centos中将UTC的时区改为CTS时区

date命令可以看到现在的时间以及时区,可以看到现在是UTC时区 而想要更改时区那么就要了解tzselect命令 tzselect 是一个 Linux 命令行工具,用于交互式地帮助用户选择并设置系统的时区。这个程序会通过一系列的问题引导用户,从而确定用户所在的…

【Linux网络】HTTPS【上】{运营商劫持/加密方式/数据摘要/https的诞生}

文章目录 1.引入1.1http与https1.2SSL/TLS1.3VPN1.4认识1.5密码学1.6为什么要加密?运营商 1.7常见的加密方式对称加密非对称加密 2.加密与解密3.数据摘要 && 数据指纹MD5 数字 签名理解三者数据摘要(Digital Digest):数字…

实现echarts地图

效果图: 2.echarts.registerMap("xizang", XZ) 注册了一个名为 "xizang" 的地图,其中 XZ 是地图数据。 接下来是 option 对象,包含了图表的配置信息,比如图表的布局、提示框样式、地理组件配置和系列数据配置等。 在 t…

Linux 第二十九章

🐶博主主页:ᰔᩚ. 一怀明月ꦿ ❤️‍🔥专栏系列:线性代数,C初学者入门训练,题解C,C的使用文章,「初学」C,linux 🔥座右铭:“不要等到什么都没有了…

分布式光伏管理系统的意义与核心技术

分布式光伏管理系统遵循安全可靠、经济合理原则,满足电力系统自动化总体规划要求,且充分考虑光伏发电的因素,对分布式光伏发电、用电进行集中监控、统一调度、统一运维。为用户提供运维服务,实现能源互联,信息互通&…

软件安全测试可以检测软件哪些安全问题?

软件安全测试是一种旨在发现和评估软件应用程序中的安全漏洞和隐患的测试方法。通过安全测试,可以发现并修复潜在的安全问题,从而提高软件应用程序的可靠性和安全性。下面将介绍软件安全测试可以检测到的几种主要安全问题。 身份验证漏洞:身份…

如何将 DFMini player MP3 模块与 Arduino 结合使用

要创建此项目,您将使用: DFPlayer迷你MP3模块 10kΩ电阻 开关按钮 面包板 Arduino UNO 杜邦线 现在,我们将学习如何构建该项目。 什么是DF Mini Player MP3模块 DFMini Player 模块是一个小型音乐播放器。它成本低、功耗低,可…

五月采购节 | 全场板卡八七折起

淘宝搜索【北京迅为电子官方企业】 5月13日~5月15日 海量优惠券等你拿! 复制下方链接到淘宝 直接进入店铺! https://shop459378556.taobao.com

空号检测-号码批量检测API接口-关机停机风险号检测

手机空号检测分为普通空号检测和实时检测两种类型: 普通空号检测返回结果:实号、风险号、空号、沉默号 。 1.普通版的检测不会实时更新数据,因此其数据库中的信息可能不是最新的。 2.覆盖基础运营商的数据库,检测范围相对有限&…

Spring Boot整合ElasticSearch实战 - 第511篇

历史文章(文章累计500) 《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 《…

呼叫中心系统选pscc好还是okcc好

选择PSCC(商业软件呼叫中心)还是OKCC(开源呼叫中心),应基于以下几个关键因素来决定: 技术能力:如果企业拥有或愿意投入资源培养内部技术团队,开源解决方案可能更合适,因为…

软件设计中的数字:7

“ 使软件更易理解的秘密:米勒法则” 小游戏 学习之前先一起玩一个小游戏。 3秒钟时间,看看下面的图片中有多少个小块? 3秒到了,数出来了吗?22个。 没数出来也没关系,我也没数出来o(╥﹏╥)o 现在&…

牛客热题:比较版本号

📟作者主页:慢热的陕西人 🌴专栏链接:力扣刷题日记 📣欢迎各位大佬👍点赞🔥关注🚓收藏,🍉留言 文章目录 牛客热题:比较版本号题目链接方法一:暴力…

电商平台接口自动化框架实践||电商API数据采集接口

电商数据采集接口 语言:python 接口自动化实现流程 红色为可实现/尚未完成 绿色为需要人工干预部分 自动生成测试用例模板(俩种方式二选一): mimproxy,通过浏览器代理抓包方式,访问 H5 或者 web 页面&a…

processing完整教程

概述:processing在我眼里就是libgdx的高度封装,如果各位会libgdx,学processing应该可以说是无师自通,当然processing是java语言那边的。 processing是什么? 官网是这样解释的:Processing 是一本灵活的软件…

每周一算法:无向图的最小环

题目链接 观光之旅 题目描述 给定一张无向图,求图中一个至少包含 3 3 3 个点的环,环上的节点不重复,并且环上的边的长度之和最小。 该问题称为无向图的最小环问题。 你需要输出最小环的方案,若最小环不唯一,输出…

core.sshd.xxxxxx文件过大

背景 【紧急】【应用分组】应用: 接入点服务, 分组: 观众预发, ip: xx.xx.xx.xx 【/】,磁盘使用率已连续2次大于90% [当前值:100%]。报警时间: 2024-05-13 14:07:01 原因 登录机器查看,发现根目录下有大量的崩溃文件将 / 打满 处理 1, 删…