你称之为 “QA”，但如果没有这些关键绩效指标，那只是碰运气。

我们都曾经历过这样的场景：庆祝无瑕疵的测试报告、一尘不染的仪表盘以及耀眼的通过率，然而随后却不得不面对生产环境的崩溃，这让每个人都手忙脚乱。传统的 QA（质量保证）指标常常描绘出一幅具有误导性的画面，掩盖了真实的风险，同时营造出一种虚假的安全感。

但假如你能透过表象，直接衡量真正重要的东西呢？要是你能追踪那些能在问题在生产环境中爆发之前就暴露弱点的关键绩效指标（KPI），而不是追逐那些华而不实的指标，又会怎样？

一个表现卓越的 QA 团队和一个随时可能爆炸的定时炸弹之间的区别，往往只在于四个被大多数团队忽视的关键指标，直到为时已晚。

这些指标不仅仅是为了满足流程审计的复选框。它们是你测试有效性的生命体征，能揭示出你的 QA 努力究竟是一个精密设计的安全网，还是一个脆弱的幌子。真相是，如果当前的指标看似完美，但生产环境问题不断，那你要么衡量错了东西，要么有人对数据过于乐观。

那么，这四个改变游戏规则的 KPI 是什么呢？它们如何揭示隐藏的风险？为什么这么多团队直到灾难发生才开始追踪它们？更重要的是，你如何利用它们将 QA 从成本中心转变为真正的质量保障？

在发布后发现的缺陷中，本应在测试中被发现的缺陷所占的百分比。高逃逸率意味着你的 QA 流程漏洞百出。

我曾参与一个项目，团队因为 “QA 阶段零个关键错误” 而击掌庆贺。结果在生产环境的第一天，用户就遇到了一个阻塞性错误，清除了他们的交易记录。原来，测试环境的数据并不像生产环境那样。这个错误的逃逸率？整整 100%。真疼。

追踪用户 / UAT（用户验收测试）/ 发布后报告的缺陷，并将其映射回测试覆盖范围。如果你因为 “它一直都能用” 而遗漏了测试 “忘记密码” 流程，而它在生产环境中崩溃了，你的逃逸率就会飙升。目标是保持个位数，否则准备好迎接一些精彩的复盘会议吧。

自动化测试用例与手动测试用例的比例。如果你的团队还在手动回归测试一个有 10 年历史的庞然大物，同时抱怨倦怠，这个 KPI 就是你的警钟。

我看到一个团队在每次发布时手动执行 500 多个测试用例。他们自豪地称之为 “彻底”。然后一个 “小” 的配置更改导致 30% 用户无法登录。自动化本可以在 5 分钟内发现这个问题。然而，他们却花了 5 个小时的恐慌和 3 个愤怒的 Slack 讨论才解决。

（自动化测试用例 / 总测试用例）× 100。

目标是稳定功能的自动化覆盖率达到 70% 以上。不，“我们在 2018 年自动化了登录测试” 不算。

在引入缺陷后平均需要多长时间才能检测到它。如果你们的 MTTD 比看 Netflix 连续剧的时间还长，那你们的 QA 流程基本就是在猜。

有一次，一个开发者 “优化” 了一个数据库查询，默默地让报告功能瘫痪了好几天。QA 只是因为一个产品经理随机检查了仪表盘才发现这个问题。修复只花了 10 分钟，但检测却花了 72 个小时。团队的反应？ “我们没监控那个。”

从引入错误的时间（git 提交时间戳）到发现它的时间来追踪。具有自动化测试的 CI/CD（持续集成 / 持续交付）流程可以大幅缩短 MTTD。如果你们团队的 MTTD 以工作日为单位，那你们的方法就错了。

被测试用例覆盖的业务需求的百分比。如果测试计划与产品应该做的事情不一致，那你们只是在盲目地点击按钮。

有一次，一个利益相关者问： “我们测试支付网关了吗？”。 “全面” 的测试计划涵盖了 UI 颜色，但忘记了真正的钱的部分。随后的生产环境紧急处理成为了后悔教训的典范。

追踪测试用例到需求（是的，即使在敏捷开发中）。像 JIRA 或 QTest 这样的工具可以提供帮助。如果 30% 的需求没有关联的测试，你们就不是在做 QA，而是一个靠希望驱动的开发团队。

所以，这就是那四个能区分真正的 QA 成功与进步假象的 KPI。如果你还在坚持那些让报告看起来不错但却让生产环境岌岌可危的指标，问问自己：我们是在衡量质量，还是在自欺欺人？

选择权在你。你可以继续庆祝 “100% 测试通过率”，而缺陷像不速之客一样潜入生产环境。或者，你可以开始追踪真正重要的东西：缺陷逃逸率、自动化覆盖率、平均检测时间和需求测试覆盖率，让 QA 成为它本该成为的预警系统。

因为残酷的真相是：没人会记得你运行了哪些测试，只会记得你漏掉了哪些错误。那么，你的下一次回顾会是胜利的巡游，还是复盘的检讨呢？

数据不会说谎。但你准备好倾听了吗？

祝测试顺利