第八章：怎么判断一个用例是不是真的好用

本章导读

很多用例第一次看起来都很强，描述也很完整，甚至跑出来的结果也不差。但“能跑通一次”和“真的好用”，其实是两回事。

一个真正好用的用例，不只是能展示效果，而是能在真实工作里持续帮你节省时间、降低重复劳动、提高结果稳定性。如果一个用例每次都要重新调整、结果波动很大，或者只能在演示场景中成立，那它的实际价值就很有限。

这一章要解决的问题，就是如何判断一个用例到底是不是值得继续投入。你不需要用非常复杂的方法评估它，但至少要知道，什么样的用例值得保留，什么样的用例应该及时止损。

8.1 什么叫能用，不只是能跑

很多人评估一个用例时，只看它有没有输出结果。只要它能产出一段文字、一个摘要、一份整理结果，就会觉得“它能用”。但真正的“能用”至少还要再往前走一步。

一个用例如果真的能用，通常需要满足这些条件：

结果和任务目标是对齐的
输出格式能直接进入你的实际流程
你不需要每次都做大量返工
它的价值明显高于手工完成的成本
下一次再用时，不需要从零开始

换句话说，能跑只是最基础的一层，能用意味着它已经能进入你的真实工作场景。

如果一个用例只是偶尔能给出还不错的结果，但不稳定、不可复用、人工修正量很大，那它更接近“有演示价值”，而不是“有使用价值”。

8.2 如何验证结果质量

判断一个用例好不好，最直接的方法不是听别人怎么说，而是看它的结果质量是否稳定满足你的要求。

验证结果质量时，你可以先从这几个维度判断：

是否准确
是否完整
是否符合预期格式
是否真正节省了时间
是否足够稳定

是否准确

这是最基本的一条。尤其是涉及事实、数据、总结、归纳的任务，如果结果里经常出现误解、遗漏、臆断，那即使写得再像样，也不算好用。

是否完整

有些结果看起来很流畅，但真正需要保留的重点却漏掉了。你要判断的不是它写得顺不顺，而是它有没有覆盖任务中最关键的部分。

是否符合预期格式

结果哪怕内容没问题，如果格式根本不能直接拿去用，那也会增加额外的整理成本。

是否真正节省时间

这是一个很现实的标准。如果你发现自己每次都要花大量时间修补结果，那这个用例的价值就要打折。

是否足够稳定

一次效果好不算什么，连续几次在类似任务上都能保持可接受结果，才说明它具备继续沉淀的价值。

8.3 如何发现不稳定问题

很多用例的问题，不是“完全不能用”，而是“时好时坏”。这种不稳定比彻底失败更麻烦，因为它会让你误以为只是偶然波动，结果投入越来越多时间去反复调。

常见的不稳定迹象包括：

同样类型的输入，输出差异很大
有时结构清楚，有时明显跑偏
有时重点提炼准确，有时遗漏关键内容
每次都要重新解释背景才能得到像样结果
用例只能在非常理想的输入条件下表现正常

如果你发现一个用例经常出现这些现象，就要开始追问问题出在哪里：

是目标描述不清楚
是输入本身不稳定
是规则还不够明确
是场景边界定义得太松
还是这个用例本身并不适合你的真实场景

很多时候，所谓“不稳定”，其实不是模型随机，而是用例设计还没有足够收敛。

8.4 如何持续优化同一个用例

一个有价值的用例，不一定一开始就很成熟，但它应该具备可优化性。也就是说，你每改一次，它都会更贴近你的真实需求，而不是越改越乱。

持续优化时，建议遵循这几个原则：

每次只调整一个关键因素
调整后马上验证
保留有效版本
优先收敛高频问题
不要为了追求完美一次改太多

你可以优先优化这些方面：

目标描述是否更明确
输入结构是否更清楚
输出格式是否更贴近使用场景
规则是否减少了常见偏差
是否已经能复用到同类任务

真正有效的优化，不是把用例越写越复杂，而是让它越来越稳定、越来越省事、越来越适合重复使用。

如果一个用例经过几轮优化后，已经能在某一类任务上稳定发挥作用，那它就值得进入你的长期工具箱。如果无论怎么改都始终不稳定，那就应该及时止损，不要继续消耗精力。

本章小结

判断一个用例是不是真的好用，关键不在于它看起来多高级，而在于它是否满足几个现实标准：

能进入真实工作流程
结果质量基本可靠
不需要大量返工
在类似任务中具备稳定性
可以随着使用逐步优化

当你开始用这种方式评估用例时，就不会再被“演示效果”轻易带偏，而会更快找到那些真正值得保留和持续打磨的场景。