关于提示词的艰难教训

人们常常讨论“完美的提示语”——讨论是否几行精心编写的文字可以带来近乎神奇的效果。还有人争论生成型人工智能（Gen AI）是否真正进行推理，还是仅仅模仿模式。我们不会在这里解决这个辩论。相反，请把自己当作一名分析师：观察生成型模型（Gen AI）在现实需求下的行为，记录它们的优势，发现它们的怪癖，并记录每一个红旗。

在过去的12个月里，我将生成型人工智能部署到质量工程和测试（QET）领域——任务包括需求创建、测试策略、基于高级测试设计技术的测试用例创建、测试数据生成和领域逻辑验证。想象一下，这是无边界的提示语工程之夜——测试、构建、撤回，看着输出像抽象艺术一样展开。一场试错的交响乐，充满了咖啡因和好奇心，RAG 文件作为后台团队。这是构建代理的完美准备！目标是：生成一致的、接近“一次性正确”的结果，从而提高生产力（效率和效果）。

例如，处理如下请求：

“生成与无障碍相关的需求”
“对于任何给定的需求或用户故事，应推荐哪些测试设计技术？”
“生成4值边界值分析的测试用例”
“生成一个包含5000行高保真合成数据的数据集，仔细保留源文件中的复杂模式多样性、结构特征和统计分布。”

“生成推理”是否能匹配人类推理的能力？有时，它确实表现得惊人。其他时候，如果我们未能揭示隐藏的逻辑或过于依赖完美的文本，它则可能偏离轨道。以下是我观察到的重复性陷阱，每一个都与更深层的行为相关，如果你像侦探一样分析生成型人工智能的输出，你将能察觉到。

过度热衷采用（即盲目跃入）

观察到的行为

很多人对生成型人工智能的潜力感到如此兴奋，以至于忽视了与模型共享数据的类型。是的，尽管这一点已经被多次提及。或者他们认为它是万灵药——所有测试策略问题都会神奇地得到解决。我曾多次看到整个日志或敏感用户数据被上传到外部服务器，因为有人追求“即时回报”。

实践建议

关注风险暴露：不要假设模型的环境是安全的。使用前匿名化数据。验证可行性：生成型人工智能并不总是适用于每个测试挑战。做一个快速的领域适配检查。

信任但要验证：精美的语言并不是安全或严谨逻辑的证明。

过多的指令（太多细节，缺乏结构）

观察到的行为

一些测试人员用一个巨大的提示语将所有参数、约束或业务规则一股脑地塞给模型——“一次性生成所有内容”。AI 返回的是庞大的输出，关键约束被埋没，导致“审查疲劳”。

实践建议

分段提示语：将任务（如参数识别、约束检查和测试用例生成）分解为更小、更有逻辑的步骤。

确定优先级：沟通哪些约束最为关键，这样 AI 不会把它们淹没在冗余内容中。

避免信息超载：如果输出篇幅过长，可以重新提示分块请求，保持紧密关注你的即时目标。

贪心覆盖（想要所有，忽略上下文）

观察到的行为

一些人不断推动 AI 进行“最大覆盖”，反复改写提示语以获得更多组合。结果往往是一团乱麻——数十或数百个场景，可能并不符合实际的业务风险。

实践建议
强调相关性：明确哪些参数对安全、财务影响或合规性最为重要。AI 不会自行推测你的风险配置。

选对模型，选对任务：如果你只需要标准的成对覆盖，使用开源工具可能比反复要求大型模型更便宜、更可靠。

垃圾进，垃圾出：模糊的“覆盖所有”命令会导致肤浅的结果，跳过真正的领域逻辑。

懒散的提示语（跳过精确工作的必要性）

观察到的行为

在急于自动化的过程中，一些软件测试人员仅提供表面的指导：“生成一个测试计划。”当然，这几乎是夸张的，但你明白我的意思。他们接受了第一个格式化良好的文本块作为完整的，忽略了质量工程要求的细微差别。

实践建议

逐步清晰：使用渐进式提示语——先让 AI 列出参数，然后再细化。

嵌入领域逻辑：如果某些约束或已知的高风险领域重要，请明确告知。模型不会自动添加这些内容。

严格审查：不要让格式整洁的输出让你松懈。

挫败反馈循环（反复修正，相同错误）

观察到的行为

测试人员试图通过增加额外的指令来修复不合格的输出（“别忘了约束X！”）。AI 会“道歉”并重新措辞，但会重复相同的错误。它无法像人类那样进行真正的自我反思或从错误中学习。

实践建议

识别隐藏的差距：如果 AI 一直误解约束，说明你的提示语可能缺少明确的细节或结构。

分解任务：不要给一个大而全的提示语，而是逐个解决逻辑漏洞，提出新的、有针对性的查询。

知道何时转向：如果多轮提示失败，尝试换一种方法或选择更简单的模型来直接引导。

专家错觉（过于自信的 AI）

观察到的行为

AI “听起来”很有权威性，引用了可能并不存在的最佳实践或标准。它还会巧妙地模仿领域术语，导致一些团队成员认为它是专家。实际上，它只是在模仿训练数据中的模式。

实践建议

要求提供来源：如果 AI 引用的是指南或官方文件，要求提供引用或示例。

验证领域具体细节：真实的 QET 专家必须确认这些“专家声明”是否符合实际的行业或组织标准。

识别虚构内容：检查是否有伪造的参考或看似合理但经不起推敲的缩写词。

对人类专业知识的傲慢（低估测试人员的作用）

观察到的行为

一些团队认为领域专家现在可以忽略——“既然 AI 可以为我们起草计划，为什么还需要测试架构师？”这是一个危险的过度推测，尤其是在微妙的逻辑或监管约束存在的情况下。

实践建议

将 AI 与专家配对：最佳结果来自于合作，在这里人类验证和完善 AI 的输出。

领域知识是不可替代的：AI 缺乏真正的理解。除非你特别指定，否则它无法评估某个特性可能触发的合规问题或财务风险。

上下文监督：经验丰富的测试人员仍然是确保覆盖与业务结果一致性的最后检查点。

分析师的判决

经过一年观察生成型人工智能在质量工程中的表现，我将其视为一名在审讯中的嫌疑人：

它会准确地告诉你你要求的内容——没有更多，也没有更少。
它可以巧妙地进入“专家语气”，即使是在吹嘘。
它需要明确、谨慎的问题才能揭示隐藏的漏洞或矛盾的约束条件。

这是否意味着生成推理无法达到 QET 在效率、效果和接近“一次性正确”结果方面的高标准？
当然不是。它可以帮助加速任务，激发新的见解，并处理重复的生成任务。但前提是你要：

明确地阐述领域逻辑（不要假设 AI “自然而然”知道），
将提示语分段（避免一股脑的指令涌入），
保持人类专业知识的参与（不要让 AI 自动驾驶进行关键决策）。

只要采取这些防范措施，生成型人工智能可以成为一个强大的协作者，补充人类主导的 QA 策略——而不是试图（并且未能）替代它。它不是魔法，无法自发地发展出 QET 专业人员多年积累的深度推理。但如果利用得当，它确实能带来速度、新的视角，以及额外的“眼睛”来增强你的测试工具。

底线：如果你把生成推理当作一个真正的伙伴，给予它密切的指导和频繁的现实检查，它能帮助你实现一致的、接近“一次性正确”的结果，这是我们在软件质量中所追求的。通过分析它的行为模式，你将知道在哪些地方可以信任它的建议，以及在哪些地方需要你自己带着领域经验来修正。这就是如何从这种新兴方法中获得真正的生产力提升和更好的商业成果。

暂时如此。