单次提示词只是开始
生产中的 Agent 可能会检索政策、调用工具、写 JSON、追问信息并交接人工。评测应该跟随整个工作流,而不是只测孤立回答。
- 给每一步和最终工作流结果都打分。
- 记录 Agent 何时需要工具或人工复核。
- 校验失败应视为工作流失败,不是小瑕疵。
应该记录什么
记录输入、提示词版本、模型版本、检索上下文、工具调用、原始输出、校验结果、人工修正和最终给用户的答案。
AAA.win 可以如何演进
AAA.win 可以继续把静态任务作为证据层,再逐步加入更丰富的工作流轨迹,让读者既能看排行榜,也能看更深的运营证据。
如何复用这套方法
评测方法可以被任何团队复用成小型内部评测。关键不是任务数量越多越好,而是任务必须覆盖真实工作、真实风险和真实输出格式。一个 30 条样本的认真评测,常常比 300 条泛泛 demo 更有价值。
- 先定义不可接受失败。
- 再准备代表性样本。
- 最后用同一规则比较候选 Agent。
证据应该怎样保存
建议保存原始输入、提示词版本、模型版本、运行日期、原始输出、人工评分和失败标签。这样后续模型变化、团队复盘或对外说明时,结果才可追溯。
上线前检查清单
把这套方法用于生产前,建议至少完成一次小规模复测。复测不需要复杂系统,但要覆盖真实输入、边界案例和失败后的处理方式。
- 是否有明确的人审和升级规则?
- 是否记录了模型版本和评测日期?
- 是否知道哪些输出不能直接发送或写入系统?
- 是否准备了失败后的回滚或人工接管方案?
读者可以马上做的下一步
如果你正在评估这套方法,可以从 10 条真实样本开始:3 条普通案例、3 条边界案例、2 条高风险案例、2 条格式或语言要求严格的案例。让 2 到 3 个候选 Agent 同场运行,再比较输出质量、修复时间和严重失败。