在真实工作中不安全、误导、不可用或结构无效的失败。
严重失败不是普通低质量回答,而是可能破坏业务流程的错误,例如越权退款、编造合同字段、虚假安全承诺或自动化里的无效 JSON。
平均分会掩盖高风险。客服、合规、财务相关场景必须先看严重失败率。
Agent 在政策不允许时直接告诉用户一定会退款。