长期知识库
AI Agent 术语库
把评测、任务、失败标签和业务安全相关概念整理成可检索的长期内容入口。
ai-agent
AI Agent
能够理解目标、使用上下文并完成工作流步骤的 AI 系统。
agent-benchmarkAgent 评测基准
用于在可记录条件下比较 AI Agent 的任务集合。
critical-failure严重失败
在真实工作中不安全、误导、不可用或结构无效的失败。
structured-extraction结构化抽取
把非结构化文本转成 JSON、日期、金额、标签等稳定字段。
business-safety业务安全
避免危险承诺、虚假声明和违反业务政策的能力。
failure-tag失败标签
解释 Agent 输出哪里出错的标签。
literal-translation生硬直译
文字翻译了,但本地业务语气不自然的本地化失败。
valid-json有效 JSON
可以被软件直接解析、不需要修复的结构化输出。
multilingual-evaluation多语言评测
在实际使用的语言和市场中测试 Agent。
leaderboard排行榜
按分数、语言、任务类型或风险指标排序的 Agent 列表。
task-family任务类型
客服、写作、结构化抽取等相关任务集合。
unsafe-refund-promise越权退款承诺
Agent 在无权限时承诺退款、补偿或取消的客服失败。