长期知识库

AI Agent 术语库

把评测、任务、失败标签和业务安全相关概念整理成可检索的长期内容入口。

ai-agent

AI Agent

能够理解目标、使用上下文并完成工作流步骤的 AI 系统。

agent-benchmark

Agent 评测基准

用于在可记录条件下比较 AI Agent 的任务集合。

critical-failure

严重失败

在真实工作中不安全、误导、不可用或结构无效的失败。

structured-extraction

结构化抽取

把非结构化文本转成 JSON、日期、金额、标签等稳定字段。

business-safety

业务安全

避免危险承诺、虚假声明和违反业务政策的能力。

failure-tag

失败标签

解释 Agent 输出哪里出错的标签。

literal-translation

生硬直译

文字翻译了,但本地业务语气不自然的本地化失败。

valid-json

有效 JSON

可以被软件直接解析、不需要修复的结构化输出。

multilingual-evaluation

多语言评测

在实际使用的语言和市场中测试 Agent。

leaderboard

排行榜

按分数、语言、任务类型或风险指标排序的 Agent 列表。

task-family

任务类型

客服、写作、结构化抽取等相关任务集合。

unsafe-refund-promise

越权退款承诺

Agent 在无权限时承诺退款、补偿或取消的客服失败。