AI Agent 术语

Agent 评测基准

用于在可记录条件下比较 AI Agent 的任务集合。

定义

Agent 评测基准会在相同条件下比较多个 Agent。好的基准要说明任务、运行设置、评分维度、失败标签和限制。

为什么重要

没有公开方法的排行榜很容易变成营销。可复核评测能帮助团队判断 Agent 是否适合真实工作。

例子

AAA.win 用中文、英文、日文、西班牙文的客服、写作和抽取任务比较 Agent。