用于在可记录条件下比较 AI Agent 的任务集合。
Agent 评测基准会在相同条件下比较多个 Agent。好的基准要说明任务、运行设置、评分维度、失败标签和限制。
没有公开方法的排行榜很容易变成营销。可复核评测能帮助团队判断 Agent 是否适合真实工作。
AAA.win 用中文、英文、日文、西班牙文的客服、写作和抽取任务比较 Agent。