排行榜只是起点
中文 Agent 排行榜有价值,是因为它能帮助团队提出更好的后续问题。最高分应该和任务类型、严重失败、中文表达是否像本地团队一起看。
- 中文客服、写作、抽取应该分开看。
- 优先关注避免越权退款和补偿承诺的 Agent。
- 上线前必须用自己的政策和客户案例复测。
为什么国内外模型都要看
全球模型可能在通用写作和英文任务上很强,国内模型则可能在中文语气、本地业务表达和成本敏感工作流中更有竞争力。
可信排行榜应该公开什么
至少应公开评测日期、任务集、运行次数、失败标签和限制说明。缺少这些信息,就很难判断排名是否可信。