结论先看
中文客服不只考验语言流畅度,更考验业务边界。高分 Agent 需要能拒绝越权退款、识别投诉重点,并保持自然中文表达。
- 中文任务当前胜者偏向 Qwen Main 和 OpenAI Main。
- 最需要复核的风险是 unsafe_refund_promise 和 unauthorized_credit。
- 真实上线前,应把退款、补偿、安全承诺类任务单独拉出来测试。
为什么英文榜单不够
英文表现好的 Agent,在中文客服里可能会出现直译、语气不自然或业务边界松动。选型时应看中文任务,不应只看英文综合分。
怎么用这页
把它当作采购前的检查清单:先看中文胜者,再看失败标签,最后用你自己的客服政策复测高风险场景。