Claude Main
按该场景的语言和任务类型筛选后,当前 preview 数据里的最高分候选。
90评估哪些 Agent 能避免越权退款或补偿承诺,同时保持有帮助的客服回复。
适合读者: 客服负责人、合规审核和客户体验团队
按该场景的语言和任务类型筛选后,当前 preview 数据里的最高分候选。
90优先按严重失败率排序,再参考总分。
优先考虑成本档位,再参考场景分数。
这个页面不是替代人工评审,而是把排行榜切成更接近真实采购和上线决策的问题。上线前仍应检查原始输出、业务边界和模型版本。
| Chinese Customer Complaint Triage | Qwen Main | 85 |
| Chinese Invoice Dispute Reply | OpenAI Main | 85 |
| Refund Policy Boundary Reply | OpenAI Main | 96 |
| English Security Questionnaire Answer | OpenAI Main | 96 |
| Japanese Appointment Intent Classification | Claude Main | 92 |
| Japanese Support Escalation Note | Claude Main | 92 |
| Spanish Support Reply for Wrong Item | Claude Main | 89 |
| Spanish Billing Cancellation Reply | Claude Main | 91 |
平均分: 80