多语言执行摘要
快速说明胜者、限制条件,以及公开引用前必须人工复核的关键信号。
- 综合榜必须和各语言胜者一起看。
- 当前仍是 preview seed 结果,不能当作最终基准结论引用。
- 业务安全风险比文风流畅更重要。
生成批次: maa-preview-002
AAA.win 在 4 种语言的 20 个真实业务任务上测试了 6 个 AI Agent。本预览报告由结构化运行数据生成,公开引用前仍应人工编辑与复核。
快速说明胜者、限制条件,以及公开引用前必须人工复核的关键信号。
按中文、英文、日文、西班牙文市场比较 Agent,避免只凭英文结果做选择。
聚焦严重失败、越权承诺、编造字段和不可用输出。
帮助团队按成本、工作语言和风险容忍度选择,而不是只看一个平均分。
解释客服、写作、结构化抽取三类任务如何拉开 Agent 差距。
列出把结果用于发布、文章或商业页面之前必须满足的条件。
今天现实可完成的重点,是把现有 20 个任务的证据质量和本地化深度补齐,同时继续明确标注当前结果属于 preview seed。
今天预计可更新:20 个任务页都能完成文字质量巡检;其中 8-10 个任务可以做更深入的证据补强。
| 排名 | Agent | 分数 | 通过率 | 严重失败率 | 成本档位 |
|---|---|---|---|---|---|
| 1 | Claude Main | 87 | 97% | 12% | premium |
| 2 | OpenAI Main | 86 | 92% | 12% | premium |
| 3 | Qwen Main | 84 | 93% | 10% | standard |
| 4 | Gemini Main | 80 | 82% | 12% | standard |
| 5 | DeepSeek Main | 80 | 70% | 7% | low |
| 6 | Grok Main | 75 | 37% | 27% | standard |
| 语言 | 胜者 | 分数 | 严重失败率 |
|---|---|---|---|
| 中文 | Qwen Main | 89 | 7% |
| English | OpenAI Main | 93 | 7% |
| 日本語 | Claude Main | 89 | 13% |
| Español | Claude Main | 88 | 13% |
| 任务类型 | 胜者 | 分数 | 严重失败率 |
|---|---|---|---|
| 客服 | Claude Main | 90 | 13% |
| 写作 | Claude Main | 90 | 11% |
| 抽取 | Qwen Main | 88 | 6% |
| 失败标签 | 次数 |
|---|---|
| literal_translation | 26 |
| unsafe_refund_promise | 23 |
| weak_cta | 21 |
| unsupported_claim | 17 |
| invalid_json | 13 |
| missing_field | 10 |
| too_verbose | 6 |
| wrong_date_format | 6 |
| missed_dependency | 5 |
| generic_ai_copy | 5 |
| 任务 | 语言 | 类型 | 胜者 | 分数 | 主要风险 |
|---|---|---|---|---|---|
| Chinese Customer Complaint Triage | 中文 | 客服 | Qwen Main | 85 | unsafe_refund_promise |
| Chinese App Review Pain Point Summary | 中文 | 写作 | OpenAI Main | 89 | hallucinated_issue |
| Chinese Contract Field Extraction | 中文 | 抽取 | Qwen Main | 96 | hallucinated_signing_date |
| Chinese Sales Call Summary | 中文 | 抽取 | Qwen Main | 96 | missed_buying_signal |
| Chinese Invoice Dispute Reply | 中文 | 客服 | OpenAI Main | 85 | unauthorized_credit |
| SaaS Landing Page Hero Rewrite | English | 写作 | OpenAI Main | 93 | generic_ai_copy |
| Meeting Notes Action Item Extraction | English | 抽取 | OpenAI Main | 89 | discussion_as_action |
| Refund Policy Boundary Reply | English | 客服 | OpenAI Main | 96 | unsafe_refund_promise |
| English Security Questionnaire Answer | English | 客服 | OpenAI Main | 96 | unsupported_security_claim |
| English Churn Risk Email | English | 写作 | Claude Main | 95 | tone_deaf_retention |
| Japanese Business Email Politeness Rewrite | 日本語 | 写作 | OpenAI Main | 85 | unnatural_japanese |
| Japanese Appointment Intent Classification | 日本語 | 客服 | Claude Main | 92 | wrong_intent |
| Japanese Product Specification Extraction | 日本語 | 抽取 | Qwen Main | 91 | hallucinated_material |
| Japanese Support Escalation Note | 日本語 | 客服 | Claude Main | 92 | lost_escalation_context |
| Japanese Pricing Page Localization | 日本語 | 写作 | Claude Main | 92 | literal_pricing_copy |
| Spanish Support Reply for Wrong Item | Español | 客服 | Claude Main | 89 | unsafe_refund_promise |
| Spanish Ad Headline Localization | Español | 写作 | Claude Main | 92 | literal_translation |
| Spanish Order Confirmation Extraction | Español | 抽取 | Claude Main | 85 | wrong_date_format |
| Spanish Billing Cancellation Reply | Español | 客服 | Claude Main | 91 | wrong_cancellation_policy |
| Spanish Survey Insight Clustering | Español | 抽取 | Qwen Main | 83 | overmerged_feedback |