第 2 期

只看英文基准远远不够

生成批次: maa-preview-002

AAA.win 在 4 种语言的 20 个真实业务任务上测试了 6 个 AI Agent。本预览报告由结构化运行数据生成,公开引用前仍应人工编辑与复核。

6智能体
20任务
4语言
360次运行

执行摘要

可阅读的报告

给决策者

多语言执行摘要

快速说明胜者、限制条件,以及公开引用前必须人工复核的关键信号。

  • 综合榜必须和各语言胜者一起看。
  • 当前仍是 preview seed 结果,不能当作最终基准结论引用。
  • 业务安全风险比文风流畅更重要。
给本地团队

语言市场报告

按中文、英文、日文、西班牙文市场比较 Agent,避免只凭英文结果做选择。

  • 本地生产流程应优先参考对应语言胜者。
  • 要复核每个市场的语气、日期格式和客服习惯。
  • 法语、德语、葡语、韩语下一步应补成真实任务集。
给运营团队

风险与失败报告

聚焦严重失败、越权承诺、编造字段和不可用输出。

  • 把失败标签当作审计线索,而不是普通备注。
  • 退款、安全、合规相关案例必须人工复核。
  • 不要让高分掩盖格式纪律差的问题。
给工具选型

采购选择报告

帮助团队按成本、工作语言和风险容忍度选择,而不是只看一个平均分。

  • 高风险流程中 premium Agent 更容易有合理性。
  • standard Agent 在部分语言和抽取任务中仍有竞争力。
  • 最佳选择取决于工作流,而不只是总排名。
给产品团队

任务族报告

解释客服、写作、结构化抽取三类任务如何拉开 Agent 差距。

  • 客服任务测试业务边界。
  • 写作任务测试自然语气和本地化能力。
  • 抽取任务测试 JSON、日期、缺失字段和稳定性。
给公开读者

发布准备报告

列出把结果用于发布、文章或商业页面之前必须满足的条件。

  • 用真实可验证的模型输出替换 seed 输出。
  • 公开模型版本和评测日期。
  • 明确标注厂商不能购买或修改分数。

2026-06-28 更新计划

今天现实可完成的重点,是把现有 20 个任务的证据质量和本地化深度补齐,同时继续明确标注当前结果属于 preview seed。

今天预计可更新:20 个任务页都能完成文字质量巡检;其中 8-10 个任务可以做更深入的证据补强。

综合排行榜

排名Agent分数通过率严重失败率成本档位
1Claude Main8797%12%premium
2OpenAI Main8692%12%premium
3Qwen Main8493%10%standard
4Gemini Main8082%12%standard
5DeepSeek Main8070%7%low
6Grok Main7537%27%standard

各语言胜者

语言胜者分数严重失败率
中文Qwen Main897%
EnglishOpenAI Main937%
日本語Claude Main8913%
EspañolClaude Main8813%

任务类型胜者

任务类型胜者分数严重失败率
客服Claude Main9013%
写作Claude Main9011%
抽取Qwen Main886%

失败模式

失败标签次数
literal_translation26
unsafe_refund_promise23
weak_cta21
unsupported_claim17
invalid_json13
missing_field10
too_verbose6
wrong_date_format6
missed_dependency5
generic_ai_copy5

任务结果

任务语言类型胜者分数主要风险
Chinese Customer Complaint Triage中文客服Qwen Main85unsafe_refund_promise
Chinese App Review Pain Point Summary中文写作OpenAI Main89hallucinated_issue
Chinese Contract Field Extraction中文抽取Qwen Main96hallucinated_signing_date
Chinese Sales Call Summary中文抽取Qwen Main96missed_buying_signal
Chinese Invoice Dispute Reply中文客服OpenAI Main85unauthorized_credit
SaaS Landing Page Hero RewriteEnglish写作OpenAI Main93generic_ai_copy
Meeting Notes Action Item ExtractionEnglish抽取OpenAI Main89discussion_as_action
Refund Policy Boundary ReplyEnglish客服OpenAI Main96unsafe_refund_promise
English Security Questionnaire AnswerEnglish客服OpenAI Main96unsupported_security_claim
English Churn Risk EmailEnglish写作Claude Main95tone_deaf_retention
Japanese Business Email Politeness Rewrite日本語写作OpenAI Main85unnatural_japanese
Japanese Appointment Intent Classification日本語客服Claude Main92wrong_intent
Japanese Product Specification Extraction日本語抽取Qwen Main91hallucinated_material
Japanese Support Escalation Note日本語客服Claude Main92lost_escalation_context
Japanese Pricing Page Localization日本語写作Claude Main92literal_pricing_copy
Spanish Support Reply for Wrong ItemEspañol客服Claude Main89unsafe_refund_promise
Spanish Ad Headline LocalizationEspañol写作Claude Main92literal_translation
Spanish Order Confirmation ExtractionEspañol抽取Claude Main85wrong_date_format
Spanish Billing Cancellation ReplyEspañol客服Claude Main91wrong_cancellation_policy
Spanish Survey Insight ClusteringEspañol抽取Qwen Main83overmerged_feedback

方法概览

发布说明