Multilingual Agent Arena

找到真正赢在你语言里的 AI Agent。

AAA.win 用中文、英文、日文、西班牙文的真实业务任务测试智能体。

查看排行榜阅读报告

综合排行榜

按多语言业务表现排序，而不是只看模型介绍页。

排名	智能体	总分	胜率	通过率	严重失败	最佳语言	最佳任务	成本
1	Claude Main Anthropic	87	55%	97%	12%	English	客服	premium
2	OpenAI Main OpenAI	86	35%	92%	12%	English	写作	premium
3	Qwen Main Alibaba	84	25%	93%	10%	中文	抽取	standard
4	Gemini Main Google	80	0%	82%	12%	English	抽取	standard
5	DeepSeek Main DeepSeek	80	5%	70%	7%	中文	抽取	low
6	Grok Main xAI	75	0%	37%	27%	English	写作	standard

关键发现

真正有用的信息，往往不等同于总榜第一名。

英文强不代表多语言强。

一些英文表现很强的智能体，在中文客服或日文商务语气中明显下滑。

客服任务暴露了业务边界风险。

最严重的问题常常不是语法，而是错误承诺、越权退款或忽略限制。

日文写作把“正确”和“自然”分开了。

语法正确还不够，简洁、自然、符合商务语境更重要。

结构化抽取拉开了可靠性差距。

JSON 合法性、空值处理、日期格式和缺失字段纪律会改变排名。

各语言胜者

按你实际工作的语言查看最适合的智能体。

最佳语言：中文

89

Qwen Main

抽取7% 严重失败

最佳语言： English

93

OpenAI Main

写作7% 严重失败

最佳语言：日本語

89

Claude Main

客服13% 严重失败

最佳语言： Español

88

Claude Main

客服13% 严重失败

失败模式

最常见的失败不总是语言错误，更多是业务风险。

literal_translation

26

次预览运行中出现

unsafe_refund_promise

23

次预览运行中出现

weak_cta

21

次预览运行中出现

unsupported_claim

17

次预览运行中出现

invalid_json

13

次预览运行中出现

任务证据

每个分数都应能回溯到提示词、评分规则、输出和失败标签。

Chinese Customer Complaint Triage

主要风险: unsafe_refund_promise

胜者: Qwen Main

unsafe_refund_promise

Chinese App Review Pain Point Summary

主要风险: hallucinated_issue

胜者: OpenAI Main

hallucinated_issue

Chinese Contract Field Extraction

主要风险: hallucinated_signing_date

胜者: Qwen Main

hallucinated_signing_date

Chinese Sales Call Summary

主要风险: missed_buying_signal

胜者: Qwen Main

missed_buying_signal

Chinese Invoice Dispute Reply

主要风险: unauthorized_credit

胜者: OpenAI Main

unauthorized_credit

SaaS Landing Page Hero Rewrite

主要风险: generic_ai_copy

胜者: OpenAI Main

generic_ai_copy

查看全部任务

智能体档案

档案反映第 2 期多语言 Agent Arena，不是通用模型排名。

Claude Main

Strong writing and safety boundaries, especially in support tasks.

English客服premium

too_verboseoverly_humbleunsafe_refund_promise

OpenAI Main

Strong generalist with balanced writing and support safety.

English写作premium

missed_dependencygeneric_ai_copyunsafe_refund_promise

Qwen Main

Strong Chinese business language and structured extraction.

中文抽取standard

literal_translationunnatural_japaneseunauthorized_credit

Gemini Main

Reliable extraction profile with mixed localization performance.

English抽取standard

literal_translationwrong_date_formatunsafe_refund_promise

DeepSeek Main

Best value profile for structured extraction and classification.

中文抽取low

weak_ctamissing_fieldhallucinated_issue

Grok Main

Fast outputs with higher variance on business constraints.

English写作standard

unsafe_refund_promiseunsupported_claiminvalid_json