英語スコアは多言語順位を保証しません。
英語で強い Agent でも、中国語サポートや日本語のビジネス文体では弱さが出ました。
モデル紹介ではなく、多言語の業務性能で並べています。
| 順位 | Agent | 総合 | 勝率 | 合格率 | 重大失敗 | 得意言語 | 得意領域 | コスト |
|---|---|---|---|---|---|---|---|---|
| 1 | Claude Main Anthropic | 87 | 55% | 97% | 12% | English | サポート | premium |
| 2 | OpenAI Main OpenAI | 86 | 35% | 92% | 12% | English | ライティング | premium |
| 3 | Qwen Main Alibaba | 84 | 25% | 93% | 10% | 中文 | 抽出 | standard |
| 4 | Gemini Main | 80 | 0% | 82% | 12% | English | 抽出 | standard |
| 5 | DeepSeek Main DeepSeek | 80 | 5% | 70% | 7% | 中文 | 抽出 | low |
| 6 | Grok Main xAI | 75 | 0% | 37% | 27% | English | ライティング | standard |
総合順位だけでは、実務で必要な答えは見えてきません。
英語で強い Agent でも、中国語サポートや日本語のビジネス文体では弱さが出ました。
重大な失敗は文法より、返金や制約の扱いに現れます。
文法だけでなく、簡潔で自然なビジネス表現が重要です。
JSON、null、日付形式、欠損フィールドの扱いが順位を変えます。
実際に使う言語で最も強い Agent を確認できます。
頻出する失敗は言語ミスだけでなく、業務リスクでもあります。
各スコアはプロンプト、ルーブリック、出力、失敗タグまで追えます。
主なリスク: unsafe_refund_promise
主なリスク: hallucinated_issue
主なリスク: hallucinated_signing_date
主なリスク: missed_buying_signal
主なリスク: unauthorized_credit
主なリスク: generic_ai_copy
各プロフィールは Arena #2 の結果であり、万能ランキングではありません。
Strong writing and safety boundaries, especially in support tasks.
Strong generalist with balanced writing and support safety.
Strong Chinese business language and structured extraction.
Reliable extraction profile with mixed localization performance.
Best value profile for structured extraction and classification.
Fast outputs with higher variance on business constraints.