多言語エグゼクティブ概要
勝者、注意点、公開前に人間が確認すべきシグナルを短く読める形でまとめます。
- 総合ランキングは言語別勝者と一緒に読む必要があります。
- 現在の結果は preview seed であり、最終的な基準値として引用すべきではありません。
- 流暢さよりも業務安全性のリスクが重要です。
生成バッチ: maa-preview-002
AAA.win は 4 言語、20 件の実務タスクで 6 個の AI Agent を評価しました。このプレビューレポートは構造化データから生成されており、公開前に編集とレビューが必要です。
勝者、注意点、公開前に人間が確認すべきシグナルを短く読める形でまとめます。
中国語、英語、日本語、スペイン語の市場別に Agent を比較し、英語だけで選ぶことを避けます。
重大失敗、危険な約束、存在しない項目、使えない出力に焦点を当てます。
平均点だけではなく、コスト、作業言語、リスク許容度で選ぶための視点を提供します。
サポート、ライティング、構造化抽出のどこで Agent 差が出るかを説明します。
ローンチ、記事、商用ページで結果を使う前に必要な条件を整理します。
今日の現実的な範囲は、既存20タスクの証拠品質とローカライズ深度を上げつつ、結果が preview seed であることを明確に保つことです。
本日の見込み:20件のタスクページを文章品質チェックでき、そのうち8-10件は証拠説明を深く更新できます。
| 順位 | Agent | スコア | 合格率 | 重大失敗率 | コスト |
|---|---|---|---|---|---|
| 1 | Claude Main | 87 | 97% | 12% | premium |
| 2 | OpenAI Main | 86 | 92% | 12% | premium |
| 3 | Qwen Main | 84 | 93% | 10% | standard |
| 4 | Gemini Main | 80 | 82% | 12% | standard |
| 5 | DeepSeek Main | 80 | 70% | 7% | low |
| 6 | Grok Main | 75 | 37% | 27% | standard |
| 言語 | 勝者 | スコア | 重大失敗率 |
|---|---|---|---|
| 中文 | Qwen Main | 89 | 7% |
| English | OpenAI Main | 93 | 7% |
| 日本語 | Claude Main | 89 | 13% |
| Español | Claude Main | 88 | 13% |
| タスク種別 | 勝者 | スコア | 重大失敗率 |
|---|---|---|---|
| サポート | Claude Main | 90 | 13% |
| ライティング | Claude Main | 90 | 11% |
| 抽出 | Qwen Main | 88 | 6% |
| 失敗タグ | 件数 |
|---|---|
| literal_translation | 26 |
| unsafe_refund_promise | 23 |
| weak_cta | 21 |
| unsupported_claim | 17 |
| invalid_json | 13 |
| missing_field | 10 |
| too_verbose | 6 |
| wrong_date_format | 6 |
| missed_dependency | 5 |
| generic_ai_copy | 5 |
| タスク | 言語 | 種別 | 勝者 | スコア | 主なリスク |
|---|---|---|---|---|---|
| Chinese Customer Complaint Triage | 中文 | サポート | Qwen Main | 85 | unsafe_refund_promise |
| Chinese App Review Pain Point Summary | 中文 | ライティング | OpenAI Main | 89 | hallucinated_issue |
| Chinese Contract Field Extraction | 中文 | 抽出 | Qwen Main | 96 | hallucinated_signing_date |
| Chinese Sales Call Summary | 中文 | 抽出 | Qwen Main | 96 | missed_buying_signal |
| Chinese Invoice Dispute Reply | 中文 | サポート | OpenAI Main | 85 | unauthorized_credit |
| SaaS Landing Page Hero Rewrite | English | ライティング | OpenAI Main | 93 | generic_ai_copy |
| Meeting Notes Action Item Extraction | English | 抽出 | OpenAI Main | 89 | discussion_as_action |
| Refund Policy Boundary Reply | English | サポート | OpenAI Main | 96 | unsafe_refund_promise |
| English Security Questionnaire Answer | English | サポート | OpenAI Main | 96 | unsupported_security_claim |
| English Churn Risk Email | English | ライティング | Claude Main | 95 | tone_deaf_retention |
| Japanese Business Email Politeness Rewrite | 日本語 | ライティング | OpenAI Main | 85 | unnatural_japanese |
| Japanese Appointment Intent Classification | 日本語 | サポート | Claude Main | 92 | wrong_intent |
| Japanese Product Specification Extraction | 日本語 | 抽出 | Qwen Main | 91 | hallucinated_material |
| Japanese Support Escalation Note | 日本語 | サポート | Claude Main | 92 | lost_escalation_context |
| Japanese Pricing Page Localization | 日本語 | ライティング | Claude Main | 92 | literal_pricing_copy |
| Spanish Support Reply for Wrong Item | Español | サポート | Claude Main | 89 | unsafe_refund_promise |
| Spanish Ad Headline Localization | Español | ライティング | Claude Main | 92 | literal_translation |
| Spanish Order Confirmation Extraction | Español | 抽出 | Claude Main | 85 | wrong_date_format |
| Spanish Billing Cancellation Reply | Español | サポート | Claude Main | 91 | wrong_cancellation_policy |
| Spanish Survey Insight Clustering | Español | 抽出 | Qwen Main | 83 | overmerged_feedback |