Arena #2

英語ベンチマークだけでは不十分

生成バッチ: maa-preview-002

AAA.win は 4 言語、20 件の実務タスクで 6 個の AI Agent を評価しました。このプレビューレポートは構造化データから生成されており、公開前に編集とレビューが必要です。

6Agent

20タスク

4言語

360実行

エグゼクティブサマリー

総合勝者：Claude Main、平均スコア 87。
上位 Agent の中で重大失敗率が最も低いもの：Qwen Main。
最も多い失敗モード：literal_translation。
総合性能が高くても、すべての言語やタスク種別で勝つとは限りません。

利用できるレポート

意思決定者向け

多言語エグゼクティブ概要

勝者、注意点、公開前に人間が確認すべきシグナルを短く読める形でまとめます。

総合ランキングは言語別勝者と一緒に読む必要があります。
現在の結果は preview seed であり、最終的な基準値として引用すべきではありません。
流暢さよりも業務安全性のリスクが重要です。

ローカルチーム向け

言語市場レポート

中国語、英語、日本語、スペイン語の市場別に Agent を比較し、英語だけで選ぶことを避けます。

ローカル運用では言語別勝者を優先して確認します。
市場ごとのトーン、日付形式、サポート慣習を確認します。
フランス語、ドイツ語、ポルトガル語、韓国語は次に実タスク化します。

運用チーム向け

リスクと失敗レポート

重大失敗、危険な約束、存在しない項目、使えない出力に焦点を当てます。

失敗タグは監査の手がかりとして扱います。
返金、セキュリティ、コンプライアンスは人間が確認します。
高スコアで形式の弱さを隠してはいけません。

ツール選定向け

購入判断レポート

平均点だけではなく、コスト、作業言語、リスク許容度で選ぶための視点を提供します。

高リスク業務では premium Agent が妥当な場合があります。
standard Agent も一部の言語や抽出タスクでは競争力があります。
最適な選択は順位だけでなくワークフロー次第です。

プロダクトチーム向け

タスクファミリーレポート

サポート、ライティング、構造化抽出のどこで Agent 差が出るかを説明します。

サポートは業務境界をテストします。
ライティングは自然なトーンとローカライズをテストします。
抽出は JSON、日付、欠損フィールド、堅牢性をテストします。

公開読者向け

公開準備レポート

ローンチ、記事、商用ページで結果を使う前に必要な条件を整理します。

seed 出力を検証可能な実モデル出力に置き換えます。
モデルバージョンと評価日を公開します。
ベンダーはスコアを購入できないことを明示します。

2026年6月28日の更新計画

今日の現実的な範囲は、既存20タスクの証拠品質とローカライズ深度を上げつつ、結果が preview seed であることを明確に保つことです。

午前：レポートページを多言語化し、各言語ルートを検証する。
昼：8-10件のタスクにプロンプト概要、ルーブリック、リスク説明を追加・改善する。
午後：残り10-12件のタスクページについて用語、リンク、可読性を確認する。
夜：レポートを再生成し、チェックを実行して安定版をデプロイする。

本日の見込み：20件のタスクページを文章品質チェックでき、そのうち8-10件は証拠説明を深く更新できます。

総合ランキング

順位	Agent	スコア	合格率	重大失敗率	コスト
1	Claude Main	87	97%	12%	premium
2	OpenAI Main	86	92%	12%	premium
3	Qwen Main	84	93%	10%	standard
4	Gemini Main	80	82%	12%	standard
5	DeepSeek Main	80	70%	7%	low
6	Grok Main	75	37%	27%	standard

言語別の勝者

言語	勝者	スコア	重大失敗率
中文	Qwen Main	89	7%
English	OpenAI Main	93	7%
日本語	Claude Main	89	13%
Español	Claude Main	88	13%

タスク種別の勝者

タスク種別	勝者	スコア	重大失敗率
サポート	Claude Main	90	13%
ライティング	Claude Main	90	11%
抽出	Qwen Main	88	6%

失敗モード

失敗タグ	件数
literal_translation	26
unsafe_refund_promise	23
weak_cta	21
unsupported_claim	17
invalid_json	13
missing_field	10
too_verbose	6
wrong_date_format	6
missed_dependency	5
generic_ai_copy	5

タスク結果

タスク	言語	種別	勝者	スコア	主なリスク
Chinese Customer Complaint Triage	中文	サポート	Qwen Main	85	unsafe_refund_promise
Chinese App Review Pain Point Summary	中文	ライティング	OpenAI Main	89	hallucinated_issue
Chinese Contract Field Extraction	中文	抽出	Qwen Main	96	hallucinated_signing_date
Chinese Sales Call Summary	中文	抽出	Qwen Main	96	missed_buying_signal
Chinese Invoice Dispute Reply	中文	サポート	OpenAI Main	85	unauthorized_credit
SaaS Landing Page Hero Rewrite	English	ライティング	OpenAI Main	93	generic_ai_copy
Meeting Notes Action Item Extraction	English	抽出	OpenAI Main	89	discussion_as_action
Refund Policy Boundary Reply	English	サポート	OpenAI Main	96	unsafe_refund_promise
English Security Questionnaire Answer	English	サポート	OpenAI Main	96	unsupported_security_claim
English Churn Risk Email	English	ライティング	Claude Main	95	tone_deaf_retention
Japanese Business Email Politeness Rewrite	日本語	ライティング	OpenAI Main	85	unnatural_japanese
Japanese Appointment Intent Classification	日本語	サポート	Claude Main	92	wrong_intent
Japanese Product Specification Extraction	日本語	抽出	Qwen Main	91	hallucinated_material
Japanese Support Escalation Note	日本語	サポート	Claude Main	92	lost_escalation_context
Japanese Pricing Page Localization	日本語	ライティング	Claude Main	92	literal_pricing_copy
Spanish Support Reply for Wrong Item	Español	サポート	Claude Main	89	unsafe_refund_promise
Spanish Ad Headline Localization	Español	ライティング	Claude Main	92	literal_translation
Spanish Order Confirmation Extraction	Español	抽出	Claude Main	85	wrong_date_format
Spanish Billing Cancellation Reply	Español	サポート	Claude Main	91	wrong_cancellation_policy
Spanish Survey Insight Clustering	Español	抽出	Qwen Main	83	overmerged_feedback

方法の概要

各タスク-Agent ペアの実行回数：3
ツール有効：false
Web ブラウジング有効：false
メモリ有効：false
スコアは、タスク成功、言語適合、指示遵守、業務安全性、出力信頼性の5軸で計算されます。

公開メモ

公開前に preview seed 出力を実際のモデル出力に置き換える必要があります。
重大な業務安全性の失敗は人間がレビューします。
モデルバージョン、価格日、評価日を確認します。
ベンダーは支払いによってスコアを変更できない、というポリシーを明示します。