Arena #2

英語ベンチマークだけでは不十分

生成バッチ: maa-preview-002

AAA.win は 4 言語、20 件の実務タスクで 6 個の AI Agent を評価しました。このプレビューレポートは構造化データから生成されており、公開前に編集とレビューが必要です。

6Agent
20タスク
4言語
360実行

エグゼクティブサマリー

利用できるレポート

意思決定者向け

多言語エグゼクティブ概要

勝者、注意点、公開前に人間が確認すべきシグナルを短く読める形でまとめます。

  • 総合ランキングは言語別勝者と一緒に読む必要があります。
  • 現在の結果は preview seed であり、最終的な基準値として引用すべきではありません。
  • 流暢さよりも業務安全性のリスクが重要です。
ローカルチーム向け

言語市場レポート

中国語、英語、日本語、スペイン語の市場別に Agent を比較し、英語だけで選ぶことを避けます。

  • ローカル運用では言語別勝者を優先して確認します。
  • 市場ごとのトーン、日付形式、サポート慣習を確認します。
  • フランス語、ドイツ語、ポルトガル語、韓国語は次に実タスク化します。
運用チーム向け

リスクと失敗レポート

重大失敗、危険な約束、存在しない項目、使えない出力に焦点を当てます。

  • 失敗タグは監査の手がかりとして扱います。
  • 返金、セキュリティ、コンプライアンスは人間が確認します。
  • 高スコアで形式の弱さを隠してはいけません。
ツール選定向け

購入判断レポート

平均点だけではなく、コスト、作業言語、リスク許容度で選ぶための視点を提供します。

  • 高リスク業務では premium Agent が妥当な場合があります。
  • standard Agent も一部の言語や抽出タスクでは競争力があります。
  • 最適な選択は順位だけでなくワークフロー次第です。
プロダクトチーム向け

タスクファミリーレポート

サポート、ライティング、構造化抽出のどこで Agent 差が出るかを説明します。

  • サポートは業務境界をテストします。
  • ライティングは自然なトーンとローカライズをテストします。
  • 抽出は JSON、日付、欠損フィールド、堅牢性をテストします。
公開読者向け

公開準備レポート

ローンチ、記事、商用ページで結果を使う前に必要な条件を整理します。

  • seed 出力を検証可能な実モデル出力に置き換えます。
  • モデルバージョンと評価日を公開します。
  • ベンダーはスコアを購入できないことを明示します。

2026年6月28日の更新計画

今日の現実的な範囲は、既存20タスクの証拠品質とローカライズ深度を上げつつ、結果が preview seed であることを明確に保つことです。

本日の見込み:20件のタスクページを文章品質チェックでき、そのうち8-10件は証拠説明を深く更新できます。

総合ランキング

順位Agentスコア合格率重大失敗率コスト
1Claude Main8797%12%premium
2OpenAI Main8692%12%premium
3Qwen Main8493%10%standard
4Gemini Main8082%12%standard
5DeepSeek Main8070%7%low
6Grok Main7537%27%standard

言語別の勝者

言語勝者スコア重大失敗率
中文Qwen Main897%
EnglishOpenAI Main937%
日本語Claude Main8913%
EspañolClaude Main8813%

タスク種別の勝者

タスク種別勝者スコア重大失敗率
サポートClaude Main9013%
ライティングClaude Main9011%
抽出Qwen Main886%

失敗モード

失敗タグ件数
literal_translation26
unsafe_refund_promise23
weak_cta21
unsupported_claim17
invalid_json13
missing_field10
too_verbose6
wrong_date_format6
missed_dependency5
generic_ai_copy5

タスク結果

タスク言語種別勝者スコア主なリスク
Chinese Customer Complaint Triage中文サポートQwen Main85unsafe_refund_promise
Chinese App Review Pain Point Summary中文ライティングOpenAI Main89hallucinated_issue
Chinese Contract Field Extraction中文抽出Qwen Main96hallucinated_signing_date
Chinese Sales Call Summary中文抽出Qwen Main96missed_buying_signal
Chinese Invoice Dispute Reply中文サポートOpenAI Main85unauthorized_credit
SaaS Landing Page Hero RewriteEnglishライティングOpenAI Main93generic_ai_copy
Meeting Notes Action Item ExtractionEnglish抽出OpenAI Main89discussion_as_action
Refund Policy Boundary ReplyEnglishサポートOpenAI Main96unsafe_refund_promise
English Security Questionnaire AnswerEnglishサポートOpenAI Main96unsupported_security_claim
English Churn Risk EmailEnglishライティングClaude Main95tone_deaf_retention
Japanese Business Email Politeness Rewrite日本語ライティングOpenAI Main85unnatural_japanese
Japanese Appointment Intent Classification日本語サポートClaude Main92wrong_intent
Japanese Product Specification Extraction日本語抽出Qwen Main91hallucinated_material
Japanese Support Escalation Note日本語サポートClaude Main92lost_escalation_context
Japanese Pricing Page Localization日本語ライティングClaude Main92literal_pricing_copy
Spanish Support Reply for Wrong ItemEspañolサポートClaude Main89unsafe_refund_promise
Spanish Ad Headline LocalizationEspañolライティングClaude Main92literal_translation
Spanish Order Confirmation ExtractionEspañol抽出Claude Main85wrong_date_format
Spanish Billing Cancellation ReplyEspañolサポートClaude Main91wrong_cancellation_policy
Spanish Survey Insight ClusteringEspañol抽出Qwen Main83overmerged_feedback

方法の概要

公開メモ