Arena #2

Centre de rapports AAA.win

Genere depuis le lot: maa-preview-002

AAA.win a teste 6 AI Agents sur 20 taches metier multilingues couvrant 4 langues. Les rapports ci-dessous rendent les resultats lisibles par marche, role et risque.

6agents
20taches
4langues
360executions

Resume executif

Rapports disponibles

Pour dirigeants

Resume multilingue

Vue rapide des vainqueurs, limites et signaux a verifier avant toute publication.

  • Lire le classement global avec les vainqueurs par langue.
  • Les resultats preview seed ne sont pas une verite finale.
  • Le risque metier compte plus que la fluidite du style.
Pour equipes locales

Rapport par langue

Compare les agents par marche linguistique pour eviter de choisir depuis l'anglais uniquement.

  • Utiliser les vainqueurs par langue pour les flux locaux.
  • Verifier le ton, les dates et les usages support de chaque marche.
  • Ajouter ensuite de vrais jeux de taches FR, DE, PT et KO.
Pour operations

Rapport de risque

Suit les echecs critiques, promesses dangereuses, champs inventes et sorties inutilisables.

  • Traiter les tags d'echec comme des pistes d'audit.
  • Revoir manuellement remboursement, securite et conformite.
  • Ne pas laisser un score eleve masquer un mauvais format.
Pour choisir un outil

Rapport de selection

Aide a choisir selon cout, langue de travail et tolerance au risque.

  • Premium peut etre justifie sur les flux a fort risque.
  • Standard reste competitif sur certaines langues et extractions.
  • Le meilleur choix depend du workflow, pas seulement du rang.
Pour equipes produit

Rapport par famille de taches

Explique comment support, redaction et extraction structurent les ecarts.

  • Le support teste les limites metier.
  • La redaction teste le ton naturel et la localisation.
  • L'extraction teste JSON, dates, champs manquants et robustesse.
Pour lecteurs publics

Rapport de publication

Liste les conditions avant d'utiliser les resultats dans une annonce ou un article.

  • Remplacer les sorties seed par de vraies sorties verifiables.
  • Publier les versions de modeles et dates d'evaluation.
  • Dire clairement que les fournisseurs ne peuvent pas acheter les scores.

Plan de mise a jour du 28 juin 2026

Le perimetre realiste aujourd'hui est d'enrichir les rapports et la localisation tout en gardant les resultats preview clairement signales.

Capacite attendue aujourd'hui : 6 rapports lisibles dans 8 langues d'interface ; les titres de taches et les vrais jeux de donnees FR/DE/PT/KO restent l'etape suivante.

Classement global

RangAgentScoreReussiteEchecs critiquesCout
1Claude Main8797%12%premium
2OpenAI Main8692%12%premium
3Qwen Main8493%10%standard
4Gemini Main8082%12%standard
5DeepSeek Main8070%7%low
6Grok Main7537%27%standard

Vainqueurs par langue

LangueVainqueurScoreEchecs critiques
中文Qwen Main897%
EnglishOpenAI Main937%
日本語Claude Main8913%
EspañolClaude Main8813%

Vainqueurs par type de tache

Type de tacheVainqueurScoreEchecs critiques
SupportClaude Main9013%
RedactionClaude Main9011%
ExtractionQwen Main886%

Modes d'echec

Etiquette d'echecNombre
literal_translation26
unsafe_refund_promise23
weak_cta21
unsupported_claim17
invalid_json13
missing_field10
too_verbose6
wrong_date_format6
missed_dependency5
generic_ai_copy5

Resultats par tache

TacheLangueTypeVainqueurScoreRisque principal
Chinese Customer Complaint Triage中文SupportQwen Main85unsafe_refund_promise
Chinese App Review Pain Point Summary中文RedactionOpenAI Main89hallucinated_issue
Chinese Contract Field Extraction中文ExtractionQwen Main96hallucinated_signing_date
Chinese Sales Call Summary中文ExtractionQwen Main96missed_buying_signal
Chinese Invoice Dispute Reply中文SupportOpenAI Main85unauthorized_credit
SaaS Landing Page Hero RewriteEnglishRedactionOpenAI Main93generic_ai_copy
Meeting Notes Action Item ExtractionEnglishExtractionOpenAI Main89discussion_as_action
Refund Policy Boundary ReplyEnglishSupportOpenAI Main96unsafe_refund_promise
English Security Questionnaire AnswerEnglishSupportOpenAI Main96unsupported_security_claim
English Churn Risk EmailEnglishRedactionClaude Main95tone_deaf_retention
Japanese Business Email Politeness Rewrite日本語RedactionOpenAI Main85unnatural_japanese
Japanese Appointment Intent Classification日本語SupportClaude Main92wrong_intent
Japanese Product Specification Extraction日本語ExtractionQwen Main91hallucinated_material
Japanese Support Escalation Note日本語SupportClaude Main92lost_escalation_context
Japanese Pricing Page Localization日本語RedactionClaude Main92literal_pricing_copy
Spanish Support Reply for Wrong ItemEspañolSupportClaude Main89unsafe_refund_promise
Spanish Ad Headline LocalizationEspañolRedactionClaude Main92literal_translation
Spanish Order Confirmation ExtractionEspañolExtractionClaude Main85wrong_date_format
Spanish Billing Cancellation ReplyEspañolSupportClaude Main91wrong_cancellation_policy
Spanish Survey Insight ClusteringEspañolExtractionQwen Main83overmerged_feedback

Apercu methodologique

Notes de publication