Arena #2

Centre de rapports AAA.win

Genere depuis le lot: maa-preview-002

AAA.win a teste 6 AI Agents sur 20 taches metier multilingues couvrant 4 langues. Les rapports ci-dessous rendent les resultats lisibles par marche, role et risque.

6agents

20taches

4langues

360executions

Resume executif

Vainqueur global : Claude Main, avec un score moyen de 87.
Taux d'echec critique le plus bas parmi les agents de tete : Qwen Main.
Mode d'echec le plus frequent : literal_translation.
Un bon score global ne garantit pas la victoire dans chaque langue ou type de tache.

Rapports disponibles

Pour dirigeants

Resume multilingue

Vue rapide des vainqueurs, limites et signaux a verifier avant toute publication.

Lire le classement global avec les vainqueurs par langue.
Les resultats preview seed ne sont pas une verite finale.
Le risque metier compte plus que la fluidite du style.

Pour equipes locales

Rapport par langue

Compare les agents par marche linguistique pour eviter de choisir depuis l'anglais uniquement.

Utiliser les vainqueurs par langue pour les flux locaux.
Verifier le ton, les dates et les usages support de chaque marche.
Ajouter ensuite de vrais jeux de taches FR, DE, PT et KO.

Pour operations

Rapport de risque

Suit les echecs critiques, promesses dangereuses, champs inventes et sorties inutilisables.

Traiter les tags d'echec comme des pistes d'audit.
Revoir manuellement remboursement, securite et conformite.
Ne pas laisser un score eleve masquer un mauvais format.

Pour choisir un outil

Rapport de selection

Aide a choisir selon cout, langue de travail et tolerance au risque.

Premium peut etre justifie sur les flux a fort risque.
Standard reste competitif sur certaines langues et extractions.
Le meilleur choix depend du workflow, pas seulement du rang.

Pour equipes produit

Rapport par famille de taches

Explique comment support, redaction et extraction structurent les ecarts.

Le support teste les limites metier.
La redaction teste le ton naturel et la localisation.
L'extraction teste JSON, dates, champs manquants et robustesse.

Pour lecteurs publics

Rapport de publication

Liste les conditions avant d'utiliser les resultats dans une annonce ou un article.

Remplacer les sorties seed par de vraies sorties verifiables.
Publier les versions de modeles et dates d'evaluation.
Dire clairement que les fournisseurs ne peuvent pas acheter les scores.

Plan de mise a jour du 28 juin 2026

Le perimetre realiste aujourd'hui est d'enrichir les rapports et la localisation tout en gardant les resultats preview clairement signales.

Publier un centre de rapports multilingue.
Ajouter quatre langues d'interface : francais, allemand, portugais et coreen.
Controler les routes de rapport et les pages principales.
Deployer une version stable apres les checks.

Capacite attendue aujourd'hui : 6 rapports lisibles dans 8 langues d'interface ; les titres de taches et les vrais jeux de donnees FR/DE/PT/KO restent l'etape suivante.

Classement global

Rang	Agent	Score	Reussite	Echecs critiques	Cout
1	Claude Main	87	97%	12%	premium
2	OpenAI Main	86	92%	12%	premium
3	Qwen Main	84	93%	10%	standard
4	Gemini Main	80	82%	12%	standard
5	DeepSeek Main	80	70%	7%	low
6	Grok Main	75	37%	27%	standard

Vainqueurs par langue

Langue	Vainqueur	Score	Echecs critiques
中文	Qwen Main	89	7%
English	OpenAI Main	93	7%
日本語	Claude Main	89	13%
Español	Claude Main	88	13%

Vainqueurs par type de tache

Type de tache	Vainqueur	Score	Echecs critiques
Support	Claude Main	90	13%
Redaction	Claude Main	90	11%
Extraction	Qwen Main	88	6%

Modes d'echec

Etiquette d'echec	Nombre
literal_translation	26
unsafe_refund_promise	23
weak_cta	21
unsupported_claim	17
invalid_json	13
missing_field	10
too_verbose	6
wrong_date_format	6
missed_dependency	5
generic_ai_copy	5

Resultats par tache

Tache	Langue	Type	Vainqueur	Score	Risque principal
Chinese Customer Complaint Triage	中文	Support	Qwen Main	85	unsafe_refund_promise
Chinese App Review Pain Point Summary	中文	Redaction	OpenAI Main	89	hallucinated_issue
Chinese Contract Field Extraction	中文	Extraction	Qwen Main	96	hallucinated_signing_date
Chinese Sales Call Summary	中文	Extraction	Qwen Main	96	missed_buying_signal
Chinese Invoice Dispute Reply	中文	Support	OpenAI Main	85	unauthorized_credit
SaaS Landing Page Hero Rewrite	English	Redaction	OpenAI Main	93	generic_ai_copy
Meeting Notes Action Item Extraction	English	Extraction	OpenAI Main	89	discussion_as_action
Refund Policy Boundary Reply	English	Support	OpenAI Main	96	unsafe_refund_promise
English Security Questionnaire Answer	English	Support	OpenAI Main	96	unsupported_security_claim
English Churn Risk Email	English	Redaction	Claude Main	95	tone_deaf_retention
Japanese Business Email Politeness Rewrite	日本語	Redaction	OpenAI Main	85	unnatural_japanese
Japanese Appointment Intent Classification	日本語	Support	Claude Main	92	wrong_intent
Japanese Product Specification Extraction	日本語	Extraction	Qwen Main	91	hallucinated_material
Japanese Support Escalation Note	日本語	Support	Claude Main	92	lost_escalation_context
Japanese Pricing Page Localization	日本語	Redaction	Claude Main	92	literal_pricing_copy
Spanish Support Reply for Wrong Item	Español	Support	Claude Main	89	unsafe_refund_promise
Spanish Ad Headline Localization	Español	Redaction	Claude Main	92	literal_translation
Spanish Order Confirmation Extraction	Español	Extraction	Claude Main	85	wrong_date_format
Spanish Billing Cancellation Reply	Español	Support	Claude Main	91	wrong_cancellation_policy
Spanish Survey Insight Clustering	Español	Extraction	Qwen Main	83	overmerged_feedback

Apercu methodologique

Executions par paire tache-agent : 3
Outils actives : false
Navigation web activee : false
Memoire activee : false
Les scores combinent succes de tache, adaptation linguistique, respect des consignes, securite metier et fiabilite.

Notes de publication

Remplacer les sorties preview seed par des sorties reelles avant toute affirmation publique.
Faire relire tous les echecs critiques de securite metier.
Confirmer versions de modeles, dates de prix et dates d'evaluation.
Maintenir visible la politique fournisseur : pas d'achat de score.