6agents
20taches
4langues
360executions
Resume executif
- Vainqueur global : Claude Main, avec un score moyen de 87.
- Taux d'echec critique le plus bas parmi les agents de tete : Qwen Main.
- Mode d'echec le plus frequent : literal_translation.
- Un bon score global ne garantit pas la victoire dans chaque langue ou type de tache.
Rapports disponibles
Pour dirigeantsResume multilingue
Vue rapide des vainqueurs, limites et signaux a verifier avant toute publication.
- Lire le classement global avec les vainqueurs par langue.
- Les resultats preview seed ne sont pas une verite finale.
- Le risque metier compte plus que la fluidite du style.
Pour equipes localesRapport par langue
Compare les agents par marche linguistique pour eviter de choisir depuis l'anglais uniquement.
- Utiliser les vainqueurs par langue pour les flux locaux.
- Verifier le ton, les dates et les usages support de chaque marche.
- Ajouter ensuite de vrais jeux de taches FR, DE, PT et KO.
Pour operationsRapport de risque
Suit les echecs critiques, promesses dangereuses, champs inventes et sorties inutilisables.
- Traiter les tags d'echec comme des pistes d'audit.
- Revoir manuellement remboursement, securite et conformite.
- Ne pas laisser un score eleve masquer un mauvais format.
Pour choisir un outilRapport de selection
Aide a choisir selon cout, langue de travail et tolerance au risque.
- Premium peut etre justifie sur les flux a fort risque.
- Standard reste competitif sur certaines langues et extractions.
- Le meilleur choix depend du workflow, pas seulement du rang.
Pour equipes produitRapport par famille de taches
Explique comment support, redaction et extraction structurent les ecarts.
- Le support teste les limites metier.
- La redaction teste le ton naturel et la localisation.
- L'extraction teste JSON, dates, champs manquants et robustesse.
Pour lecteurs publicsRapport de publication
Liste les conditions avant d'utiliser les resultats dans une annonce ou un article.
- Remplacer les sorties seed par de vraies sorties verifiables.
- Publier les versions de modeles et dates d'evaluation.
- Dire clairement que les fournisseurs ne peuvent pas acheter les scores.
Plan de mise a jour du 28 juin 2026
Le perimetre realiste aujourd'hui est d'enrichir les rapports et la localisation tout en gardant les resultats preview clairement signales.
- Publier un centre de rapports multilingue.
- Ajouter quatre langues d'interface : francais, allemand, portugais et coreen.
- Controler les routes de rapport et les pages principales.
- Deployer une version stable apres les checks.
Capacite attendue aujourd'hui : 6 rapports lisibles dans 8 langues d'interface ; les titres de taches et les vrais jeux de donnees FR/DE/PT/KO restent l'etape suivante.
Classement global
| Rang | Agent | Score | Reussite | Echecs critiques | Cout |
|---|
| 1 | Claude Main | 87 | 97% | 12% | premium |
| 2 | OpenAI Main | 86 | 92% | 12% | premium |
| 3 | Qwen Main | 84 | 93% | 10% | standard |
| 4 | Gemini Main | 80 | 82% | 12% | standard |
| 5 | DeepSeek Main | 80 | 70% | 7% | low |
| 6 | Grok Main | 75 | 37% | 27% | standard |
Vainqueurs par langue
| Langue | Vainqueur | Score | Echecs critiques |
|---|
| 中文 | Qwen Main | 89 | 7% |
| English | OpenAI Main | 93 | 7% |
| 日本語 | Claude Main | 89 | 13% |
| Español | Claude Main | 88 | 13% |
Vainqueurs par type de tache
| Type de tache | Vainqueur | Score | Echecs critiques |
|---|
| Support | Claude Main | 90 | 13% |
| Redaction | Claude Main | 90 | 11% |
| Extraction | Qwen Main | 88 | 6% |
Modes d'echec
| Etiquette d'echec | Nombre |
|---|
| literal_translation | 26 |
| unsafe_refund_promise | 23 |
| weak_cta | 21 |
| unsupported_claim | 17 |
| invalid_json | 13 |
| missing_field | 10 |
| too_verbose | 6 |
| wrong_date_format | 6 |
| missed_dependency | 5 |
| generic_ai_copy | 5 |
Resultats par tache
| Tache | Langue | Type | Vainqueur | Score | Risque principal |
|---|
| Chinese Customer Complaint Triage | 中文 | Support | Qwen Main | 85 | unsafe_refund_promise |
| Chinese App Review Pain Point Summary | 中文 | Redaction | OpenAI Main | 89 | hallucinated_issue |
| Chinese Contract Field Extraction | 中文 | Extraction | Qwen Main | 96 | hallucinated_signing_date |
| Chinese Sales Call Summary | 中文 | Extraction | Qwen Main | 96 | missed_buying_signal |
| Chinese Invoice Dispute Reply | 中文 | Support | OpenAI Main | 85 | unauthorized_credit |
| SaaS Landing Page Hero Rewrite | English | Redaction | OpenAI Main | 93 | generic_ai_copy |
| Meeting Notes Action Item Extraction | English | Extraction | OpenAI Main | 89 | discussion_as_action |
| Refund Policy Boundary Reply | English | Support | OpenAI Main | 96 | unsafe_refund_promise |
| English Security Questionnaire Answer | English | Support | OpenAI Main | 96 | unsupported_security_claim |
| English Churn Risk Email | English | Redaction | Claude Main | 95 | tone_deaf_retention |
| Japanese Business Email Politeness Rewrite | 日本語 | Redaction | OpenAI Main | 85 | unnatural_japanese |
| Japanese Appointment Intent Classification | 日本語 | Support | Claude Main | 92 | wrong_intent |
| Japanese Product Specification Extraction | 日本語 | Extraction | Qwen Main | 91 | hallucinated_material |
| Japanese Support Escalation Note | 日本語 | Support | Claude Main | 92 | lost_escalation_context |
| Japanese Pricing Page Localization | 日本語 | Redaction | Claude Main | 92 | literal_pricing_copy |
| Spanish Support Reply for Wrong Item | Español | Support | Claude Main | 89 | unsafe_refund_promise |
| Spanish Ad Headline Localization | Español | Redaction | Claude Main | 92 | literal_translation |
| Spanish Order Confirmation Extraction | Español | Extraction | Claude Main | 85 | wrong_date_format |
| Spanish Billing Cancellation Reply | Español | Support | Claude Main | 91 | wrong_cancellation_policy |
| Spanish Survey Insight Clustering | Español | Extraction | Qwen Main | 83 | overmerged_feedback |
Apercu methodologique
- Executions par paire tache-agent : 3
- Outils actives : false
- Navigation web activee : false
- Memoire activee : false
- Les scores combinent succes de tache, adaptation linguistique, respect des consignes, securite metier et fiabilite.
Notes de publication
- Remplacer les sorties preview seed par des sorties reelles avant toute affirmation publique.
- Faire relire tous les echecs critiques de securite metier.
- Confirmer versions de modeles, dates de prix et dates d'evaluation.
- Maintenir visible la politique fournisseur : pas d'achat de score.