Arena #2

Los benchmarks en inglés no son suficientes

Generado desde el lote: maa-preview-002

AAA.win probó 6 AI Agents en 20 tareas empresariales multilingües y 4 idiomas. Este informe preliminar se genera desde datos estructurados y debe revisarse antes de publicarse.

6agentes

20tareas

4idiomas

360ejecuciones

Resumen ejecutivo

Ganador global: Claude Main, con puntuación media de 87.
Menor tasa de fallos críticos entre los agentes líderes: Qwen Main.
Modo de fallo más común: literal_translation.
Un buen resultado global no implica ganar en todos los idiomas o tipos de tarea.

Informes disponibles

Para decisores

Resumen ejecutivo multilingüe

Lectura rápida de ganadores, límites y señales que requieren revisión humana antes de afirmaciones públicas.

Leer el ranking global junto con ganadores por idioma.
Los resultados preview seed no deben citarse como verdad final.
El riesgo de seguridad de negocio pesa más que la fluidez de estilo.

Para equipos locales

Informe por mercado lingüístico

Compara agentes en mercados chino, inglés, japonés y español para no elegir solo desde evidencia en inglés.

Usar ganadores por idioma para flujos locales de producción.
Revisar tono, formatos de fecha y prácticas de soporte de cada mercado.
Francés, alemán, portugués y coreano deben convertirse después en sets reales de tareas.

Para operaciones

Informe de riesgo y fallos

Se centra en fallos críticos, promesas inseguras, campos inventados y salidas inutilizables.

Tratar las etiquetas de fallo como pistas de auditoría.
Revisar manualmente casos de reembolso, seguridad y cumplimiento.
No permitir que una puntuación alta oculte mala disciplina de formato.

Para elegir herramientas

Informe de selección

Ayuda a elegir por costo, idioma de trabajo y tolerancia al riesgo, no solo por una media.

Los agentes premium pueden justificarse en flujos de alto riesgo.
Los agentes standard siguen siendo competitivos en algunos idiomas y tareas de extracción.
La mejor elección depende del flujo de trabajo, no solo del puesto.

Para equipos de producto

Informe por familia de tareas

Explica qué familias separan más a los agentes: soporte, redacción y extracción estructurada.

Soporte prueba límites de negocio.
Redacción prueba tono natural y localización.
Extracción prueba JSON, fechas, campos faltantes y robustez.

Para lectores públicos

Informe de preparación pública

Lista condiciones antes de usar resultados en un lanzamiento, artículo o página comercial.

Sustituir salidas seed por outputs reales verificables.
Publicar versiones de modelo y fechas de evaluación.
Indicar claramente que los vendors no pueden comprar cambios de puntuación.

Plan de actualización para el 28 de junio de 2026

El alcance realista de hoy es mejorar la calidad de evidencia y localización en las 20 tareas existentes, manteniendo claro que los resultados son preview seed.

Mañana: localizar la página de informe y verificar cada ruta de idioma.
Mediodía: enriquecer 8-10 tareas con mejores resúmenes de prompt, rúbricas y notas de riesgo.
Tarde: revisar las 10-12 tareas restantes para consistencia terminológica, enlaces y legibilidad.
Noche: regenerar el informe, ejecutar checks y desplegar una versión estable.

Capacidad esperada hoy: revisar la calidad textual de las 20 páginas de tarea; 8-10 pueden recibir una mejora profunda de evidencia.

Ranking global

Puesto	Agente	Puntuación	Aprobación	Fallos críticos	Costo
1	Claude Main	87	97%	12%	premium
2	OpenAI Main	86	92%	12%	premium
3	Qwen Main	84	93%	10%	standard
4	Gemini Main	80	82%	12%	standard
5	DeepSeek Main	80	70%	7%	low
6	Grok Main	75	37%	27%	standard

Ganadores por idioma

Idioma	Ganador	Puntuación	Fallos críticos
中文	Qwen Main	89	7%
English	OpenAI Main	93	7%
日本語	Claude Main	89	13%
Español	Claude Main	88	13%

Ganadores por tipo de tarea

Tipo de tarea	Ganador	Puntuación	Fallos críticos
Soporte	Claude Main	90	13%
Redacción	Claude Main	90	11%
Extracción	Qwen Main	88	6%

Modos de fallo

Etiqueta de fallo	Cantidad
literal_translation	26
unsafe_refund_promise	23
weak_cta	21
unsupported_claim	17
invalid_json	13
missing_field	10
too_verbose	6
wrong_date_format	6
missed_dependency	5
generic_ai_copy	5

Resultados por tarea

Tarea	Idioma	Tipo	Ganador	Puntuación	Riesgo principal
Chinese Customer Complaint Triage	中文	Soporte	Qwen Main	85	unsafe_refund_promise
Chinese App Review Pain Point Summary	中文	Redacción	OpenAI Main	89	hallucinated_issue
Chinese Contract Field Extraction	中文	Extracción	Qwen Main	96	hallucinated_signing_date
Chinese Sales Call Summary	中文	Extracción	Qwen Main	96	missed_buying_signal
Chinese Invoice Dispute Reply	中文	Soporte	OpenAI Main	85	unauthorized_credit
SaaS Landing Page Hero Rewrite	English	Redacción	OpenAI Main	93	generic_ai_copy
Meeting Notes Action Item Extraction	English	Extracción	OpenAI Main	89	discussion_as_action
Refund Policy Boundary Reply	English	Soporte	OpenAI Main	96	unsafe_refund_promise
English Security Questionnaire Answer	English	Soporte	OpenAI Main	96	unsupported_security_claim
English Churn Risk Email	English	Redacción	Claude Main	95	tone_deaf_retention
Japanese Business Email Politeness Rewrite	日本語	Redacción	OpenAI Main	85	unnatural_japanese
Japanese Appointment Intent Classification	日本語	Soporte	Claude Main	92	wrong_intent
Japanese Product Specification Extraction	日本語	Extracción	Qwen Main	91	hallucinated_material
Japanese Support Escalation Note	日本語	Soporte	Claude Main	92	lost_escalation_context
Japanese Pricing Page Localization	日本語	Redacción	Claude Main	92	literal_pricing_copy
Spanish Support Reply for Wrong Item	Español	Soporte	Claude Main	89	unsafe_refund_promise
Spanish Ad Headline Localization	Español	Redacción	Claude Main	92	literal_translation
Spanish Order Confirmation Extraction	Español	Extracción	Claude Main	85	wrong_date_format
Spanish Billing Cancellation Reply	Español	Soporte	Claude Main	91	wrong_cancellation_policy
Spanish Survey Insight Clustering	Español	Extracción	Qwen Main	83	overmerged_feedback

Resumen metodológico

Ejecuciones por par tarea-agente: 3
Herramientas activadas: false
Navegación web activada: false
Memoria activada: false
Las puntuaciones se calculan en cinco dimensiones: éxito de tarea, ajuste lingüístico, seguimiento de instrucciones, seguridad de negocio y fiabilidad.

Notas de publicación

Sustituir salidas preview seed por salidas reales del modelo antes de hacer afirmaciones públicas.
Revisar manualmente todos los fallos críticos de seguridad de negocio.
Confirmar versiones de modelo, fechas de precio y fechas de evaluación.
Mantener visible la política de vendors: no pueden pagar para cambiar puntuaciones.