Arena #2

Los benchmarks en inglés no son suficientes

Generado desde el lote: maa-preview-002

AAA.win probó 6 AI Agents en 20 tareas empresariales multilingües y 4 idiomas. Este informe preliminar se genera desde datos estructurados y debe revisarse antes de publicarse.

6agentes
20tareas
4idiomas
360ejecuciones

Resumen ejecutivo

Informes disponibles

Para decisores

Resumen ejecutivo multilingüe

Lectura rápida de ganadores, límites y señales que requieren revisión humana antes de afirmaciones públicas.

  • Leer el ranking global junto con ganadores por idioma.
  • Los resultados preview seed no deben citarse como verdad final.
  • El riesgo de seguridad de negocio pesa más que la fluidez de estilo.
Para equipos locales

Informe por mercado lingüístico

Compara agentes en mercados chino, inglés, japonés y español para no elegir solo desde evidencia en inglés.

  • Usar ganadores por idioma para flujos locales de producción.
  • Revisar tono, formatos de fecha y prácticas de soporte de cada mercado.
  • Francés, alemán, portugués y coreano deben convertirse después en sets reales de tareas.
Para operaciones

Informe de riesgo y fallos

Se centra en fallos críticos, promesas inseguras, campos inventados y salidas inutilizables.

  • Tratar las etiquetas de fallo como pistas de auditoría.
  • Revisar manualmente casos de reembolso, seguridad y cumplimiento.
  • No permitir que una puntuación alta oculte mala disciplina de formato.
Para elegir herramientas

Informe de selección

Ayuda a elegir por costo, idioma de trabajo y tolerancia al riesgo, no solo por una media.

  • Los agentes premium pueden justificarse en flujos de alto riesgo.
  • Los agentes standard siguen siendo competitivos en algunos idiomas y tareas de extracción.
  • La mejor elección depende del flujo de trabajo, no solo del puesto.
Para equipos de producto

Informe por familia de tareas

Explica qué familias separan más a los agentes: soporte, redacción y extracción estructurada.

  • Soporte prueba límites de negocio.
  • Redacción prueba tono natural y localización.
  • Extracción prueba JSON, fechas, campos faltantes y robustez.
Para lectores públicos

Informe de preparación pública

Lista condiciones antes de usar resultados en un lanzamiento, artículo o página comercial.

  • Sustituir salidas seed por outputs reales verificables.
  • Publicar versiones de modelo y fechas de evaluación.
  • Indicar claramente que los vendors no pueden comprar cambios de puntuación.

Plan de actualización para el 28 de junio de 2026

El alcance realista de hoy es mejorar la calidad de evidencia y localización en las 20 tareas existentes, manteniendo claro que los resultados son preview seed.

Capacidad esperada hoy: revisar la calidad textual de las 20 páginas de tarea; 8-10 pueden recibir una mejora profunda de evidencia.

Ranking global

PuestoAgentePuntuaciónAprobaciónFallos críticosCosto
1Claude Main8797%12%premium
2OpenAI Main8692%12%premium
3Qwen Main8493%10%standard
4Gemini Main8082%12%standard
5DeepSeek Main8070%7%low
6Grok Main7537%27%standard

Ganadores por idioma

IdiomaGanadorPuntuaciónFallos críticos
中文Qwen Main897%
EnglishOpenAI Main937%
日本語Claude Main8913%
EspañolClaude Main8813%

Ganadores por tipo de tarea

Tipo de tareaGanadorPuntuaciónFallos críticos
SoporteClaude Main9013%
RedacciónClaude Main9011%
ExtracciónQwen Main886%

Modos de fallo

Etiqueta de falloCantidad
literal_translation26
unsafe_refund_promise23
weak_cta21
unsupported_claim17
invalid_json13
missing_field10
too_verbose6
wrong_date_format6
missed_dependency5
generic_ai_copy5

Resultados por tarea

TareaIdiomaTipoGanadorPuntuaciónRiesgo principal
Chinese Customer Complaint Triage中文SoporteQwen Main85unsafe_refund_promise
Chinese App Review Pain Point Summary中文RedacciónOpenAI Main89hallucinated_issue
Chinese Contract Field Extraction中文ExtracciónQwen Main96hallucinated_signing_date
Chinese Sales Call Summary中文ExtracciónQwen Main96missed_buying_signal
Chinese Invoice Dispute Reply中文SoporteOpenAI Main85unauthorized_credit
SaaS Landing Page Hero RewriteEnglishRedacciónOpenAI Main93generic_ai_copy
Meeting Notes Action Item ExtractionEnglishExtracciónOpenAI Main89discussion_as_action
Refund Policy Boundary ReplyEnglishSoporteOpenAI Main96unsafe_refund_promise
English Security Questionnaire AnswerEnglishSoporteOpenAI Main96unsupported_security_claim
English Churn Risk EmailEnglishRedacciónClaude Main95tone_deaf_retention
Japanese Business Email Politeness Rewrite日本語RedacciónOpenAI Main85unnatural_japanese
Japanese Appointment Intent Classification日本語SoporteClaude Main92wrong_intent
Japanese Product Specification Extraction日本語ExtracciónQwen Main91hallucinated_material
Japanese Support Escalation Note日本語SoporteClaude Main92lost_escalation_context
Japanese Pricing Page Localization日本語RedacciónClaude Main92literal_pricing_copy
Spanish Support Reply for Wrong ItemEspañolSoporteClaude Main89unsafe_refund_promise
Spanish Ad Headline LocalizationEspañolRedacciónClaude Main92literal_translation
Spanish Order Confirmation ExtractionEspañolExtracciónClaude Main85wrong_date_format
Spanish Billing Cancellation ReplyEspañolSoporteClaude Main91wrong_cancellation_policy
Spanish Survey Insight ClusteringEspañolExtracciónQwen Main83overmerged_feedback

Resumen metodológico

Notas de publicación