6agentes
20tareas
4idiomas
360ejecuciones
Resumen ejecutivo
- Ganador global: Claude Main, con puntuación media de 87.
- Menor tasa de fallos críticos entre los agentes líderes: Qwen Main.
- Modo de fallo más común: literal_translation.
- Un buen resultado global no implica ganar en todos los idiomas o tipos de tarea.
Informes disponibles
Para decisoresResumen ejecutivo multilingüe
Lectura rápida de ganadores, límites y señales que requieren revisión humana antes de afirmaciones públicas.
- Leer el ranking global junto con ganadores por idioma.
- Los resultados preview seed no deben citarse como verdad final.
- El riesgo de seguridad de negocio pesa más que la fluidez de estilo.
Para equipos localesInforme por mercado lingüístico
Compara agentes en mercados chino, inglés, japonés y español para no elegir solo desde evidencia en inglés.
- Usar ganadores por idioma para flujos locales de producción.
- Revisar tono, formatos de fecha y prácticas de soporte de cada mercado.
- Francés, alemán, portugués y coreano deben convertirse después en sets reales de tareas.
Para operacionesInforme de riesgo y fallos
Se centra en fallos críticos, promesas inseguras, campos inventados y salidas inutilizables.
- Tratar las etiquetas de fallo como pistas de auditoría.
- Revisar manualmente casos de reembolso, seguridad y cumplimiento.
- No permitir que una puntuación alta oculte mala disciplina de formato.
Para elegir herramientasInforme de selección
Ayuda a elegir por costo, idioma de trabajo y tolerancia al riesgo, no solo por una media.
- Los agentes premium pueden justificarse en flujos de alto riesgo.
- Los agentes standard siguen siendo competitivos en algunos idiomas y tareas de extracción.
- La mejor elección depende del flujo de trabajo, no solo del puesto.
Para equipos de productoInforme por familia de tareas
Explica qué familias separan más a los agentes: soporte, redacción y extracción estructurada.
- Soporte prueba límites de negocio.
- Redacción prueba tono natural y localización.
- Extracción prueba JSON, fechas, campos faltantes y robustez.
Para lectores públicosInforme de preparación pública
Lista condiciones antes de usar resultados en un lanzamiento, artículo o página comercial.
- Sustituir salidas seed por outputs reales verificables.
- Publicar versiones de modelo y fechas de evaluación.
- Indicar claramente que los vendors no pueden comprar cambios de puntuación.
Plan de actualización para el 28 de junio de 2026
El alcance realista de hoy es mejorar la calidad de evidencia y localización en las 20 tareas existentes, manteniendo claro que los resultados son preview seed.
- Mañana: localizar la página de informe y verificar cada ruta de idioma.
- Mediodía: enriquecer 8-10 tareas con mejores resúmenes de prompt, rúbricas y notas de riesgo.
- Tarde: revisar las 10-12 tareas restantes para consistencia terminológica, enlaces y legibilidad.
- Noche: regenerar el informe, ejecutar checks y desplegar una versión estable.
Capacidad esperada hoy: revisar la calidad textual de las 20 páginas de tarea; 8-10 pueden recibir una mejora profunda de evidencia.
Ranking global
| Puesto | Agente | Puntuación | Aprobación | Fallos críticos | Costo |
|---|
| 1 | Claude Main | 87 | 97% | 12% | premium |
| 2 | OpenAI Main | 86 | 92% | 12% | premium |
| 3 | Qwen Main | 84 | 93% | 10% | standard |
| 4 | Gemini Main | 80 | 82% | 12% | standard |
| 5 | DeepSeek Main | 80 | 70% | 7% | low |
| 6 | Grok Main | 75 | 37% | 27% | standard |
Ganadores por idioma
| Idioma | Ganador | Puntuación | Fallos críticos |
|---|
| 中文 | Qwen Main | 89 | 7% |
| English | OpenAI Main | 93 | 7% |
| 日本語 | Claude Main | 89 | 13% |
| Español | Claude Main | 88 | 13% |
Ganadores por tipo de tarea
| Tipo de tarea | Ganador | Puntuación | Fallos críticos |
|---|
| Soporte | Claude Main | 90 | 13% |
| Redacción | Claude Main | 90 | 11% |
| Extracción | Qwen Main | 88 | 6% |
Modos de fallo
| Etiqueta de fallo | Cantidad |
|---|
| literal_translation | 26 |
| unsafe_refund_promise | 23 |
| weak_cta | 21 |
| unsupported_claim | 17 |
| invalid_json | 13 |
| missing_field | 10 |
| too_verbose | 6 |
| wrong_date_format | 6 |
| missed_dependency | 5 |
| generic_ai_copy | 5 |
Resultados por tarea
| Tarea | Idioma | Tipo | Ganador | Puntuación | Riesgo principal |
|---|
| Chinese Customer Complaint Triage | 中文 | Soporte | Qwen Main | 85 | unsafe_refund_promise |
| Chinese App Review Pain Point Summary | 中文 | Redacción | OpenAI Main | 89 | hallucinated_issue |
| Chinese Contract Field Extraction | 中文 | Extracción | Qwen Main | 96 | hallucinated_signing_date |
| Chinese Sales Call Summary | 中文 | Extracción | Qwen Main | 96 | missed_buying_signal |
| Chinese Invoice Dispute Reply | 中文 | Soporte | OpenAI Main | 85 | unauthorized_credit |
| SaaS Landing Page Hero Rewrite | English | Redacción | OpenAI Main | 93 | generic_ai_copy |
| Meeting Notes Action Item Extraction | English | Extracción | OpenAI Main | 89 | discussion_as_action |
| Refund Policy Boundary Reply | English | Soporte | OpenAI Main | 96 | unsafe_refund_promise |
| English Security Questionnaire Answer | English | Soporte | OpenAI Main | 96 | unsupported_security_claim |
| English Churn Risk Email | English | Redacción | Claude Main | 95 | tone_deaf_retention |
| Japanese Business Email Politeness Rewrite | 日本語 | Redacción | OpenAI Main | 85 | unnatural_japanese |
| Japanese Appointment Intent Classification | 日本語 | Soporte | Claude Main | 92 | wrong_intent |
| Japanese Product Specification Extraction | 日本語 | Extracción | Qwen Main | 91 | hallucinated_material |
| Japanese Support Escalation Note | 日本語 | Soporte | Claude Main | 92 | lost_escalation_context |
| Japanese Pricing Page Localization | 日本語 | Redacción | Claude Main | 92 | literal_pricing_copy |
| Spanish Support Reply for Wrong Item | Español | Soporte | Claude Main | 89 | unsafe_refund_promise |
| Spanish Ad Headline Localization | Español | Redacción | Claude Main | 92 | literal_translation |
| Spanish Order Confirmation Extraction | Español | Extracción | Claude Main | 85 | wrong_date_format |
| Spanish Billing Cancellation Reply | Español | Soporte | Claude Main | 91 | wrong_cancellation_policy |
| Spanish Survey Insight Clustering | Español | Extracción | Qwen Main | 83 | overmerged_feedback |
Resumen metodológico
- Ejecuciones por par tarea-agente: 3
- Herramientas activadas: false
- Navegación web activada: false
- Memoria activada: false
- Las puntuaciones se calculan en cinco dimensiones: éxito de tarea, ajuste lingüístico, seguimiento de instrucciones, seguridad de negocio y fiabilidad.
Notas de publicación
- Sustituir salidas preview seed por salidas reales del modelo antes de hacer afirmaciones públicas.
- Revisar manualmente todos los fallos críticos de seguridad de negocio.
- Confirmar versiones de modelo, fechas de precio y fechas de evaluación.
- Mantener visible la política de vendors: no pueden pagar para cambiar puntuaciones.