6agentes
20tarefas
4idiomas
360execucoes
Resumo executivo
- Vencedor geral: Claude Main, com pontuacao media de 87.
- Menor taxa de falhas criticas entre os lideres: Qwen Main.
- Modo de falha mais comum: literal_translation.
- Bom desempenho geral nao significa vencer em todos os idiomas ou tipos de tarefa.
Relatorios disponiveis
Para liderancaResumo multilingue
Leitura rapida de vencedores, limites e sinais que precisam de revisao humana antes de publicacao.
- Leia o ranking geral junto com vencedores por idioma.
- Resultados preview seed nao sao verdade final.
- Risco de seguranca de negocio pesa mais que fluencia.
Para equipes locaisRelatorio por idioma
Compara agentes por mercado linguistico para evitar escolher so pelo ingles.
- Use vencedores por idioma em fluxos locais.
- Revise tom, datas e praticas de suporte por mercado.
- Depois criar datasets reais para FR, DE, PT e KO.
Para operacoesRelatorio de risco
Foca falhas criticas, promessas inseguras, campos inventados e saidas inutilizaveis.
- Trate etiquetas de falha como pistas de auditoria.
- Revise reembolso, seguranca e conformidade manualmente.
- Pontuacao alta nao deve esconder disciplina fraca de formato.
Para escolher ferramentasRelatorio de escolha
Ajuda a escolher por custo, idioma de trabalho e tolerancia a risco.
- Premium pode valer em fluxos de alto risco.
- Standard segue forte em algumas linguas e extracoes.
- A melhor escolha depende do fluxo, nao so do ranking.
Para produtoRelatorio por familia de tarefas
Mostra como suporte, redacao e extracao estruturada separam agentes.
- Suporte testa limites de negocio.
- Redacao testa tom natural e localizacao.
- Extracao testa JSON, datas, campos ausentes e robustez.
Para leitores publicosRelatorio de publicacao
Lista condicoes antes de usar resultados em lancamento, artigo ou pagina comercial.
- Substituir saidas seed por outputs reais verificaveis.
- Publicar versoes de modelos e datas de avaliacao.
- Dizer claramente que fornecedores nao compram pontuacao.
Plano de atualizacao de 28 de junho de 2026
O escopo realista hoje e ampliar relatorios e localizacao mantendo resultados preview claramente marcados.
- Publicar uma central de relatorios multilingue.
- Adicionar quatro idiomas de interface: frances, alemao, portugues e coreano.
- Verificar rotas de relatorios e paginas principais.
- Implantar versao estavel apos checks.
Capacidade esperada hoje: 6 relatorios legiveis em 8 idiomas de interface; titulos de tarefas localizados e datasets FR/DE/PT/KO reais ficam para a proxima etapa.
Ranking geral
| Posicao | Agente | Pontuacao | Aprovacao | Falhas criticas | Custo |
|---|
| 1 | Claude Main | 87 | 97% | 12% | premium |
| 2 | OpenAI Main | 86 | 92% | 12% | premium |
| 3 | Qwen Main | 84 | 93% | 10% | standard |
| 4 | Gemini Main | 80 | 82% | 12% | standard |
| 5 | DeepSeek Main | 80 | 70% | 7% | low |
| 6 | Grok Main | 75 | 37% | 27% | standard |
Vencedores por idioma
| Idioma | Vencedor | Pontuacao | Falhas criticas |
|---|
| 中文 | Qwen Main | 89 | 7% |
| English | OpenAI Main | 93 | 7% |
| 日本語 | Claude Main | 89 | 13% |
| Español | Claude Main | 88 | 13% |
Vencedores por tipo
| Tipo de tarefa | Vencedor | Pontuacao | Falhas criticas |
|---|
| Suporte | Claude Main | 90 | 13% |
| Redacao | Claude Main | 90 | 11% |
| Extracao | Qwen Main | 88 | 6% |
Modos de falha
| Etiqueta de falha | Quantidade |
|---|
| literal_translation | 26 |
| unsafe_refund_promise | 23 |
| weak_cta | 21 |
| unsupported_claim | 17 |
| invalid_json | 13 |
| missing_field | 10 |
| too_verbose | 6 |
| wrong_date_format | 6 |
| missed_dependency | 5 |
| generic_ai_copy | 5 |
Resultados por tarefa
| Tarefa | Idioma | Tipo | Vencedor | Pontuacao | Risco principal |
|---|
| Chinese Customer Complaint Triage | 中文 | Suporte | Qwen Main | 85 | unsafe_refund_promise |
| Chinese App Review Pain Point Summary | 中文 | Redacao | OpenAI Main | 89 | hallucinated_issue |
| Chinese Contract Field Extraction | 中文 | Extracao | Qwen Main | 96 | hallucinated_signing_date |
| Chinese Sales Call Summary | 中文 | Extracao | Qwen Main | 96 | missed_buying_signal |
| Chinese Invoice Dispute Reply | 中文 | Suporte | OpenAI Main | 85 | unauthorized_credit |
| SaaS Landing Page Hero Rewrite | English | Redacao | OpenAI Main | 93 | generic_ai_copy |
| Meeting Notes Action Item Extraction | English | Extracao | OpenAI Main | 89 | discussion_as_action |
| Refund Policy Boundary Reply | English | Suporte | OpenAI Main | 96 | unsafe_refund_promise |
| English Security Questionnaire Answer | English | Suporte | OpenAI Main | 96 | unsupported_security_claim |
| English Churn Risk Email | English | Redacao | Claude Main | 95 | tone_deaf_retention |
| Japanese Business Email Politeness Rewrite | 日本語 | Redacao | OpenAI Main | 85 | unnatural_japanese |
| Japanese Appointment Intent Classification | 日本語 | Suporte | Claude Main | 92 | wrong_intent |
| Japanese Product Specification Extraction | 日本語 | Extracao | Qwen Main | 91 | hallucinated_material |
| Japanese Support Escalation Note | 日本語 | Suporte | Claude Main | 92 | lost_escalation_context |
| Japanese Pricing Page Localization | 日本語 | Redacao | Claude Main | 92 | literal_pricing_copy |
| Spanish Support Reply for Wrong Item | Español | Suporte | Claude Main | 89 | unsafe_refund_promise |
| Spanish Ad Headline Localization | Español | Redacao | Claude Main | 92 | literal_translation |
| Spanish Order Confirmation Extraction | Español | Extracao | Claude Main | 85 | wrong_date_format |
| Spanish Billing Cancellation Reply | Español | Suporte | Claude Main | 91 | wrong_cancellation_policy |
| Spanish Survey Insight Clustering | Español | Extracao | Qwen Main | 83 | overmerged_feedback |
Resumo metodologico
- Execucoes por par tarefa-agente: 3
- Ferramentas ativadas: false
- Navegacao web ativada: false
- Memoria ativada: false
- As pontuacoes combinam sucesso, ajuste linguistico, instrucoes, seguranca de negocio e confiabilidade.
Notas de publicacao
- Substituir saidas preview seed por outputs reais antes de afirmacoes publicas.
- Revisar manualmente todas as falhas criticas de seguranca de negocio.
- Confirmar versoes de modelo, datas de preco e datas de avaliacao.
- Manter visivel a politica de fornecedores: nao e possivel comprar pontuacao.