Arena #2

Central de relatorios AAA.win

Gerado a partir do lote: maa-preview-002

AAA.win testou 6 AI Agents em 20 tarefas empresariais multilingues em 4 idiomas. Os relatorios abaixo tornam os resultados legiveis por mercado, funcao e risco.

6agentes

20tarefas

4idiomas

360execucoes

Resumo executivo

Vencedor geral: Claude Main, com pontuacao media de 87.
Menor taxa de falhas criticas entre os lideres: Qwen Main.
Modo de falha mais comum: literal_translation.
Bom desempenho geral nao significa vencer em todos os idiomas ou tipos de tarefa.

Relatorios disponiveis

Para lideranca

Resumo multilingue

Leitura rapida de vencedores, limites e sinais que precisam de revisao humana antes de publicacao.

Leia o ranking geral junto com vencedores por idioma.
Resultados preview seed nao sao verdade final.
Risco de seguranca de negocio pesa mais que fluencia.

Para equipes locais

Relatorio por idioma

Compara agentes por mercado linguistico para evitar escolher so pelo ingles.

Use vencedores por idioma em fluxos locais.
Revise tom, datas e praticas de suporte por mercado.
Depois criar datasets reais para FR, DE, PT e KO.

Para operacoes

Relatorio de risco

Foca falhas criticas, promessas inseguras, campos inventados e saidas inutilizaveis.

Trate etiquetas de falha como pistas de auditoria.
Revise reembolso, seguranca e conformidade manualmente.
Pontuacao alta nao deve esconder disciplina fraca de formato.

Para escolher ferramentas

Relatorio de escolha

Ajuda a escolher por custo, idioma de trabalho e tolerancia a risco.

Premium pode valer em fluxos de alto risco.
Standard segue forte em algumas linguas e extracoes.
A melhor escolha depende do fluxo, nao so do ranking.

Para produto

Relatorio por familia de tarefas

Mostra como suporte, redacao e extracao estruturada separam agentes.

Suporte testa limites de negocio.
Redacao testa tom natural e localizacao.
Extracao testa JSON, datas, campos ausentes e robustez.

Para leitores publicos

Relatorio de publicacao

Lista condicoes antes de usar resultados em lancamento, artigo ou pagina comercial.

Substituir saidas seed por outputs reais verificaveis.
Publicar versoes de modelos e datas de avaliacao.
Dizer claramente que fornecedores nao compram pontuacao.

Plano de atualizacao de 28 de junho de 2026

O escopo realista hoje e ampliar relatorios e localizacao mantendo resultados preview claramente marcados.

Publicar uma central de relatorios multilingue.
Adicionar quatro idiomas de interface: frances, alemao, portugues e coreano.
Verificar rotas de relatorios e paginas principais.
Implantar versao estavel apos checks.

Capacidade esperada hoje: 6 relatorios legiveis em 8 idiomas de interface; titulos de tarefas localizados e datasets FR/DE/PT/KO reais ficam para a proxima etapa.

Ranking geral

Posicao	Agente	Pontuacao	Aprovacao	Falhas criticas	Custo
1	Claude Main	87	97%	12%	premium
2	OpenAI Main	86	92%	12%	premium
3	Qwen Main	84	93%	10%	standard
4	Gemini Main	80	82%	12%	standard
5	DeepSeek Main	80	70%	7%	low
6	Grok Main	75	37%	27%	standard

Vencedores por idioma

Idioma	Vencedor	Pontuacao	Falhas criticas
中文	Qwen Main	89	7%
English	OpenAI Main	93	7%
日本語	Claude Main	89	13%
Español	Claude Main	88	13%

Vencedores por tipo

Tipo de tarefa	Vencedor	Pontuacao	Falhas criticas
Suporte	Claude Main	90	13%
Redacao	Claude Main	90	11%
Extracao	Qwen Main	88	6%

Modos de falha

Etiqueta de falha	Quantidade
literal_translation	26
unsafe_refund_promise	23
weak_cta	21
unsupported_claim	17
invalid_json	13
missing_field	10
too_verbose	6
wrong_date_format	6
missed_dependency	5
generic_ai_copy	5

Resultados por tarefa

Tarefa	Idioma	Tipo	Vencedor	Pontuacao	Risco principal
Chinese Customer Complaint Triage	中文	Suporte	Qwen Main	85	unsafe_refund_promise
Chinese App Review Pain Point Summary	中文	Redacao	OpenAI Main	89	hallucinated_issue
Chinese Contract Field Extraction	中文	Extracao	Qwen Main	96	hallucinated_signing_date
Chinese Sales Call Summary	中文	Extracao	Qwen Main	96	missed_buying_signal
Chinese Invoice Dispute Reply	中文	Suporte	OpenAI Main	85	unauthorized_credit
SaaS Landing Page Hero Rewrite	English	Redacao	OpenAI Main	93	generic_ai_copy
Meeting Notes Action Item Extraction	English	Extracao	OpenAI Main	89	discussion_as_action
Refund Policy Boundary Reply	English	Suporte	OpenAI Main	96	unsafe_refund_promise
English Security Questionnaire Answer	English	Suporte	OpenAI Main	96	unsupported_security_claim
English Churn Risk Email	English	Redacao	Claude Main	95	tone_deaf_retention
Japanese Business Email Politeness Rewrite	日本語	Redacao	OpenAI Main	85	unnatural_japanese
Japanese Appointment Intent Classification	日本語	Suporte	Claude Main	92	wrong_intent
Japanese Product Specification Extraction	日本語	Extracao	Qwen Main	91	hallucinated_material
Japanese Support Escalation Note	日本語	Suporte	Claude Main	92	lost_escalation_context
Japanese Pricing Page Localization	日本語	Redacao	Claude Main	92	literal_pricing_copy
Spanish Support Reply for Wrong Item	Español	Suporte	Claude Main	89	unsafe_refund_promise
Spanish Ad Headline Localization	Español	Redacao	Claude Main	92	literal_translation
Spanish Order Confirmation Extraction	Español	Extracao	Claude Main	85	wrong_date_format
Spanish Billing Cancellation Reply	Español	Suporte	Claude Main	91	wrong_cancellation_policy
Spanish Survey Insight Clustering	Español	Extracao	Qwen Main	83	overmerged_feedback

Resumo metodologico

Execucoes por par tarefa-agente: 3
Ferramentas ativadas: false
Navegacao web ativada: false
Memoria ativada: false
As pontuacoes combinam sucesso, ajuste linguistico, instrucoes, seguranca de negocio e confiabilidade.

Notas de publicacao

Substituir saidas preview seed por outputs reais antes de afirmacoes publicas.
Revisar manualmente todas as falhas criticas de seguranca de negocio.
Confirmar versoes de modelo, datas de preco e datas de avaliacao.
Manter visivel a politica de fornecedores: nao e possivel comprar pontuacao.