Arena #2

Central de relatorios AAA.win

Gerado a partir do lote: maa-preview-002

AAA.win testou 6 AI Agents em 20 tarefas empresariais multilingues em 4 idiomas. Os relatorios abaixo tornam os resultados legiveis por mercado, funcao e risco.

6agentes
20tarefas
4idiomas
360execucoes

Resumo executivo

Relatorios disponiveis

Para lideranca

Resumo multilingue

Leitura rapida de vencedores, limites e sinais que precisam de revisao humana antes de publicacao.

  • Leia o ranking geral junto com vencedores por idioma.
  • Resultados preview seed nao sao verdade final.
  • Risco de seguranca de negocio pesa mais que fluencia.
Para equipes locais

Relatorio por idioma

Compara agentes por mercado linguistico para evitar escolher so pelo ingles.

  • Use vencedores por idioma em fluxos locais.
  • Revise tom, datas e praticas de suporte por mercado.
  • Depois criar datasets reais para FR, DE, PT e KO.
Para operacoes

Relatorio de risco

Foca falhas criticas, promessas inseguras, campos inventados e saidas inutilizaveis.

  • Trate etiquetas de falha como pistas de auditoria.
  • Revise reembolso, seguranca e conformidade manualmente.
  • Pontuacao alta nao deve esconder disciplina fraca de formato.
Para escolher ferramentas

Relatorio de escolha

Ajuda a escolher por custo, idioma de trabalho e tolerancia a risco.

  • Premium pode valer em fluxos de alto risco.
  • Standard segue forte em algumas linguas e extracoes.
  • A melhor escolha depende do fluxo, nao so do ranking.
Para produto

Relatorio por familia de tarefas

Mostra como suporte, redacao e extracao estruturada separam agentes.

  • Suporte testa limites de negocio.
  • Redacao testa tom natural e localizacao.
  • Extracao testa JSON, datas, campos ausentes e robustez.
Para leitores publicos

Relatorio de publicacao

Lista condicoes antes de usar resultados em lancamento, artigo ou pagina comercial.

  • Substituir saidas seed por outputs reais verificaveis.
  • Publicar versoes de modelos e datas de avaliacao.
  • Dizer claramente que fornecedores nao compram pontuacao.

Plano de atualizacao de 28 de junho de 2026

O escopo realista hoje e ampliar relatorios e localizacao mantendo resultados preview claramente marcados.

Capacidade esperada hoje: 6 relatorios legiveis em 8 idiomas de interface; titulos de tarefas localizados e datasets FR/DE/PT/KO reais ficam para a proxima etapa.

Ranking geral

PosicaoAgentePontuacaoAprovacaoFalhas criticasCusto
1Claude Main8797%12%premium
2OpenAI Main8692%12%premium
3Qwen Main8493%10%standard
4Gemini Main8082%12%standard
5DeepSeek Main8070%7%low
6Grok Main7537%27%standard

Vencedores por idioma

IdiomaVencedorPontuacaoFalhas criticas
中文Qwen Main897%
EnglishOpenAI Main937%
日本語Claude Main8913%
EspañolClaude Main8813%

Vencedores por tipo

Tipo de tarefaVencedorPontuacaoFalhas criticas
SuporteClaude Main9013%
RedacaoClaude Main9011%
ExtracaoQwen Main886%

Modos de falha

Etiqueta de falhaQuantidade
literal_translation26
unsafe_refund_promise23
weak_cta21
unsupported_claim17
invalid_json13
missing_field10
too_verbose6
wrong_date_format6
missed_dependency5
generic_ai_copy5

Resultados por tarefa

TarefaIdiomaTipoVencedorPontuacaoRisco principal
Chinese Customer Complaint Triage中文SuporteQwen Main85unsafe_refund_promise
Chinese App Review Pain Point Summary中文RedacaoOpenAI Main89hallucinated_issue
Chinese Contract Field Extraction中文ExtracaoQwen Main96hallucinated_signing_date
Chinese Sales Call Summary中文ExtracaoQwen Main96missed_buying_signal
Chinese Invoice Dispute Reply中文SuporteOpenAI Main85unauthorized_credit
SaaS Landing Page Hero RewriteEnglishRedacaoOpenAI Main93generic_ai_copy
Meeting Notes Action Item ExtractionEnglishExtracaoOpenAI Main89discussion_as_action
Refund Policy Boundary ReplyEnglishSuporteOpenAI Main96unsafe_refund_promise
English Security Questionnaire AnswerEnglishSuporteOpenAI Main96unsupported_security_claim
English Churn Risk EmailEnglishRedacaoClaude Main95tone_deaf_retention
Japanese Business Email Politeness Rewrite日本語RedacaoOpenAI Main85unnatural_japanese
Japanese Appointment Intent Classification日本語SuporteClaude Main92wrong_intent
Japanese Product Specification Extraction日本語ExtracaoQwen Main91hallucinated_material
Japanese Support Escalation Note日本語SuporteClaude Main92lost_escalation_context
Japanese Pricing Page Localization日本語RedacaoClaude Main92literal_pricing_copy
Spanish Support Reply for Wrong ItemEspañolSuporteClaude Main89unsafe_refund_promise
Spanish Ad Headline LocalizationEspañolRedacaoClaude Main92literal_translation
Spanish Order Confirmation ExtractionEspañolExtracaoClaude Main85wrong_date_format
Spanish Billing Cancellation ReplyEspañolSuporteClaude Main91wrong_cancellation_policy
Spanish Survey Insight ClusteringEspañolExtracaoQwen Main83overmerged_feedback

Resumo metodologico

Notas de publicacao