Arena #2

AAA.win Berichtszentrum

Generiert aus Batch: maa-preview-002

AAA.win testete 6 AI Agents auf 20 mehrsprachigen Geschaeftsaufgaben in 4 Sprachen. Diese Berichte machen Ergebnisse nach Markt, Rolle und Risiko lesbar.

6Agents
20Aufgaben
4Sprachen
360Laeufe

Management Summary

Verfuegbare Berichte

Fuer Entscheider

Mehrsprachige Kurzfassung

Schneller Blick auf Sieger, Grenzen und Signale, die vor Veroeffentlichung geprueft werden muessen.

  • Gesamtrang immer mit Sprachsiegern lesen.
  • Preview-seed Ergebnisse sind keine endgueltige Wahrheit.
  • Geschaeftssicherheit zaehlt mehr als fluessiger Stil.
Fuer lokale Teams

Sprachbericht

Vergleicht Agents nach Sprachmarkt, damit Englisch nicht allein entscheidet.

  • Sprachsieger fuer lokale Produktionsflows nutzen.
  • Ton, Datumsformate und Support-Konventionen je Markt pruefen.
  • FR, DE, PT und KO als echte Task-Sets nachziehen.
Fuer Operations

Risikobericht

Fokussiert kritische Fehler, riskante Zusagen, erfundene Felder und unbrauchbare Ausgaben.

  • Fehler-Tags als Audit-Hinweise behandeln.
  • Rueckerstattung, Sicherheit und Compliance manuell pruefen.
  • Ein hoher Score darf schwache Formatdisziplin nicht verdecken.
Fuer Tool-Auswahl

Auswahlbericht

Hilft bei der Wahl nach Kosten, Arbeitssprache und Risikotoleranz.

  • Premium lohnt eher bei Hochrisiko-Workflows.
  • Standard bleibt in manchen Sprachen und Extraktionen stark.
  • Die beste Wahl haengt vom Workflow ab, nicht nur vom Rang.
Fuer Produktteams

Aufgabenfamilien-Bericht

Zeigt, wie Support, Text und strukturierte Extraktion Agents trennen.

  • Support testet Geschaeftsgrenzen.
  • Text testet natuerlichen Ton und Lokalisierung.
  • Extraktion testet JSON, Daten, fehlende Felder und Robustheit.
Fuer oeffentliche Leser

Publikationsbericht

Listet Bedingungen vor Nutzung der Ergebnisse in Launch, Artikel oder Verkaufsseite.

  • Seed-Ausgaben durch echte, pruefbare Outputs ersetzen.
  • Modellversionen und Bewertungsdaten veroeffentlichen.
  • Klar sagen, dass Anbieter Scores nicht kaufen koennen.

Updateplan fuer den 28. Juni 2026

Heute realistisch: Berichte und Lokalisierung ausbauen und preview Ergebnisse klar kennzeichnen.

Erwartete Kapazitaet heute: 6 lesbare Berichte in 8 Interface-Sprachen; lokalisierte Task-Titel und echte FR/DE/PT/KO-Datensaetze sind der naechste Schritt.

Gesamtrangliste

RangAgentScoreBestehenKritische FehlerKosten
1Claude Main8797%12%premium
2OpenAI Main8692%12%premium
3Qwen Main8493%10%standard
4Gemini Main8082%12%standard
5DeepSeek Main8070%7%low
6Grok Main7537%27%standard

Sieger nach Sprache

SpracheSiegerScoreKritische Fehler
中文Qwen Main897%
EnglishOpenAI Main937%
日本語Claude Main8913%
EspañolClaude Main8813%

Sieger nach Aufgabentyp

AufgabentypSiegerScoreKritische Fehler
SupportClaude Main9013%
TextClaude Main9011%
ExtraktionQwen Main886%

Fehlermuster

Fehler-TagAnzahl
literal_translation26
unsafe_refund_promise23
weak_cta21
unsupported_claim17
invalid_json13
missing_field10
too_verbose6
wrong_date_format6
missed_dependency5
generic_ai_copy5

Aufgabenergebnisse

AufgabeSpracheTypSiegerScoreHauptrisiko
Chinese Customer Complaint Triage中文SupportQwen Main85unsafe_refund_promise
Chinese App Review Pain Point Summary中文TextOpenAI Main89hallucinated_issue
Chinese Contract Field Extraction中文ExtraktionQwen Main96hallucinated_signing_date
Chinese Sales Call Summary中文ExtraktionQwen Main96missed_buying_signal
Chinese Invoice Dispute Reply中文SupportOpenAI Main85unauthorized_credit
SaaS Landing Page Hero RewriteEnglishTextOpenAI Main93generic_ai_copy
Meeting Notes Action Item ExtractionEnglishExtraktionOpenAI Main89discussion_as_action
Refund Policy Boundary ReplyEnglishSupportOpenAI Main96unsafe_refund_promise
English Security Questionnaire AnswerEnglishSupportOpenAI Main96unsupported_security_claim
English Churn Risk EmailEnglishTextClaude Main95tone_deaf_retention
Japanese Business Email Politeness Rewrite日本語TextOpenAI Main85unnatural_japanese
Japanese Appointment Intent Classification日本語SupportClaude Main92wrong_intent
Japanese Product Specification Extraction日本語ExtraktionQwen Main91hallucinated_material
Japanese Support Escalation Note日本語SupportClaude Main92lost_escalation_context
Japanese Pricing Page Localization日本語TextClaude Main92literal_pricing_copy
Spanish Support Reply for Wrong ItemEspañolSupportClaude Main89unsafe_refund_promise
Spanish Ad Headline LocalizationEspañolTextClaude Main92literal_translation
Spanish Order Confirmation ExtractionEspañolExtraktionClaude Main85wrong_date_format
Spanish Billing Cancellation ReplyEspañolSupportClaude Main91wrong_cancellation_policy
Spanish Survey Insight ClusteringEspañolExtraktionQwen Main83overmerged_feedback

Methodik-Snapshot

Publikationshinweise