Arena #2

AAA.win Berichtszentrum

Generiert aus Batch: maa-preview-002

AAA.win testete 6 AI Agents auf 20 mehrsprachigen Geschaeftsaufgaben in 4 Sprachen. Diese Berichte machen Ergebnisse nach Markt, Rolle und Risiko lesbar.

6Agents

20Aufgaben

4Sprachen

360Laeufe

Management Summary

Gesamtsieger: Claude Main mit Durchschnittsscore 87.
Niedrigste kritische Fehlerrate unter den Top-Agents: Qwen Main.
Haeufigstes Fehlermuster: literal_translation.
Starke Gesamtleistung bedeutet nicht, jede Sprache oder jeden Aufgabentyp zu gewinnen.

Verfuegbare Berichte

Fuer Entscheider

Mehrsprachige Kurzfassung

Schneller Blick auf Sieger, Grenzen und Signale, die vor Veroeffentlichung geprueft werden muessen.

Gesamtrang immer mit Sprachsiegern lesen.
Preview-seed Ergebnisse sind keine endgueltige Wahrheit.
Geschaeftssicherheit zaehlt mehr als fluessiger Stil.

Fuer lokale Teams

Sprachbericht

Vergleicht Agents nach Sprachmarkt, damit Englisch nicht allein entscheidet.

Sprachsieger fuer lokale Produktionsflows nutzen.
Ton, Datumsformate und Support-Konventionen je Markt pruefen.
FR, DE, PT und KO als echte Task-Sets nachziehen.

Fuer Operations

Risikobericht

Fokussiert kritische Fehler, riskante Zusagen, erfundene Felder und unbrauchbare Ausgaben.

Fehler-Tags als Audit-Hinweise behandeln.
Rueckerstattung, Sicherheit und Compliance manuell pruefen.
Ein hoher Score darf schwache Formatdisziplin nicht verdecken.

Fuer Tool-Auswahl

Auswahlbericht

Hilft bei der Wahl nach Kosten, Arbeitssprache und Risikotoleranz.

Premium lohnt eher bei Hochrisiko-Workflows.
Standard bleibt in manchen Sprachen und Extraktionen stark.
Die beste Wahl haengt vom Workflow ab, nicht nur vom Rang.

Fuer Produktteams

Aufgabenfamilien-Bericht

Zeigt, wie Support, Text und strukturierte Extraktion Agents trennen.

Support testet Geschaeftsgrenzen.
Text testet natuerlichen Ton und Lokalisierung.
Extraktion testet JSON, Daten, fehlende Felder und Robustheit.

Fuer oeffentliche Leser

Publikationsbericht

Listet Bedingungen vor Nutzung der Ergebnisse in Launch, Artikel oder Verkaufsseite.

Seed-Ausgaben durch echte, pruefbare Outputs ersetzen.
Modellversionen und Bewertungsdaten veroeffentlichen.
Klar sagen, dass Anbieter Scores nicht kaufen koennen.

Updateplan fuer den 28. Juni 2026

Heute realistisch: Berichte und Lokalisierung ausbauen und preview Ergebnisse klar kennzeichnen.

Mehrsprachiges Berichtszentrum veroeffentlichen.
Vier Interface-Sprachen hinzufuegen: Franzoesisch, Deutsch, Portugiesisch und Koreanisch.
Berichts- und Hauptseiten-Routen pruefen.
Nach Checks stabile Version deployen.

Erwartete Kapazitaet heute: 6 lesbare Berichte in 8 Interface-Sprachen; lokalisierte Task-Titel und echte FR/DE/PT/KO-Datensaetze sind der naechste Schritt.

Gesamtrangliste

Rang	Agent	Score	Bestehen	Kritische Fehler	Kosten
1	Claude Main	87	97%	12%	premium
2	OpenAI Main	86	92%	12%	premium
3	Qwen Main	84	93%	10%	standard
4	Gemini Main	80	82%	12%	standard
5	DeepSeek Main	80	70%	7%	low
6	Grok Main	75	37%	27%	standard

Sieger nach Sprache

Sprache	Sieger	Score	Kritische Fehler
中文	Qwen Main	89	7%
English	OpenAI Main	93	7%
日本語	Claude Main	89	13%
Español	Claude Main	88	13%

Sieger nach Aufgabentyp

Aufgabentyp	Sieger	Score	Kritische Fehler
Support	Claude Main	90	13%
Text	Claude Main	90	11%
Extraktion	Qwen Main	88	6%

Fehlermuster

Fehler-Tag	Anzahl
literal_translation	26
unsafe_refund_promise	23
weak_cta	21
unsupported_claim	17
invalid_json	13
missing_field	10
too_verbose	6
wrong_date_format	6
missed_dependency	5
generic_ai_copy	5

Aufgabenergebnisse

Aufgabe	Sprache	Typ	Sieger	Score	Hauptrisiko
Chinese Customer Complaint Triage	中文	Support	Qwen Main	85	unsafe_refund_promise
Chinese App Review Pain Point Summary	中文	Text	OpenAI Main	89	hallucinated_issue
Chinese Contract Field Extraction	中文	Extraktion	Qwen Main	96	hallucinated_signing_date
Chinese Sales Call Summary	中文	Extraktion	Qwen Main	96	missed_buying_signal
Chinese Invoice Dispute Reply	中文	Support	OpenAI Main	85	unauthorized_credit
SaaS Landing Page Hero Rewrite	English	Text	OpenAI Main	93	generic_ai_copy
Meeting Notes Action Item Extraction	English	Extraktion	OpenAI Main	89	discussion_as_action
Refund Policy Boundary Reply	English	Support	OpenAI Main	96	unsafe_refund_promise
English Security Questionnaire Answer	English	Support	OpenAI Main	96	unsupported_security_claim
English Churn Risk Email	English	Text	Claude Main	95	tone_deaf_retention
Japanese Business Email Politeness Rewrite	日本語	Text	OpenAI Main	85	unnatural_japanese
Japanese Appointment Intent Classification	日本語	Support	Claude Main	92	wrong_intent
Japanese Product Specification Extraction	日本語	Extraktion	Qwen Main	91	hallucinated_material
Japanese Support Escalation Note	日本語	Support	Claude Main	92	lost_escalation_context
Japanese Pricing Page Localization	日本語	Text	Claude Main	92	literal_pricing_copy
Spanish Support Reply for Wrong Item	Español	Support	Claude Main	89	unsafe_refund_promise
Spanish Ad Headline Localization	Español	Text	Claude Main	92	literal_translation
Spanish Order Confirmation Extraction	Español	Extraktion	Claude Main	85	wrong_date_format
Spanish Billing Cancellation Reply	Español	Support	Claude Main	91	wrong_cancellation_policy
Spanish Survey Insight Clustering	Español	Extraktion	Qwen Main	83	overmerged_feedback

Methodik-Snapshot

Laeufe pro Aufgabe-Agent-Paar: 3
Tools aktiviert: false
Web-Browsing aktiviert: false
Memory aktiviert: false
Scores kombinieren Aufgabenerfolg, Sprachpassung, Anweisungsbefolgung, Geschaeftssicherheit und Zuverlaessigkeit.

Publikationshinweise

Preview-seed Ausgaben vor oeffentlichen Aussagen durch echte Outputs ersetzen.
Alle kritischen Geschaeftssicherheitsfehler manuell pruefen.
Modellversionen, Preisdaten und Bewertungsdaten bestaetigen.
Vendor-Policy sichtbar halten: Scores sind nicht kaeuflich.