6Agents
20Aufgaben
4Sprachen
360Laeufe
Management Summary
- Gesamtsieger: Claude Main mit Durchschnittsscore 87.
- Niedrigste kritische Fehlerrate unter den Top-Agents: Qwen Main.
- Haeufigstes Fehlermuster: literal_translation.
- Starke Gesamtleistung bedeutet nicht, jede Sprache oder jeden Aufgabentyp zu gewinnen.
Verfuegbare Berichte
Fuer EntscheiderMehrsprachige Kurzfassung
Schneller Blick auf Sieger, Grenzen und Signale, die vor Veroeffentlichung geprueft werden muessen.
- Gesamtrang immer mit Sprachsiegern lesen.
- Preview-seed Ergebnisse sind keine endgueltige Wahrheit.
- Geschaeftssicherheit zaehlt mehr als fluessiger Stil.
Fuer lokale TeamsSprachbericht
Vergleicht Agents nach Sprachmarkt, damit Englisch nicht allein entscheidet.
- Sprachsieger fuer lokale Produktionsflows nutzen.
- Ton, Datumsformate und Support-Konventionen je Markt pruefen.
- FR, DE, PT und KO als echte Task-Sets nachziehen.
Fuer OperationsRisikobericht
Fokussiert kritische Fehler, riskante Zusagen, erfundene Felder und unbrauchbare Ausgaben.
- Fehler-Tags als Audit-Hinweise behandeln.
- Rueckerstattung, Sicherheit und Compliance manuell pruefen.
- Ein hoher Score darf schwache Formatdisziplin nicht verdecken.
Fuer Tool-AuswahlAuswahlbericht
Hilft bei der Wahl nach Kosten, Arbeitssprache und Risikotoleranz.
- Premium lohnt eher bei Hochrisiko-Workflows.
- Standard bleibt in manchen Sprachen und Extraktionen stark.
- Die beste Wahl haengt vom Workflow ab, nicht nur vom Rang.
Fuer ProduktteamsAufgabenfamilien-Bericht
Zeigt, wie Support, Text und strukturierte Extraktion Agents trennen.
- Support testet Geschaeftsgrenzen.
- Text testet natuerlichen Ton und Lokalisierung.
- Extraktion testet JSON, Daten, fehlende Felder und Robustheit.
Fuer oeffentliche LeserPublikationsbericht
Listet Bedingungen vor Nutzung der Ergebnisse in Launch, Artikel oder Verkaufsseite.
- Seed-Ausgaben durch echte, pruefbare Outputs ersetzen.
- Modellversionen und Bewertungsdaten veroeffentlichen.
- Klar sagen, dass Anbieter Scores nicht kaufen koennen.
Updateplan fuer den 28. Juni 2026
Heute realistisch: Berichte und Lokalisierung ausbauen und preview Ergebnisse klar kennzeichnen.
- Mehrsprachiges Berichtszentrum veroeffentlichen.
- Vier Interface-Sprachen hinzufuegen: Franzoesisch, Deutsch, Portugiesisch und Koreanisch.
- Berichts- und Hauptseiten-Routen pruefen.
- Nach Checks stabile Version deployen.
Erwartete Kapazitaet heute: 6 lesbare Berichte in 8 Interface-Sprachen; lokalisierte Task-Titel und echte FR/DE/PT/KO-Datensaetze sind der naechste Schritt.
Gesamtrangliste
| Rang | Agent | Score | Bestehen | Kritische Fehler | Kosten |
|---|
| 1 | Claude Main | 87 | 97% | 12% | premium |
| 2 | OpenAI Main | 86 | 92% | 12% | premium |
| 3 | Qwen Main | 84 | 93% | 10% | standard |
| 4 | Gemini Main | 80 | 82% | 12% | standard |
| 5 | DeepSeek Main | 80 | 70% | 7% | low |
| 6 | Grok Main | 75 | 37% | 27% | standard |
Sieger nach Sprache
| Sprache | Sieger | Score | Kritische Fehler |
|---|
| 中文 | Qwen Main | 89 | 7% |
| English | OpenAI Main | 93 | 7% |
| 日本語 | Claude Main | 89 | 13% |
| Español | Claude Main | 88 | 13% |
Sieger nach Aufgabentyp
| Aufgabentyp | Sieger | Score | Kritische Fehler |
|---|
| Support | Claude Main | 90 | 13% |
| Text | Claude Main | 90 | 11% |
| Extraktion | Qwen Main | 88 | 6% |
Fehlermuster
| Fehler-Tag | Anzahl |
|---|
| literal_translation | 26 |
| unsafe_refund_promise | 23 |
| weak_cta | 21 |
| unsupported_claim | 17 |
| invalid_json | 13 |
| missing_field | 10 |
| too_verbose | 6 |
| wrong_date_format | 6 |
| missed_dependency | 5 |
| generic_ai_copy | 5 |
Aufgabenergebnisse
| Aufgabe | Sprache | Typ | Sieger | Score | Hauptrisiko |
|---|
| Chinese Customer Complaint Triage | 中文 | Support | Qwen Main | 85 | unsafe_refund_promise |
| Chinese App Review Pain Point Summary | 中文 | Text | OpenAI Main | 89 | hallucinated_issue |
| Chinese Contract Field Extraction | 中文 | Extraktion | Qwen Main | 96 | hallucinated_signing_date |
| Chinese Sales Call Summary | 中文 | Extraktion | Qwen Main | 96 | missed_buying_signal |
| Chinese Invoice Dispute Reply | 中文 | Support | OpenAI Main | 85 | unauthorized_credit |
| SaaS Landing Page Hero Rewrite | English | Text | OpenAI Main | 93 | generic_ai_copy |
| Meeting Notes Action Item Extraction | English | Extraktion | OpenAI Main | 89 | discussion_as_action |
| Refund Policy Boundary Reply | English | Support | OpenAI Main | 96 | unsafe_refund_promise |
| English Security Questionnaire Answer | English | Support | OpenAI Main | 96 | unsupported_security_claim |
| English Churn Risk Email | English | Text | Claude Main | 95 | tone_deaf_retention |
| Japanese Business Email Politeness Rewrite | 日本語 | Text | OpenAI Main | 85 | unnatural_japanese |
| Japanese Appointment Intent Classification | 日本語 | Support | Claude Main | 92 | wrong_intent |
| Japanese Product Specification Extraction | 日本語 | Extraktion | Qwen Main | 91 | hallucinated_material |
| Japanese Support Escalation Note | 日本語 | Support | Claude Main | 92 | lost_escalation_context |
| Japanese Pricing Page Localization | 日本語 | Text | Claude Main | 92 | literal_pricing_copy |
| Spanish Support Reply for Wrong Item | Español | Support | Claude Main | 89 | unsafe_refund_promise |
| Spanish Ad Headline Localization | Español | Text | Claude Main | 92 | literal_translation |
| Spanish Order Confirmation Extraction | Español | Extraktion | Claude Main | 85 | wrong_date_format |
| Spanish Billing Cancellation Reply | Español | Support | Claude Main | 91 | wrong_cancellation_policy |
| Spanish Survey Insight Clustering | Español | Extraktion | Qwen Main | 83 | overmerged_feedback |
Methodik-Snapshot
- Laeufe pro Aufgabe-Agent-Paar: 3
- Tools aktiviert: false
- Web-Browsing aktiviert: false
- Memory aktiviert: false
- Scores kombinieren Aufgabenerfolg, Sprachpassung, Anweisungsbefolgung, Geschaeftssicherheit und Zuverlaessigkeit.
Publikationshinweise
- Preview-seed Ausgaben vor oeffentlichen Aussagen durch echte Outputs ersetzen.
- Alle kritischen Geschaeftssicherheitsfehler manuell pruefen.
- Modellversionen, Preisdaten und Bewertungsdaten bestaetigen.
- Vendor-Policy sichtbar halten: Scores sind nicht kaeuflich.