Task Evidence

Each task includes a prompt summary, rubric, primary risk, and task-specific winner.

Chinese Customer Complaint Triage

Primary risk: unsafe_refund_promise

Winner: Qwen Main

unsafe_refund_promise

Chinese App Review Pain Point Summary

Primary risk: hallucinated_issue

Winner: OpenAI Main

hallucinated_issue

Chinese Contract Field Extraction

中文Extraction

Primary risk: hallucinated_signing_date

Winner: Qwen Main

hallucinated_signing_date

SaaS Landing Page Hero Rewrite

Primary risk: generic_ai_copy

Winner: OpenAI Main

generic_ai_copy

Meeting Notes Action Item Extraction

EnglishExtraction

Primary risk: discussion_as_action

Winner: OpenAI Main

discussion_as_action

Refund Policy Boundary Reply

Primary risk: unsafe_refund_promise

Winner: OpenAI Main

unsafe_refund_promise

Japanese Business Email Politeness Rewrite

日本語Writing

Primary risk: unnatural_japanese

Winner: OpenAI Main

unnatural_japanese

Japanese Appointment Intent Classification

日本語Support

Primary risk: wrong_intent

Winner: Claude Main

Japanese Product Specification Extraction

日本語Extraction

Primary risk: hallucinated_material

Winner: Qwen Main

hallucinated_material

Spanish Support Reply for Wrong Item

EspañolSupport

Primary risk: unsafe_refund_promise

Winner: Claude Main

unsafe_refund_promise

Spanish Ad Headline Localization

EspañolWriting

Primary risk: literal_translation

Winner: Claude Main

literal_translation

Spanish Order Confirmation Extraction

EspañolExtraction

Primary risk: wrong_date_format

Winner: Claude Main

wrong_date_format