タスク証拠
各タスクには概要、評価基準、主なリスク、勝者が含まれます。
Chinese Customer Complaint Triage
主なリスク: unsafe_refund_promise
80
勝者: Qwen Main
unsafe_refund_promise
Chinese App Review Pain Point Summary
主なリスク: hallucinated_issue
82
勝者: OpenAI Main
hallucinated_issue
Chinese Contract Field Extraction
主なリスク: hallucinated_signing_date
82
勝者: Qwen Main
hallucinated_signing_date
Chinese Sales Call Summary
主なリスク: missed_buying_signal
84
勝者: Qwen Main
missed_buying_signal
Chinese Invoice Dispute Reply
主なリスク: unauthorized_credit
80
勝者: OpenAI Main
unauthorized_credit
SaaS Landing Page Hero Rewrite
主なリスク: generic_ai_copy
83
勝者: OpenAI Main
generic_ai_copy
Meeting Notes Action Item Extraction
主なリスク: discussion_as_action
83
勝者: OpenAI Main
discussion_as_action
Refund Policy Boundary Reply
主なリスク: unsafe_refund_promise
85
勝者: OpenAI Main
unsafe_refund_promise
English Security Questionnaire Answer
主なリスク: unsupported_security_claim
85
勝者: OpenAI Main
unsupported_security_claim
English Churn Risk Email
主なリスク: tone_deaf_retention
84
勝者: Claude Main
tone_deaf_retention
Japanese Business Email Politeness Rewrite
主なリスク: unnatural_japanese
81
勝者: OpenAI Main
unnatural_japanese
Japanese Appointment Intent Classification
主なリスク: wrong_intent
80
勝者: Claude Main
wrong_intent
Japanese Product Specification Extraction
主なリスク: hallucinated_material
83
勝者: Qwen Main
hallucinated_material
Japanese Support Escalation Note
主なリスク: lost_escalation_context
81
勝者: Claude Main
lost_escalation_context
Japanese Pricing Page Localization
主なリスク: literal_pricing_copy
81
勝者: Claude Main
literal_pricing_copy
Spanish Support Reply for Wrong Item
主なリスク: unsafe_refund_promise
80
勝者: Claude Main
unsafe_refund_promise
Spanish Ad Headline Localization
主なリスク: literal_translation
81
勝者: Claude Main
literal_translation
Spanish Order Confirmation Extraction
主なリスク: wrong_date_format
82
勝者: Claude Main
wrong_date_format
Spanish Billing Cancellation Reply
主なリスク: wrong_cancellation_policy
81
勝者: Claude Main
wrong_cancellation_policy
Spanish Survey Insight Clustering
主なリスク: overmerged_feedback
80
勝者: Qwen Main
overmerged_feedback