Qwen Main
按该场景的语言和任务类型筛选后,当前 preview 数据里的最高分候选。
88比较 Agent 处理合同字段、日期、缺失值、合法 JSON 和结构化业务记录的能力。
适合读者: 法务运营、财务运营、采购和自动化团队
按该场景的语言和任务类型筛选后,当前 preview 数据里的最高分候选。
88优先按严重失败率排序,再参考总分。
优先考虑成本档位,再参考场景分数。
这个页面不是替代人工评审,而是把排行榜切成更接近真实采购和上线决策的问题。上线前仍应检查原始输出、业务边界和模型版本。
| Chinese Contract Field Extraction | Qwen Main | 96 |
| Chinese Sales Call Summary | Qwen Main | 96 |
| Meeting Notes Action Item Extraction | OpenAI Main | 89 |
| Japanese Product Specification Extraction | Qwen Main | 91 |
| Spanish Order Confirmation Extraction | Claude Main | 85 |
| Spanish Survey Insight Clustering | Qwen Main | 83 |
平均分: 81