OpenAI Main
基于当前第 2 期 preview 运行的平均分。
比较全球高端通用 Agent 与中文语言、结构化抽取表现较强的候选。
适用场景: 在全球质量和中文市场适配之间权衡的跨境团队
基于当前第 2 期 preview 运行的平均分。
按严重失败率排序,不代表所有场景最安全。
优先考虑成本档位,再参考总分。
| 指标 | OpenAI Main | Qwen Main |
|---|---|---|
| 总分 | 86 | 84 |
| 通过率 | 92% | 93% |
| 严重失败 | 12% | 10% |
| 格式通过 | 100% | 100% |
| 胜率 | 30% | 25% |
| 成本档位 | premium | standard |