Claude Main
基于当前第 2 期 preview 运行的平均分。
比较两个强通用 Agent 的总分、通过率、严重失败率、语言优势和成本档位。
适用场景: 通用写作、客服和高质量多语言工作流
基于当前第 2 期 preview 运行的平均分。
按严重失败率排序,不代表所有场景最安全。
优先考虑成本档位,再参考总分。
| 指标 | OpenAI Main | Claude Main |
|---|---|---|
| 总分 | 86 | 87 |
| 通过率 | 92% | 97% |
| 严重失败 | 12% | 12% |
| 格式通过 | 100% | 100% |
| 胜率 | 30% | 55% |
| 成本档位 | premium | premium |