Mistral Main
基于当前第 2 期 preview 运行的平均分。
比较开源权重和欧洲通用 Agent 在成本控制、抽取可靠性和业务安全上的表现。
适用场景: 评估开放或标准成本部署路径的团队
基于当前第 2 期 preview 运行的平均分。
按严重失败率排序,不代表所有场景最安全。
优先考虑成本档位,再参考总分。
| 指标 | Llama Main | Mistral Main |
|---|---|---|
| 总分 | 79 | 81 |
| 通过率 | 75% | 85% |
| 严重失败 | 7% | 2% |
| 格式通过 | 100% | 100% |
| 胜率 | 0% | 10% |
| 成本档位 | low | standard |