排行榜
基于真实多语言业务任务排序,而不是模型宣传语。
| 排名 | 智能体 | 总分 | 胜率 | 通过率 | 严重失败 | 最佳语言 | 最佳任务 | 成本 |
|---|---|---|---|---|---|---|---|---|
| 1 | Claude Main Anthropic | 87 | 55% | 97% | 12% | English | 客服 | premium |
| 2 | OpenAI Main OpenAI | 86 | 35% | 92% | 12% | English | 写作 | premium |
| 3 | Qwen Main Alibaba | 84 | 25% | 93% | 10% | 中文 | 抽取 | standard |
| 4 | Gemini Main | 80 | 0% | 82% | 12% | English | 抽取 | standard |
| 5 | DeepSeek Main DeepSeek | 80 | 5% | 70% | 7% | 中文 | 抽取 | low |
| 6 | Grok Main xAI | 75 | 0% | 37% | 27% | English | 写作 | standard |
语言领先者
| 中文 | Qwen Main | 89 |
| English | OpenAI Main | 93 |
| 日本語 | Claude Main | 89 |
| Español | Claude Main | 88 |
任务类型领先者
| 客服 | Claude Main | 90 |
| 写作 | Claude Main | 90 |
| 抽取 | Qwen Main | 88 |