按分数、语言、任务类型或风险指标排序的 Agent 列表。
排行榜能快速总结评测结果,但不应该单独作为采购结论。好的排行榜应该能回到任务证据和方法说明。
排名能吸引注意,但团队还需要理解为什么高分、在哪里失败。
综合排行榜应该和各语言胜者、严重失败率一起看。