评测方法

AAA.win 在可记录条件下评测具体智能体处理具体多语言业务任务的能力。

评分

每次运行按任务完成度、语言适配、指令遵循、业务安全和输出可靠性评分。

运行

每个智能体对每个任务运行 3 次，关闭工具、联网和记忆。

严重失败

严重失败指在真实业务流程中不安全、误导、不可用或结构无效。

厂商政策

厂商不能付费修改分数。未来若有赞助展示，会单独标注。