在实际使用的语言和市场中测试 Agent。
多语言评测会把各语言表现从总分中拆出来,检查每种语言的语气、格式、市场习惯、政策表达和任务完成度。
英文表现强,不代表中文、日文、西语或其他本地市场可用。
一个 Agent 综合排名很高,但可能因为日文客服语气不自然而输掉日文任务。