解释 Agent 输出哪里出错的标签。
失败标签让评测更容易审计。它不只给分数,还指出直译、JSON 无效、缺失字段、虚假声明等问题。
标签能帮助团队定位需要看原始输出和加护栏的地方。
literal_translation 表示输出翻译了文字,但没有符合本地语气或市场习惯。