評価方法

AAA.win は記録された条件下で、具体的な Agent と多言語業務タスクを評価します。

スコアリング

各実行はタスク成功、言語適合、指示遵守、業務安全性、出力信頼性で評価します。

実行条件

各 Agent は各タスクを 3 回実行し、ツール、ブラウジング、メモリは無効です。

重大失敗

実務で危険、誤解を招く、使えない、または構造的に無効な出力を指します。

ベンダーポリシー

ベンダーは支払いによってスコアを変更できません。スポンサー枠は別表示します。