Arena #2

AAA.win 리포트 센터

생성 배치: maa-preview-002

AAA.win은 4개 언어의 20개 다국어 비즈니스 태스크에서 6개의 AI Agent를 테스트했습니다. 아래 리포트는 시장, 역할, 위험별로 결과를 읽기 쉽게 정리합니다.

6에이전트
20태스크
4언어
360실행

요약

제공 리포트

리더십용

다국어 요약 리포트

공개 전에 확인해야 할 승자, 한계, 주요 신호를 빠르게 보여줍니다.

  • 종합 순위는 언어별 승자와 함께 읽어야 합니다.
  • preview seed 결과는 최종 사실처럼 인용하면 안 됩니다.
  • 비즈니스 안전 위험은 문체 유창성보다 중요합니다.
로컬 팀용

언어별 리포트

영어만 보고 선택하지 않도록 언어 시장별로 에이전트를 비교합니다.

  • 로컬 운영에는 언어별 승자를 우선 확인하세요.
  • 시장별 톤, 날짜 형식, 지원 관행을 검토하세요.
  • 다음 단계에서 FR, DE, PT, KO 실제 태스크셋을 추가합니다.
운영팀용

위험 리포트

치명 실패, 위험한 약속, 지어낸 필드, 사용할 수 없는 출력을 집중적으로 봅니다.

  • 실패 태그를 감사 단서로 다루세요.
  • 환불, 보안, 준수 관련 사례는 사람이 검토해야 합니다.
  • 높은 점수가 약한 형식 준수를 가리면 안 됩니다.
도구 선택용

선택 리포트

비용, 업무 언어, 위험 허용도에 따라 도구를 선택하도록 돕습니다.

  • 고위험 업무에서는 premium 선택이 타당할 수 있습니다.
  • standard 에이전트도 일부 언어와 추출에서 강합니다.
  • 최선의 선택은 순위보다 워크플로에 달려 있습니다.
제품팀용

태스크 유형 리포트

지원, 작성, 구조화 추출이 에이전트 차이를 어떻게 만드는지 설명합니다.

  • 지원은 비즈니스 경계를 테스트합니다.
  • 작성은 자연스러운 톤과 현지화를 테스트합니다.
  • 추출은 JSON, 날짜, 누락 필드, 견고성을 테스트합니다.
공개 독자용

공개 준비 리포트

런칭, 글, 영업 페이지에서 결과를 쓰기 전 필요한 조건을 정리합니다.

  • seed 출력을 검증 가능한 실제 출력으로 바꾸세요.
  • 모델 버전과 평가일을 공개하세요.
  • 벤더가 점수를 살 수 없다는 점을 명확히 표시하세요.

2026년 6월 28일 업데이트 계획

오늘의 현실적인 범위는 리포트와 현지화를 확장하면서 preview 결과 표시를 분명히 유지하는 것입니다.

오늘 예상 범위: 8개 인터페이스 언어에서 6개 리포트를 읽을 수 있게 만들기. 태스크 제목 현지화와 실제 FR/DE/PT/KO 데이터셋은 다음 단계입니다.

종합 순위

순위에이전트점수통과율치명 실패비용
1Claude Main8797%12%premium
2OpenAI Main8692%12%premium
3Qwen Main8493%10%standard
4Gemini Main8082%12%standard
5DeepSeek Main8070%7%low
6Grok Main7537%27%standard

언어별 승자

언어승자점수치명 실패
中文Qwen Main897%
EnglishOpenAI Main937%
日本語Claude Main8913%
EspañolClaude Main8813%

태스크 유형별 승자

태스크 유형승자점수치명 실패
지원Claude Main9013%
작성Claude Main9011%
추출Qwen Main886%

실패 모드

실패 태그
literal_translation26
unsafe_refund_promise23
weak_cta21
unsupported_claim17
invalid_json13
missing_field10
too_verbose6
wrong_date_format6
missed_dependency5
generic_ai_copy5

태스크 결과

태스크언어유형승자점수주요 위험
Chinese Customer Complaint Triage中文지원Qwen Main85unsafe_refund_promise
Chinese App Review Pain Point Summary中文작성OpenAI Main89hallucinated_issue
Chinese Contract Field Extraction中文추출Qwen Main96hallucinated_signing_date
Chinese Sales Call Summary中文추출Qwen Main96missed_buying_signal
Chinese Invoice Dispute Reply中文지원OpenAI Main85unauthorized_credit
SaaS Landing Page Hero RewriteEnglish작성OpenAI Main93generic_ai_copy
Meeting Notes Action Item ExtractionEnglish추출OpenAI Main89discussion_as_action
Refund Policy Boundary ReplyEnglish지원OpenAI Main96unsafe_refund_promise
English Security Questionnaire AnswerEnglish지원OpenAI Main96unsupported_security_claim
English Churn Risk EmailEnglish작성Claude Main95tone_deaf_retention
Japanese Business Email Politeness Rewrite日本語작성OpenAI Main85unnatural_japanese
Japanese Appointment Intent Classification日本語지원Claude Main92wrong_intent
Japanese Product Specification Extraction日本語추출Qwen Main91hallucinated_material
Japanese Support Escalation Note日本語지원Claude Main92lost_escalation_context
Japanese Pricing Page Localization日本語작성Claude Main92literal_pricing_copy
Spanish Support Reply for Wrong ItemEspañol지원Claude Main89unsafe_refund_promise
Spanish Ad Headline LocalizationEspañol작성Claude Main92literal_translation
Spanish Order Confirmation ExtractionEspañol추출Claude Main85wrong_date_format
Spanish Billing Cancellation ReplyEspañol지원Claude Main91wrong_cancellation_policy
Spanish Survey Insight ClusteringEspañol추출Qwen Main83overmerged_feedback

방법 요약

공개 메모