다국어 요약 리포트
공개 전에 확인해야 할 승자, 한계, 주요 신호를 빠르게 보여줍니다.
- 종합 순위는 언어별 승자와 함께 읽어야 합니다.
- preview seed 결과는 최종 사실처럼 인용하면 안 됩니다.
- 비즈니스 안전 위험은 문체 유창성보다 중요합니다.
생성 배치: maa-preview-002
AAA.win은 4개 언어의 20개 다국어 비즈니스 태스크에서 6개의 AI Agent를 테스트했습니다. 아래 리포트는 시장, 역할, 위험별로 결과를 읽기 쉽게 정리합니다.
공개 전에 확인해야 할 승자, 한계, 주요 신호를 빠르게 보여줍니다.
영어만 보고 선택하지 않도록 언어 시장별로 에이전트를 비교합니다.
치명 실패, 위험한 약속, 지어낸 필드, 사용할 수 없는 출력을 집중적으로 봅니다.
비용, 업무 언어, 위험 허용도에 따라 도구를 선택하도록 돕습니다.
지원, 작성, 구조화 추출이 에이전트 차이를 어떻게 만드는지 설명합니다.
런칭, 글, 영업 페이지에서 결과를 쓰기 전 필요한 조건을 정리합니다.
오늘의 현실적인 범위는 리포트와 현지화를 확장하면서 preview 결과 표시를 분명히 유지하는 것입니다.
오늘 예상 범위: 8개 인터페이스 언어에서 6개 리포트를 읽을 수 있게 만들기. 태스크 제목 현지화와 실제 FR/DE/PT/KO 데이터셋은 다음 단계입니다.
| 순위 | 에이전트 | 점수 | 통과율 | 치명 실패 | 비용 |
|---|---|---|---|---|---|
| 1 | Claude Main | 87 | 97% | 12% | premium |
| 2 | OpenAI Main | 86 | 92% | 12% | premium |
| 3 | Qwen Main | 84 | 93% | 10% | standard |
| 4 | Gemini Main | 80 | 82% | 12% | standard |
| 5 | DeepSeek Main | 80 | 70% | 7% | low |
| 6 | Grok Main | 75 | 37% | 27% | standard |
| 언어 | 승자 | 점수 | 치명 실패 |
|---|---|---|---|
| 中文 | Qwen Main | 89 | 7% |
| English | OpenAI Main | 93 | 7% |
| 日本語 | Claude Main | 89 | 13% |
| Español | Claude Main | 88 | 13% |
| 태스크 유형 | 승자 | 점수 | 치명 실패 |
|---|---|---|---|
| 지원 | Claude Main | 90 | 13% |
| 작성 | Claude Main | 90 | 11% |
| 추출 | Qwen Main | 88 | 6% |
| 실패 태그 | 수 |
|---|---|
| literal_translation | 26 |
| unsafe_refund_promise | 23 |
| weak_cta | 21 |
| unsupported_claim | 17 |
| invalid_json | 13 |
| missing_field | 10 |
| too_verbose | 6 |
| wrong_date_format | 6 |
| missed_dependency | 5 |
| generic_ai_copy | 5 |
| 태스크 | 언어 | 유형 | 승자 | 점수 | 주요 위험 |
|---|---|---|---|---|---|
| Chinese Customer Complaint Triage | 中文 | 지원 | Qwen Main | 85 | unsafe_refund_promise |
| Chinese App Review Pain Point Summary | 中文 | 작성 | OpenAI Main | 89 | hallucinated_issue |
| Chinese Contract Field Extraction | 中文 | 추출 | Qwen Main | 96 | hallucinated_signing_date |
| Chinese Sales Call Summary | 中文 | 추출 | Qwen Main | 96 | missed_buying_signal |
| Chinese Invoice Dispute Reply | 中文 | 지원 | OpenAI Main | 85 | unauthorized_credit |
| SaaS Landing Page Hero Rewrite | English | 작성 | OpenAI Main | 93 | generic_ai_copy |
| Meeting Notes Action Item Extraction | English | 추출 | OpenAI Main | 89 | discussion_as_action |
| Refund Policy Boundary Reply | English | 지원 | OpenAI Main | 96 | unsafe_refund_promise |
| English Security Questionnaire Answer | English | 지원 | OpenAI Main | 96 | unsupported_security_claim |
| English Churn Risk Email | English | 작성 | Claude Main | 95 | tone_deaf_retention |
| Japanese Business Email Politeness Rewrite | 日本語 | 작성 | OpenAI Main | 85 | unnatural_japanese |
| Japanese Appointment Intent Classification | 日本語 | 지원 | Claude Main | 92 | wrong_intent |
| Japanese Product Specification Extraction | 日本語 | 추출 | Qwen Main | 91 | hallucinated_material |
| Japanese Support Escalation Note | 日本語 | 지원 | Claude Main | 92 | lost_escalation_context |
| Japanese Pricing Page Localization | 日本語 | 작성 | Claude Main | 92 | literal_pricing_copy |
| Spanish Support Reply for Wrong Item | Español | 지원 | Claude Main | 89 | unsafe_refund_promise |
| Spanish Ad Headline Localization | Español | 작성 | Claude Main | 92 | literal_translation |
| Spanish Order Confirmation Extraction | Español | 추출 | Claude Main | 85 | wrong_date_format |
| Spanish Billing Cancellation Reply | Español | 지원 | Claude Main | 91 | wrong_cancellation_policy |
| Spanish Survey Insight Clustering | Español | 추출 | Qwen Main | 83 | overmerged_feedback |