---
title: "21GB 로컬 모델 Qwen3.6이 Claude Opus 4.7보다 펠리컨을 더 잘 그렸다"
published: 2026-04-16T17:37:20.000Z
canonical: https://jeff.news/article/1769
---
# 21GB 로컬 모델 Qwen3.6이 Claude Opus 4.7보다 펠리컨을 더 잘 그렸다

Simon Willison이 알리바바의 Qwen3.6-35B-A3B 양자화 모델을 맥북에서 로컬로 돌려 SVG 펠리컨 벤치마크를 수행했더니, Anthropic의 최신 Opus 4.7보다 더 나은 결과가 나왔다. 다만 이 결과가 모델의 범용 성능 우위를 의미하진 않는다고 본인이 직접 선을 그었다.

- **21GB짜리 로컬 모델이 최신 Opus를 이겼다** — 알리바바의 Qwen3.6-35B-A3B를 맥북 프로 M5에서 돌려서 "자전거 타는 펠리컨" SVG를 그렸더니, Anthropic의 최신 Claude Opus 4.7보다 더 나은 결과가 나옴
  - 사용한 모델은 Unsloth의 Q4_K_S 양자화 버전(20.9GB GGUF), LM Studio로 로컬 실행
  - Opus 4.7은 자전거 프레임을 망쳐버렸고, `thinking_level: max`로 재시도해도 별 차이 없었음

- **"혹시 Qwen이 치팅한 건 아닐까?"** 하는 의심에 비밀 백업 테스트도 꺼냄
  - "유니사이클 타는 플라밍고" SVG를 시켜봤는데 여기서도 Qwen이 승리
  - Qwen 출력에 `<!-- Sunglasses on flamingo! -->` 같은 SVG 주석까지 들어가 있어서 센스도 챙김
  - Simon Willison 본인은 "랩들이 내 벤치마크를 학습했다"는 음모론에는 동의하지 않음

- **이 벤치마크가 원래 의미하던 것** — "펠리컨 벤치마크"는 LLM 비교가 얼마나 우스꽝스러운지 보여주려고 만든 농담이었음
  - 그런데 묘하게도 2024년 10월 이후로 펠리컨 품질과 모델 범용 성능 사이에 상관관계가 있었음
  - Gemini 3.1 Pro는 실제로 쓸 만한 일러스트를 뽑아낼 정도로 발전

- **이번에 그 상관관계가 깨졌다** — 21GB 양자화 모델이 최신 프로프라이어터리 모델보다 SVG를 잘 그린다고 해서, 그게 더 유용한 모델이란 뜻은 아님
  - Simon 본인도 "Qwen을 존경하지만, 이 양자화 버전이 Opus 4.7보다 강력하다고 생각하진 않는다"고 명확히 선 그음
  - 결론은 간단함 — 펠리컨 SVG가 필요하면 Qwen, 그 외에는 여전히 판단 보류

## 핵심 포인트

- 20.9GB GGUF 양자화 Qwen3.6 모델이 맥북 로컬에서 Opus 4.7보다 나은 SVG 일러스트 생성
- 비밀 백업 테스트(플라밍고+유니사이클)에서도 Qwen 승리
- 펠리컨 벤치마크와 모델 범용 성능 간 상관관계가 이번에 깨짐
- SVG 생성 능력이 모델 전체 유용성을 대변하지 않는다는 결론

## 인사이트

로컬에서 돌리는 소형 양자화 모델이 특정 태스크에서 대형 프로프라이어터리 모델을 이기는 사례가 점점 늘고 있어서, 용도별 모델 선택 전략이 더 중요해지고 있음을 보여주는 재미있는 케이스다.