본문으로 건너뛰기
피드

21GB 로컬 모델 Qwen3.6이 Claude Opus 4.7보다 펠리컨을 더 잘 그렸다

ai-ml 약 3분
vote
0
댓글
북마크

Simon Willison이 알리바바의 Qwen3.6-35B-A3B 양자화 모델을 맥북에서 로컬로 돌려 SVG 펠리컨 벤치마크를 수행했더니, Anthropic의 최신 Opus 4.7보다 더 나은 결과가 나왔다. 다만 이 결과가 모델의 범용 성능 우위를 의미하진 않는다고 본인이 직접 선을 그었다.

  • 1

    20.9GB GGUF 양자화 Qwen3.6 모델이 맥북 로컬에서 Opus 4.7보다 나은 SVG 일러스트 생성

  • 2

    비밀 백업 테스트(플라밍고+유니사이클)에서도 Qwen 승리

  • 3

    펠리컨 벤치마크와 모델 범용 성능 간 상관관계가 이번에 깨짐

  • 4

    SVG 생성 능력이 모델 전체 유용성을 대변하지 않는다는 결론

  • 21GB짜리 로컬 모델이 최신 Opus를 이겼다 — 알리바바의 Qwen3.6-35B-A3B를 맥북 프로 M5에서 돌려서 "자전거 타는 펠리컨" SVG를 그렸더니, Anthropic의 최신 Claude Opus 4.7보다 더 나은 결과가 나옴

    • 사용한 모델은 Unsloth의 Q4_K_S 양자화 버전(20.9GB GGUF), LM Studio로 로컬 실행
    • Opus 4.7은 자전거 프레임을 망쳐버렸고, thinking_level: max로 재시도해도 별 차이 없었음
  • "혹시 Qwen이 치팅한 건 아닐까?" 하는 의심에 비밀 백업 테스트도 꺼냄

    • "유니사이클 타는 플라밍고" SVG를 시켜봤는데 여기서도 Qwen이 승리
    • Qwen 출력에 <!-- Sunglasses on flamingo! --> 같은 SVG 주석까지 들어가 있어서 센스도 챙김
    • Simon Willison 본인은 "랩들이 내 벤치마크를 학습했다"는 음모론에는 동의하지 않음
  • 이 벤치마크가 원래 의미하던 것 — "펠리컨 벤치마크"는 LLM 비교가 얼마나 우스꽝스러운지 보여주려고 만든 농담이었음

    • 그런데 묘하게도 2024년 10월 이후로 펠리컨 품질과 모델 범용 성능 사이에 상관관계가 있었음
    • Gemini 3.1 Pro는 실제로 쓸 만한 일러스트를 뽑아낼 정도로 발전
  • 이번에 그 상관관계가 깨졌다 — 21GB 양자화 모델이 최신 프로프라이어터리 모델보다 SVG를 잘 그린다고 해서, 그게 더 유용한 모델이란 뜻은 아님

    • Simon 본인도 "Qwen을 존경하지만, 이 양자화 버전이 Opus 4.7보다 강력하다고 생각하진 않는다"고 명확히 선 그음
    • 결론은 간단함 — 펠리컨 SVG가 필요하면 Qwen, 그 외에는 여전히 판단 보류

로컬에서 돌리는 소형 양자화 모델이 특정 태스크에서 대형 프로프라이어터리 모델을 이기는 사례가 점점 늘고 있어서, 용도별 모델 선택 전략이 더 중요해지고 있음을 보여주는 재미있는 케이스다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

10년 된 제온 서버로 젬마4 26B를 돌린 미친 로컬 추론기

글쓴이는 2016년형 Intel Xeon E5-2620 v4, DDR3 128GB, GPU 없는 서버에서 Gemma 4 26B-A4B 모델을 읽는 속도로 돌리는 설정을 공개했어. 핵심은 ik_llama.cpp의 투기적 디코딩, MoE 라우팅, 런타임 리패킹, CPU용 Flash Attention 같은 최적화를 끝까지 끌어낸 것임.

ai-ml

아이폰에서 도는 4B 이미지 생성 모델, Bonsai Image 4B 공개

PrismML이 로컬 기기용 이미지 생성 모델 Bonsai Image 4B를 공개했다. 1비트와 삼진 양자화 버전으로 나뉘며, 전체 정밀도 FLUX.2 Klein 4B 대비 메모리 사용량을 크게 줄여 아이폰에서도 512×512 이미지를 생성할 수 있게 만든 게 핵심이다.

ai-ml

젠슨 황 키노트에 네이버클라우드 등장, 엔비디아 AI 인프라 파트너로 부각

젠슨 황 엔비디아 최고경영자가 GTC 타이페이 2026 기조연설에서 네이버클라우드를 AI 네이티브 클라우드 주요 파트너로 소개했다. 하이퍼클로바X, 네이버 월드모델, AI 팩토리, 데이터센터 각까지 함께 언급되며 네이버의 AI 인프라 협력이 다시 주목받고 있다.

ai-ml

중국 AI, 한국 시장에 초저가로 진입…데이터 안보 리스크도 같이 커진다

미국 AI 기업이 선점한 한국 생성형 AI 시장에 미니맥스, 지푸AI 같은 중국 기업들이 가격과 콘텐츠 특화 기능을 앞세워 들어오고 있어. 토큰 비용은 미국 주요 모델 대비 최대 20분의 1 수준까지 내려가지만, 데이터 안보와 AI 공급망 종속 리스크도 같이 커진다는 게 핵심이야.

ai-ml

인텔, OpenVINO로 로봇용 피지컬 AI 배포 난이도 낮춘다

인텔이 컴퓨텍스 2026에 맞춰 OpenVINO 피지컬 AI 프레임워크와 로보틱스 AI 스위트 전략을 공개했어. 핵심은 로봇마다 따로 맞추던 센서, 추론, 제어 스택을 인텔 칩과 오픈소스 프레임워크 기반으로 단순화해 현장 배포를 쉽게 만들겠다는 거야.