---
title: "알리바바 Qwen 3.6 공개 — 35B 모델인데 추론은 3B만 쓴다"
published: 2026-04-20T06:05:03.300Z
canonical: https://jeff.news/article/1826
---
# 알리바바 Qwen 3.6 공개 — 35B 모델인데 추론은 3B만 쓴다

알리바바가 오픈소스 AI 모델 Qwen 3.6-35B-A3B를 공개. MoE 구조로 총 350억 파라미터 중 연산에는 30억만 사용해 효율 중심 설계의 정점을 찍었고, 코딩·멀티모달·preserve_thinking 기능까지 붙여서 에이전트 시장까지 겨냥함.

- 알리바바가 오픈소스 AI 모델 **Qwen 3.6-35B-A3B** 공개 — 350억 파라미터급이지만 실제 연산은 약 30억개만 사용
  - **희소 전문가 혼합(MoE)** 구조 적용
  - 전체 파라미터 35B, 활성 파라미터 3B — 필요한 부분만 선택적으로 작동
  - AI 경쟁이 "규모 확장" → "효율 중심"으로 이동하는 흐름을 대표하는 사례
- 성능은 오히려 올라감
  - 이전 모델 Qwen3.5-35B-A3B 대비 전반적으로 향상
  - 일부 코딩 벤치마크에선 밀집형(dense) 모델인 Qwen3.5-27B를 넘어섬
  - 구글 Gemma 31B와 비교 가능한 수준으로 평가

### 코딩 특화 — 에이전트형 작업까지

- 단순 코드 생성이 아니라 **문제 분할 + 다단계 수행**에 강점
  - 코드 수정, 복잡한 로직, 장기 프로젝트 유지보수에서 안정적 성능
  - 반복 작업 줄이고 흐름 이어가는 개발 UX에 최적화
- 개발 도구 생태계 호환성 좋음
  - 오픈클로, Claude Code, Qwen Code 등 주요 도구와 연동
  - 특정 플랫폼 lock-in 없이 여러 환경에서 사용 가능

### 멀티모달과 preserve_thinking

- 이미지 + 텍스트 동시 이해 능력 강화
  - 시각-언어 벤치마크에서 앤트로픽 Claude Sonnet과 유사 수준, 일부 항목은 초과
  - UI 이미지·설계도 보고 코드 생성하는 시나리오에 바로 활용 가능
- **preserve_thinking** 기능 새로 추가
  - 이전 대화의 추론 과정을 다음 턴에서도 이어받아 작업
  - 긴 작업·복잡한 프로젝트에서 맥락 끊김 방지 목적
  - 반복 설명 없이 이전 흐름 유지

> [!TIP]
> API 규격이 OpenAI·Anthropic과 호환됨. 기존 코드에서 **엔드포인트만 바꾸면** Qwen3.6으로 전환 가능. 허깅페이스·모델스코프에서 모델 직접 다운로드해 자체 서버 실행도 지원.

---

## 기술 맥락

MoE(Mixture of Experts)가 요즘 프론티어 모델의 사실상 표준이 된 이유가 Qwen 3.6에 딱 보여요. 35B 파라미터를 전부 로드해도 추론할 때 실제 계산에 참여하는 건 3B 정도만이라, 추론 비용이 3B 모델과 비슷한데 성능은 훨씬 큰 모델급으로 나오거든요. "라우터"가 입력마다 어떤 전문가(서브네트워크)를 켤지 결정하는 구조예요. 추론 비용 10배 줄이고 GPU 메모리 요구도 큰 폭으로 낮춰줘요.

preserve_thinking이 왜 에이전트 시장에서 중요하냐면, 요즘 코딩 에이전트는 한 작업이 수십~수백 턴에 걸쳐 이어지거든요. 매번 "아까 내가 뭘 생각했더라"를 다시 해야 하면 토큰도 비싸지고 논리도 흔들려요. 이걸 상태로 저장해서 이어갈 수 있게 만든 게 이 기능의 핵심이에요. Claude 3.7의 extended thinking, GPT o3의 reasoning 토큰과 같은 흐름이에요.

API 호환성 전략도 눈여겨볼 포인트예요. OpenAI 스펙을 그대로 받도록 만든 건, 기존 개발자가 임포트 한 줄만 바꿔도 이식이 되게 하려는 거예요. 이건 단순한 편의가 아니라 생태계 전쟁에서 "전환 비용 제로" 카드를 쥐는 전략이에요. 알리바바가 딥시크·큐웬 라인업으로 오픈소스 시장을 빠르게 잡으려는 움직임과 맞물려 있어요.

한국 개발자 입장에선 온프레미스·사내망 환경에서 돌릴 수 있는 고성능 코딩 모델 선택지가 늘어난 거예요. Claude API는 돈 많이 들고 해외 송신 걸리는 경우, Qwen 3.6을 자체 GPU 서버에 올려 쓰는 구성이 점점 현실적이 되어가고 있어요.

## 핵심 포인트

- 총 35B / 활성 3B MoE 구조로 추론 비용 최소화
- 코딩 벤치마크에서 밀집형 Qwen3.5-27B 뛰어넘음, Gemma 31B와 비교 가능 수준
- 시각-언어 벤치마크에서 Claude Sonnet과 유사 수준, 일부 초과
- preserve_thinking 기능으로 멀티턴 추론 맥락 유지 — 에이전트 작업 최적화
- OpenAI·Anthropic API 규격과 호환, 허깅페이스·모델스코프 배포

## 인사이트

'규모 키우기' 대신 '효율+에이전트+호환성'이라는 세 축으로 움직이는 알리바바의 오픈소스 전략. 엔드포인트만 바꿔도 이식 가능한 API 호환성은 생태계 전환 비용을 제로에 가깝게 만드는 무기임.
