알리바바 Qwen 3.6 공개 — 35B 모델인데 추론은 3B만 쓴다

ai-ml 2026-04-20 약 5분

 tags

#qwen #alibaba #moe #open-source #llm

vote

북마크

알리바바가 오픈소스 AI 모델 Qwen 3.6-35B-A3B를 공개. MoE 구조로 총 350억 파라미터 중 연산에는 30억만 사용해 효율 중심 설계의 정점을 찍었고, 코딩·멀티모달·preserve_thinking 기능까지 붙여서 에이전트 시장까지 겨냥함.

1
총 35B / 활성 3B MoE 구조로 추론 비용 최소화
2
코딩 벤치마크에서 밀집형 Qwen3.5-27B 뛰어넘음, Gemma 31B와 비교 가능 수준
3
시각-언어 벤치마크에서 Claude Sonnet과 유사 수준, 일부 초과
4
preserve_thinking 기능으로 멀티턴 추론 맥락 유지 — 에이전트 작업 최적화
5
OpenAI·Anthropic API 규격과 호환, 허깅페이스·모델스코프 배포

알리바바가 오픈소스 AI 모델 Qwen 3.6-35B-A3B 공개 — 350억 파라미터급이지만 실제 연산은 약 30억개만 사용
- 희소 전문가 혼합(MoE) 구조 적용
- 전체 파라미터 35B, 활성 파라미터 3B — 필요한 부분만 선택적으로 작동
- AI 경쟁이 "규모 확장" → "효율 중심"으로 이동하는 흐름을 대표하는 사례
성능은 오히려 올라감
- 이전 모델 Qwen3.5-35B-A3B 대비 전반적으로 향상
- 일부 코딩 벤치마크에선 밀집형(dense) 모델인 Qwen3.5-27B를 넘어섬
- 구글 Gemma 31B와 비교 가능한 수준으로 평가

코딩 특화 — 에이전트형 작업까지

단순 코드 생성이 아니라 문제 분할 + 다단계 수행에 강점
- 코드 수정, 복잡한 로직, 장기 프로젝트 유지보수에서 안정적 성능
- 반복 작업 줄이고 흐름 이어가는 개발 UX에 최적화
개발 도구 생태계 호환성 좋음
- 오픈클로, Claude Code, Qwen Code 등 주요 도구와 연동
- 특정 플랫폼 lock-in 없이 여러 환경에서 사용 가능

멀티모달과 preserve_thinking

이미지 + 텍스트 동시 이해 능력 강화
- 시각-언어 벤치마크에서 앤트로픽 Claude Sonnet과 유사 수준, 일부 항목은 초과
- UI 이미지·설계도 보고 코드 생성하는 시나리오에 바로 활용 가능
preserve_thinking 기능 새로 추가
- 이전 대화의 추론 과정을 다음 턴에서도 이어받아 작업
- 긴 작업·복잡한 프로젝트에서 맥락 끊김 방지 목적
- 반복 설명 없이 이전 흐름 유지

💡팁

> API 규격이 OpenAI·Anthropic과 호환됨. 기존 코드에서 엔드포인트만 바꾸면 Qwen3.6으로 전환 가능. 허깅페이스·모델스코프에서 모델 직접 다운로드해 자체 서버 실행도 지원.

기술 맥락

MoE(Mixture of Experts)가 요즘 프론티어 모델의 사실상 표준이 된 이유가 Qwen 3.6에 딱 보여요. 35B 파라미터를 전부 로드해도 추론할 때 실제 계산에 참여하는 건 3B 정도만이라, 추론 비용이 3B 모델과 비슷한데 성능은 훨씬 큰 모델급으로 나오거든요. "라우터"가 입력마다 어떤 전문가(서브네트워크)를 켤지 결정하는 구조예요. 추론 비용 10배 줄이고 GPU 메모리 요구도 큰 폭으로 낮춰줘요.

preserve_thinking이 왜 에이전트 시장에서 중요하냐면, 요즘 코딩 에이전트는 한 작업이 수십~수백 턴에 걸쳐 이어지거든요. 매번 "아까 내가 뭘 생각했더라"를 다시 해야 하면 토큰도 비싸지고 논리도 흔들려요. 이걸 상태로 저장해서 이어갈 수 있게 만든 게 이 기능의 핵심이에요. Claude 3.7의 extended thinking, GPT o3의 reasoning 토큰과 같은 흐름이에요.

API 호환성 전략도 눈여겨볼 포인트예요. OpenAI 스펙을 그대로 받도록 만든 건, 기존 개발자가 임포트 한 줄만 바꿔도 이식이 되게 하려는 거예요. 이건 단순한 편의가 아니라 생태계 전쟁에서 "전환 비용 제로" 카드를 쥐는 전략이에요. 알리바바가 딥시크·큐웬 라인업으로 오픈소스 시장을 빠르게 잡으려는 움직임과 맞물려 있어요.

한국 개발자 입장에선 온프레미스·사내망 환경에서 돌릴 수 있는 고성능 코딩 모델 선택지가 늘어난 거예요. Claude API는 돈 많이 들고 해외 송신 걸리는 경우, Qwen 3.6을 자체 GPU 서버에 올려 쓰는 구성이 점점 현실적이 되어가고 있어요.

'규모 키우기' 대신 '효율+에이전트+호환성'이라는 세 축으로 움직이는 알리바바의 오픈소스 전략. 엔드포인트만 바꿔도 이식 가능한 API 호환성은 생태계 전환 비용을 제로에 가깝게 만드는 무기임.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-06-03

테드 창이 말하는 'AI는 의식이 없다'는 꽤 센 반박

테드 창은 Anthropic이 Claude를 의식이나 도덕적 주체처럼 다루는 방식이 기술적으로도, 윤리적으로도 잘못됐다고 비판한다. LLM은 대화하는 존재가 아니라 문장을 이어 쓰는 기계이며, 여기에 의식·감정·도덕 판단을 붙이면 책임 소재가 기업과 사용자에게서 엉뚱한 곳으로 흘러간다는 주장이다.

ai-ml 2026-06-03

LLM은 결국 가중치로 만들어졌다는 불편한 농담

테리 비슨의 유명한 SF 단편을 패러디해, 대규모 언어 모델(LLM)을 '생각하는 가중치'로 묘사한 풍자 글이다. 모델의 언어, 지식, 추론, 기억이 모두 행렬 곱셈과 가중치에서 나온다는 사실을 블랙코미디처럼 밀어붙이면서, 우리가 챗봇에 감정과 의도를 투사하는 방식을 찌른다.

ai-ml 2026-06-04

동아대와 메가존클라우드, 양자컴퓨팅·양자 머신러닝 단기 특강 연다

동아대 G-LAMP 연구소가 메가존클라우드와 함께 6월 29일부터 30일까지 양자컴퓨팅 단기 특강을 연다. 큐비트와 게이트 기초부터 AWS 브래킷 실습, 그로버·쇼어 알고리즘, 양자 머신러닝까지 이틀 안에 다루는 집중 과정이다.

ai-ml 2026-06-04

기업 AI 에이전트가 너무 많아질 때, 답은 ‘오케스트레이션 레이어’라는 주장

엠클라우드브리지는 기업 내 AI 도구가 부서별로 따로 도입되며 생기는 ‘AI 사일로’를 문제로 짚고, 이를 묶는 중간 오케스트레이션 레이어를 제안한다. Ai 365는 MS 365·애저·패브릭 위에서 지식·데이터·업무·보안 에이전트를 통합 운영하는 엔터프라이즈 AI 플랫폼이다.

ai-ml 2026-06-04

요기요, 제미나이 엔터프라이즈로 사내 AI 해커톤 열고 실제 서비스 적용 추진

메가존소프트와 구글클라우드가 요기요의 첫 사내 AI 해커톤을 기술 지원했다. 43개 팀이 57개 아이디어를 냈고, 대상은 메뉴 개선과 이미지 최적화를 제안한 ‘AI 메뉴 비서’가 받았다.

알리바바 Qwen 3.6 공개 — 35B 모델인데 추론은 3B만 쓴다

요약

핵심 포인트

핵심 개념

분석

코딩 특화 — 에이전트형 작업까지

멀티모달과 preserve_thinking

기술 맥락

인사이트

댓글

댓글

알리바바 Qwen 3.6 공개 — 35B 모델인데 추론은 3B만 쓴다

요약

핵심 포인트

핵심 개념

분석

코딩 특화 — 에이전트형 작업까지

멀티모달과 preserve_thinking

기술 맥락

인사이트

댓글

댓글

관련 기사