본문으로 건너뛰기
피드

알리바바 Qwen 3.6 공개 — 35B 모델인데 추론은 3B만 쓴다

ai-ml 약 5분

알리바바가 오픈소스 AI 모델 Qwen 3.6-35B-A3B를 공개. MoE 구조로 총 350억 파라미터 중 연산에는 30억만 사용해 효율 중심 설계의 정점을 찍었고, 코딩·멀티모달·preserve_thinking 기능까지 붙여서 에이전트 시장까지 겨냥함.

  • 1

    총 35B / 활성 3B MoE 구조로 추론 비용 최소화

  • 2

    코딩 벤치마크에서 밀집형 Qwen3.5-27B 뛰어넘음, Gemma 31B와 비교 가능 수준

  • 3

    시각-언어 벤치마크에서 Claude Sonnet과 유사 수준, 일부 초과

  • 4

    preserve_thinking 기능으로 멀티턴 추론 맥락 유지 — 에이전트 작업 최적화

  • 5

    OpenAI·Anthropic API 규격과 호환, 허깅페이스·모델스코프 배포

  • 알리바바가 오픈소스 AI 모델 Qwen 3.6-35B-A3B 공개 — 350억 파라미터급이지만 실제 연산은 약 30억개만 사용
    • 희소 전문가 혼합(MoE) 구조 적용
    • 전체 파라미터 35B, 활성 파라미터 3B — 필요한 부분만 선택적으로 작동
    • AI 경쟁이 "규모 확장" → "효율 중심"으로 이동하는 흐름을 대표하는 사례
  • 성능은 오히려 올라감
    • 이전 모델 Qwen3.5-35B-A3B 대비 전반적으로 향상
    • 일부 코딩 벤치마크에선 밀집형(dense) 모델인 Qwen3.5-27B를 넘어섬
    • 구글 Gemma 31B와 비교 가능한 수준으로 평가

코딩 특화 — 에이전트형 작업까지

  • 단순 코드 생성이 아니라 문제 분할 + 다단계 수행에 강점
    • 코드 수정, 복잡한 로직, 장기 프로젝트 유지보수에서 안정적 성능
    • 반복 작업 줄이고 흐름 이어가는 개발 UX에 최적화
  • 개발 도구 생태계 호환성 좋음
    • 오픈클로, Claude Code, Qwen Code 등 주요 도구와 연동
    • 특정 플랫폼 lock-in 없이 여러 환경에서 사용 가능

멀티모달과 preserve_thinking

  • 이미지 + 텍스트 동시 이해 능력 강화
    • 시각-언어 벤치마크에서 앤트로픽 Claude Sonnet과 유사 수준, 일부 항목은 초과
    • UI 이미지·설계도 보고 코드 생성하는 시나리오에 바로 활용 가능
  • preserve_thinking 기능 새로 추가
    • 이전 대화의 추론 과정을 다음 턴에서도 이어받아 작업
    • 긴 작업·복잡한 프로젝트에서 맥락 끊김 방지 목적
    • 반복 설명 없이 이전 흐름 유지

💡

> API 규격이 OpenAI·Anthropic과 호환됨. 기존 코드에서 엔드포인트만 바꾸면 Qwen3.6으로 전환 가능. 허깅페이스·모델스코프에서 모델 직접 다운로드해 자체 서버 실행도 지원.


기술 맥락

MoE(Mixture of Experts)가 요즘 프론티어 모델의 사실상 표준이 된 이유가 Qwen 3.6에 딱 보여요. 35B 파라미터를 전부 로드해도 추론할 때 실제 계산에 참여하는 건 3B 정도만이라, 추론 비용이 3B 모델과 비슷한데 성능은 훨씬 큰 모델급으로 나오거든요. "라우터"가 입력마다 어떤 전문가(서브네트워크)를 켤지 결정하는 구조예요. 추론 비용 10배 줄이고 GPU 메모리 요구도 큰 폭으로 낮춰줘요.

preserve_thinking이 왜 에이전트 시장에서 중요하냐면, 요즘 코딩 에이전트는 한 작업이 수십~수백 턴에 걸쳐 이어지거든요. 매번 "아까 내가 뭘 생각했더라"를 다시 해야 하면 토큰도 비싸지고 논리도 흔들려요. 이걸 상태로 저장해서 이어갈 수 있게 만든 게 이 기능의 핵심이에요. Claude 3.7의 extended thinking, GPT o3의 reasoning 토큰과 같은 흐름이에요.

API 호환성 전략도 눈여겨볼 포인트예요. OpenAI 스펙을 그대로 받도록 만든 건, 기존 개발자가 임포트 한 줄만 바꿔도 이식이 되게 하려는 거예요. 이건 단순한 편의가 아니라 생태계 전쟁에서 "전환 비용 제로" 카드를 쥐는 전략이에요. 알리바바가 딥시크·큐웬 라인업으로 오픈소스 시장을 빠르게 잡으려는 움직임과 맞물려 있어요.

한국 개발자 입장에선 온프레미스·사내망 환경에서 돌릴 수 있는 고성능 코딩 모델 선택지가 늘어난 거예요. Claude API는 돈 많이 들고 해외 송신 걸리는 경우, Qwen 3.6을 자체 GPU 서버에 올려 쓰는 구성이 점점 현실적이 되어가고 있어요.

'규모 키우기' 대신 '효율+에이전트+호환성'이라는 세 축으로 움직이는 알리바바의 오픈소스 전략. 엔드포인트만 바꿔도 이식 가능한 API 호환성은 생태계 전환 비용을 제로에 가깝게 만드는 무기임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

구글 클라우드, 한국 3각 편대 공개 — 카뱅 전사 AI · CJ ENM · 메가존 파트너십

구글 클라우드가 넥스트 2026 직전 한국 협력 사례를 공개. 카카오뱅크는 전 임직원 1,800명 대상 제미나이 엔터프라이즈 전사 도입, CJ ENM은 Veo/Imagen으로 영상 제작 R&D, 메가존소프트는 전략적 파트너십(SPA) 체결. 금융·콘텐츠·파트너 3축으로 국내 에이전틱 AI 전환 본격화.

ai-ml

칭화대 교수가 만든 '즈푸AI' — 세계 최초 LLM 상장, GLM-4.7로 GPT에 도전

칭화대 교수 탕제가 창업한 중국 AI 스타트업 즈푸AI가 2026년 1월 홍콩 증시에 1,159대 1 경쟁률로 상장 — 세계 최초 LLM 순수 스타트업 상장 사례. GLM-4.7은 LiveCodeBench 84.9%, SWE-bench 73.8% 기록하며 Claude API 대비 10분의 1 가격으로 시장 재편을 시도 중.

ai-ml

리벨리온 '리벨100' 성능 공개 — H200급 연산, 전력은 3분의 1

한국 AI 반도체 스타트업 리벨리온이 차세대 NPU 리벨100의 성능을 공개했다. FP16 1페타플롭스로 엔비디아 H200과 사실상 동급이면서 전력은 1/3 수준. 삼성 144GB HBM3E와 UCIe 칩렛 구조를 채택했고 하반기 양산에 들어간다.

ai-ml

이커머스 출신이 만든 AI 마케팅 에이전트 '라이트하우스'…도메인 지식을 어떻게 LLM에 붙였나

마켓컬리·오늘의집 출신 강성주 대표의 라이트에이아이가 퍼포먼스 마케팅 데이터 해석과 크리에이티브 제안까지 원스톱으로 자동화하는 B2B AI 에이전트 '라이트하우스'를 공개했다. 이커머스 현장 지식을 범용 AI와 결합해 중소·중견 소비재 업체를 타겟으로 한다.

ai-ml

의료 AI가 쓴 퇴원 요약에 서명한 의사 — '정보 세탁' 구조와 거버넌스 설문조사

AI가 잘못된 의료 정보를 생성하고 의사가 서명해 공식 기록으로 세탁되는 구조를 서울아산병원 유소영 교수가 설문 108명 분석과 함께 해부했다. 직군별로 원인 진단·책임 귀속·대응 방향이 완전히 달랐고, 5개 집단이 각자 다른 해법을 우선순위로 꼽았다. 조율 없는 병렬 거버넌스가 제도적 공백을 만든다는 경고.