---
title: "메타, 초지능팀 첫 AI 모델 '뮤즈 스파크' 출시 — GPT-5.4·제미나이3.1급 성능"
published: 2026-04-08T19:05:04.524Z
canonical: https://jeff.news/article/1628
---
# 메타, 초지능팀 첫 AI 모델 '뮤즈 스파크' 출시 — GPT-5.4·제미나이3.1급 성능

메타초지능연구소(MSL)가 첫 AI 모델 '뮤즈 스파크'를 출시했음. 코드명 '아보카도'로 불렸던 이 모델은 GPT-5.4, 제미나이3.1 프로, 클로드 오퍼스4.6에 필적하는 벤치마크를 기록했고, 라마4 매버릭 대비 종합 점수가 18→52로 급상승함.

### 메타초지능연구소(MSL), 첫 AI 모델 '뮤즈 스파크' 출시

- 메타가 알렉산더 왕 CAIO가 이끄는 MSL에서 '뮤즈(Muse)' 시리즈 첫 모델 **뮤즈 스파크**를 공개함
  - 출시 전 코드명은 '아보카도'
  - "작고 빠르게 설계됐지만 과학·수학·보건 분야 복잡한 추론이 가능하다"는 게 메타의 설명
  - meta.ai 사이트와 앱에서 바로 이용 가능하고, 페이스북·인스타그램·스레드·와츠앱·AI 안경에도 적용 예정

### 벤치마크 성능 — 프론티어 모델급

- 아티피셜 애널리시스 기준 **종합 52점**으로 업계 4위
  - 제미나이3.1 프로 미리보기: 57점
  - GPT-5.4: 57점
  - 클로드 오퍼스 4.6: 53점
  - 라마4 매버릭(MSL 이전 모델)은 18점이었으니 **34점이나 뛴 셈**
- 개별 벤치마크도 경쟁 모델에 근접하거나 상회함
  - CharXiv Reasoning(차트 이해): **86.4%** — 비교군 중 최고
  - MMMU 프로(멀티모달): **80.4%** — 경쟁작과 유사
  - SWE-벤치 베리파이드(코딩): **77.4%** — 살짝 뒤처지지만 큰 차이 없음
  - SWE-벤치 프로(코딩): **52.4%** — 마찬가지

> [!note] 라마4 매버릭 18점 → 뮤즈 스파크 52점
> MSL 구성 전후로 종합 점수가 거의 3배 뛰었음. 알렉산더 왕 영입에 143억 달러(약 21조원)를 쏟아부은 결과가 숫자로 나온 셈.

### 심사숙고(Contemplating) 모드

- 복잡한 문제 처리를 위해 **여러 에이전트가 동시에 추론**하는 모드를 도입함
  - 제미나이3.1 딥싱크, GPT-5.4 프로 같은 고성능 추론 전용 모델과 경쟁하겠다는 포지셔닝
- HLE(인류의 마지막 시험) 벤치마크에서 **50.2%** 기록
  - 제미나이3.1 딥싱크(48.4%)보다 높음
  - 클로드 미토스 미리보기(56.8%)와는 아직 격차 존재

### 안전성 평가

- 생물학 무기 관련 고위험 요구 거절 비율이 **98%**로 최고 수준
  - 클로드 오퍼스: 95.4%
  - GPT: 74.7%
  - 제미나이: 61.5%

### 오픈소스에서 폐쇄형으로 전환

- 라마 시리즈는 오픈소스였지만, **뮤즈 시리즈는 폐쇄형**으로 출시함
  - 향후 버전에서 개방형 전환을 검토하겠다고는 밝힘
  - 라마 시리즈가 기대에 못 미치는 평가를 받은 게 전략 변화의 배경인 듯

> [!tip] 메타의 전략 전환 포인트
> 오픈소스 챔피언을 자처하던 메타가 뮤즈 시리즈를 폐쇄형으로 내놓은 건 꽤 상징적임. 143억 달러를 투자한 만큼 수익화 압박이 커진 것도 있고, 오픈소스로는 프론티어 성능 경쟁에서 한계가 있다는 판단이 깔린 것으로 보임.

## 핵심 포인트

- 뮤즈 스파크 종합 점수 52점으로 GPT-5.4(57), 클로드 오퍼스4.6(53)에 근접
- 심사숙고 모드 도입으로 HLE 50.2% 기록, 제미나이 딥싱크(48.4%) 상회
- 라마 시리즈와 달리 폐쇄형 모델로 출시, 향후 개방형 전환 검토
- 알렉산더 왕 영입에 143억 달러(약 21조원) 투자

## 인사이트

메타가 오픈소스 전략에서 폐쇄형으로 선회한 건 꽤 의미심장함. 라마 시리즈의 부진이 결국 '돈을 태워서라도 성능을 잡자'는 전략 변화로 이어진 셈.
