---
title: "애플, 아이폰용 시리에 제미나이를 넣으려다 결국 클라우드에 기대나"
published: 2026-05-28T22:23:42.000Z
canonical: https://jeff.news/article/3495
---
# 애플, 아이폰용 시리에 제미나이를 넣으려다 결국 클라우드에 기대나

애플이 지연된 새 시리를 구글 제미나이 기반으로 다시 만들고 있지만, 아이폰 안에서만 돌리는 그림은 쉽지 않아 보임. 거대 모델을 작게 증류해 일부는 온디바이스로 처리하되, 복잡한 요청은 구글 클라우드와 엔비디아 기밀 컴퓨팅 인프라를 쓸 가능성이 크다는 내용임.

- 애플이 새 시리에 구글 제미나이를 넣으려는 작업을 진행 중인데, 핵심은 ‘아이폰 안에서 다 돌릴 수 있냐’임
  - 애플은 2024년부터 인공지능 강화 시리를 약속했지만 여러 차례 미뤘음
  - 이번 보도에 따르면 새 시리는 온디바이스 처리와 클라우드 처리를 섞는 구조가 될 가능성이 큼
  - 애플이 오래 밀어온 ‘개인정보 보호를 위해 기기 안에서 처리한다’는 메시지와는 살짝 불편한 방향임

- 문제는 요즘 스마트폰 인공지능 홍보가 좀 과장돼 있다는 점임
  - 애플도 새 칩을 발표할 때마다 뉴럴 엔진(Neural Engine)을 강조하지만, 스마트폰이 거대 대화형 모델을 넉넉히 돌릴 수 있다는 뜻은 아님
  - 실제로 많은 폰에서는 인공지능 전용 신경망 처리 장치(NPU)보다 그래픽 처리 장치(GPU)가 더 많은 토큰을 처리할 때도 있음
  - 연산 성능만 문제가 아니라, 조 단위 파라미터 모델을 메모리에 올릴 만큼 램이 충분하지 않은 게 더 큰 벽임

- 제미나이의 ‘진짜 큰 모델’과 폰에서 돌아가는 모델은 체급이 완전히 다름
  - 폰에서 돌아가는 모델은 많아야 수십억 파라미터 수준임
  - 반면 보도에 따르면 구글의 최신 제미나이 모델은 조 단위 파라미터 규모임
  - 폰용 모델은 보통 양자화(Quantization)까지 해서 낮은 정밀도로 돌리기 때문에 빠르고 가볍지만, 토큰 생성 정확도와 응답 품질은 손해를 봄

> [!IMPORTANT]
> 애플이 원하는 건 ‘시리가 진짜 일을 처리하는 대화형 비서’인데, 그 정도 경험은 아직 스마트폰 로컬 모델만으로 만들기 어렵다는 게 이 기사의 핵심임.

- 구글에도 이미 폰용 제미나이 나노(Gemini Nano)가 있지만, 시리용으로는 부족한 그림임
  - 제미나이 나노는 매직 큐(Magic Cue), 오디오 요약 같은 맥락 기반 기능에 맞춰진 모바일 최적화 모델임
  - 반면 시리는 사용자가 말하면 대화하고, 이해하고, 실제 동작까지 수행해야 하는 비서임
  - 안드로이드에서도 구글은 제미나이 대화 요청을 로컬로 처리하지 않고 클라우드로 보냄

- 그래서 애플은 구글의 거대 제미나이를 작게 증류하는 쪽으로 움직이는 듯함
  - 모델 증류(Model Distillation)는 큰 모델의 동작을 작은 모델이 따라 하도록 학습시키는 방식임
  - 잘 되면 일부 기능은 아이폰 안에서 처리하고, 덜 중요한 가중치는 쳐내면서 모델을 줄일 수 있음
  - 다만 이런 방식으로도 복잡한 요청까지 전부 로컬 처리하기는 어려워서 클라우드 구성 요소는 거의 피하기 힘들어 보임

- 애플 자체 클라우드도 만능은 아닌 듯함
  - 애플은 엠 시리즈 칩 기반의 프라이빗 클라우드 컴퓨트(Private Cloud Compute)를 만들어 개인정보 보호형 클라우드 처리를 강조해왔음
  - 하지만 보도에 따르면 애플은 증류되지 않은 거대 제미나이 모델을 이 인프라에서 돌리는 데도 어려움을 겪고 있음
  - 결국 더 똑똑한 시리 요청은 애플 클라우드가 아니라 구글 쪽 클라우드 인프라로 라우팅될 수 있다는 얘기가 나옴

- 흥미로운 지점은 구글 텐서 처리 장치(TPU)가 아니라 엔비디아를 쓸 수 있다는 부분임
  - 애플은 엔비디아의 기밀 컴퓨팅(Confidential Computing) 플랫폼 사용 계약을 맺은 것으로 알려짐
  - 이 방식은 클라우드 그래픽 처리 장치(GPU)에서 데이터가 처리되는 동안에도 암호화 상태를 유지하는 쪽에 초점이 있음
  - 애플 입장에서는 클라우드를 쓰면서도 ‘사용자 개인정보를 신경 쓴다’는 메시지를 유지할 수 있는 카드임

> [!NOTE]
> 사용자는 아마 어떤 시리 요청이 로컬에서 처리되고, 어떤 요청이 클라우드로 넘어가는지 직접 보지 못할 가능성이 큼. 제조사들은 이런 하이브리드 구조를 보통 ‘매끄러운 경험’으로 포장함.

- 하지만 체감 단서는 있을 수 있음
  - 큰 모델은 토큰을 생성하는 동안 지연이 생기기 쉽고, 원격 서버 왕복까지 붙으면 더 느껴질 수 있음
  - 엔비디아의 완전 암호화 기밀 컴퓨팅도 일반 인공지능 처리보다 느려질 수 있음
  - 결국 시리가 갑자기 오래 생각한다면, 그 순간 아이폰 안이 아니라 멀리 있는 서버가 일하고 있을 가능성이 큼

---

## 기술 맥락

- 애플이 고른 방향은 순수 온디바이스 인공지능이 아니라 하이브리드 처리에 가까워요. 사용자의 간단한 요청은 기기 안에서 처리하고, 더 복잡한 대화나 작업 수행은 클라우드로 넘기는 구조가 현실적인 선택이거든요.

- 왜 이렇게 됐냐면 모델 크기 차이가 너무 커요. 아이폰에서 돌릴 수 있는 모델은 수십억 파라미터급으로 줄여야 하는데, 최신 제미나이는 조 단위 파라미터라 같은 품질을 기대하기가 어렵습니다.

- 모델 증류와 양자화는 이 간극을 줄이기 위한 방법이에요. 큰 모델의 능력을 작은 모델에 옮기고 정밀도를 낮춰 실행 비용을 줄이지만, 그 과정에서 응답 품질이나 정확도 손실을 완전히 피하기는 힘들어요.

- 엔비디아 기밀 컴퓨팅이 등장하는 이유는 개인정보 메시지 때문이에요. 애플은 클라우드로 보내는 순간 브랜드 약속이 약해질 수 있으니, 처리 중 데이터 암호화 같은 장치를 통해 ‘그래도 보호한다’는 근거를 마련해야 해요.

## 핵심 포인트

- 애플은 개인정보 보호를 내세워 로컬 인공지능 처리를 강조해왔지만, 새 시리는 온디바이스와 클라우드를 섞는 하이브리드 구조가 될 가능성이 큼
- 스마트폰 모델은 보통 수십억 파라미터 수준인데, 최신 제미나이 모델은 조 단위 파라미터라 성능 격차가 클 수밖에 없음
- 애플은 구글의 거대 제미나이를 증류해 작은 모델로 만들고, 어려운 작업은 엔비디아 기밀 컴퓨팅 기반 클라우드로 넘기려는 흐름임

## 인사이트

애플의 딜레마가 꽤 선명함. ‘개인정보는 기기 안에서’라는 브랜드 약속을 지키고 싶지만, 사용자가 기대하는 똑똑한 비서 경험은 아직 아이폰 칩과 메모리만으로 감당하기 빡센 상황임.
