본문으로 건너뛰기
피드

애플, 아이폰용 시리에 제미나이를 넣으려다 결국 클라우드에 기대나

ai-ml 약 7분
vote
0
댓글
북마크

애플이 지연된 새 시리를 구글 제미나이 기반으로 다시 만들고 있지만, 아이폰 안에서만 돌리는 그림은 쉽지 않아 보임. 거대 모델을 작게 증류해 일부는 온디바이스로 처리하되, 복잡한 요청은 구글 클라우드와 엔비디아 기밀 컴퓨팅 인프라를 쓸 가능성이 크다는 내용임.

  • 1

    애플은 개인정보 보호를 내세워 로컬 인공지능 처리를 강조해왔지만, 새 시리는 온디바이스와 클라우드를 섞는 하이브리드 구조가 될 가능성이 큼

  • 2

    스마트폰 모델은 보통 수십억 파라미터 수준인데, 최신 제미나이 모델은 조 단위 파라미터라 성능 격차가 클 수밖에 없음

  • 3

    애플은 구글의 거대 제미나이를 증류해 작은 모델로 만들고, 어려운 작업은 엔비디아 기밀 컴퓨팅 기반 클라우드로 넘기려는 흐름임

  • 애플이 새 시리에 구글 제미나이를 넣으려는 작업을 진행 중인데, 핵심은 ‘아이폰 안에서 다 돌릴 수 있냐’임

    • 애플은 2024년부터 인공지능 강화 시리를 약속했지만 여러 차례 미뤘음
    • 이번 보도에 따르면 새 시리는 온디바이스 처리와 클라우드 처리를 섞는 구조가 될 가능성이 큼
    • 애플이 오래 밀어온 ‘개인정보 보호를 위해 기기 안에서 처리한다’는 메시지와는 살짝 불편한 방향임
  • 문제는 요즘 스마트폰 인공지능 홍보가 좀 과장돼 있다는 점임

    • 애플도 새 칩을 발표할 때마다 뉴럴 엔진(Neural Engine)을 강조하지만, 스마트폰이 거대 대화형 모델을 넉넉히 돌릴 수 있다는 뜻은 아님
    • 실제로 많은 폰에서는 인공지능 전용 신경망 처리 장치(NPU)보다 그래픽 처리 장치(GPU)가 더 많은 토큰을 처리할 때도 있음
    • 연산 성능만 문제가 아니라, 조 단위 파라미터 모델을 메모리에 올릴 만큼 램이 충분하지 않은 게 더 큰 벽임
  • 제미나이의 ‘진짜 큰 모델’과 폰에서 돌아가는 모델은 체급이 완전히 다름

    • 폰에서 돌아가는 모델은 많아야 수십억 파라미터 수준임
    • 반면 보도에 따르면 구글의 최신 제미나이 모델은 조 단위 파라미터 규모임
    • 폰용 모델은 보통 양자화(Quantization)까지 해서 낮은 정밀도로 돌리기 때문에 빠르고 가볍지만, 토큰 생성 정확도와 응답 품질은 손해를 봄

중요

> 애플이 원하는 건 ‘시리가 진짜 일을 처리하는 대화형 비서’인데, 그 정도 경험은 아직 스마트폰 로컬 모델만으로 만들기 어렵다는 게 이 기사의 핵심임.

  • 구글에도 이미 폰용 제미나이 나노(Gemini Nano)가 있지만, 시리용으로는 부족한 그림임

    • 제미나이 나노는 매직 큐(Magic Cue), 오디오 요약 같은 맥락 기반 기능에 맞춰진 모바일 최적화 모델임
    • 반면 시리는 사용자가 말하면 대화하고, 이해하고, 실제 동작까지 수행해야 하는 비서임
    • 안드로이드에서도 구글은 제미나이 대화 요청을 로컬로 처리하지 않고 클라우드로 보냄
  • 그래서 애플은 구글의 거대 제미나이를 작게 증류하는 쪽으로 움직이는 듯함

    • 모델 증류(Model Distillation)는 큰 모델의 동작을 작은 모델이 따라 하도록 학습시키는 방식임
    • 잘 되면 일부 기능은 아이폰 안에서 처리하고, 덜 중요한 가중치는 쳐내면서 모델을 줄일 수 있음
    • 다만 이런 방식으로도 복잡한 요청까지 전부 로컬 처리하기는 어려워서 클라우드 구성 요소는 거의 피하기 힘들어 보임
  • 애플 자체 클라우드도 만능은 아닌 듯함

    • 애플은 엠 시리즈 칩 기반의 프라이빗 클라우드 컴퓨트(Private Cloud Compute)를 만들어 개인정보 보호형 클라우드 처리를 강조해왔음
    • 하지만 보도에 따르면 애플은 증류되지 않은 거대 제미나이 모델을 이 인프라에서 돌리는 데도 어려움을 겪고 있음
    • 결국 더 똑똑한 시리 요청은 애플 클라우드가 아니라 구글 쪽 클라우드 인프라로 라우팅될 수 있다는 얘기가 나옴
  • 흥미로운 지점은 구글 텐서 처리 장치(TPU)가 아니라 엔비디아를 쓸 수 있다는 부분임

    • 애플은 엔비디아의 기밀 컴퓨팅(Confidential Computing) 플랫폼 사용 계약을 맺은 것으로 알려짐
    • 이 방식은 클라우드 그래픽 처리 장치(GPU)에서 데이터가 처리되는 동안에도 암호화 상태를 유지하는 쪽에 초점이 있음
    • 애플 입장에서는 클라우드를 쓰면서도 ‘사용자 개인정보를 신경 쓴다’는 메시지를 유지할 수 있는 카드임

ℹ️참고

> 사용자는 아마 어떤 시리 요청이 로컬에서 처리되고, 어떤 요청이 클라우드로 넘어가는지 직접 보지 못할 가능성이 큼. 제조사들은 이런 하이브리드 구조를 보통 ‘매끄러운 경험’으로 포장함.

  • 하지만 체감 단서는 있을 수 있음
    • 큰 모델은 토큰을 생성하는 동안 지연이 생기기 쉽고, 원격 서버 왕복까지 붙으면 더 느껴질 수 있음
    • 엔비디아의 완전 암호화 기밀 컴퓨팅도 일반 인공지능 처리보다 느려질 수 있음
    • 결국 시리가 갑자기 오래 생각한다면, 그 순간 아이폰 안이 아니라 멀리 있는 서버가 일하고 있을 가능성이 큼

기술 맥락

  • 애플이 고른 방향은 순수 온디바이스 인공지능이 아니라 하이브리드 처리에 가까워요. 사용자의 간단한 요청은 기기 안에서 처리하고, 더 복잡한 대화나 작업 수행은 클라우드로 넘기는 구조가 현실적인 선택이거든요.

  • 왜 이렇게 됐냐면 모델 크기 차이가 너무 커요. 아이폰에서 돌릴 수 있는 모델은 수십억 파라미터급으로 줄여야 하는데, 최신 제미나이는 조 단위 파라미터라 같은 품질을 기대하기가 어렵습니다.

  • 모델 증류와 양자화는 이 간극을 줄이기 위한 방법이에요. 큰 모델의 능력을 작은 모델에 옮기고 정밀도를 낮춰 실행 비용을 줄이지만, 그 과정에서 응답 품질이나 정확도 손실을 완전히 피하기는 힘들어요.

  • 엔비디아 기밀 컴퓨팅이 등장하는 이유는 개인정보 메시지 때문이에요. 애플은 클라우드로 보내는 순간 브랜드 약속이 약해질 수 있으니, 처리 중 데이터 암호화 같은 장치를 통해 ‘그래도 보호한다’는 근거를 마련해야 해요.

애플의 딜레마가 꽤 선명함. ‘개인정보는 기기 안에서’라는 브랜드 약속을 지키고 싶지만, 사용자가 기대하는 똑똑한 비서 경험은 아직 아이폰 칩과 메모리만으로 감당하기 빡센 상황임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

대학생들은 이미 챗지피티와 제미나이를 쪼개 쓰는 ‘AI 네이티브’가 됐다

이화여대 학생 설문과 인터뷰를 보면 생성형 AI는 과제 보조 도구를 넘어 학습, 글쓰기, 자료조사, 감정 상담까지 들어온 일상 인프라가 됐다. 학생들은 챗지피티, 제미나이, 클로드, 퍼플렉시티를 용도별로 나눠 쓰면서도 환각과 오류 때문에 교차검증이 필요하다고 보고 있다. 대학의 윤리 지침은 존재하지만 학생 체감은 낮고, 이제는 금지보다 활용 교육과 평가 방식 재설계가 핵심 이슈로 떠올랐다.

ai-ml

AI 에이전트 시대, 진짜 해자는 코딩 실력이 아니라 도메인 지식이다

이 글은 에이전트형 AI가 소프트웨어 개발의 병목을 “만들 수 있나”에서 “맞는지 판단할 수 있나”로 옮겼다고 주장한다. 일반ist 엔지니어의 코드 생산 능력보다, 특정 도메인의 정답을 알아보고 검증할 수 있는 사람이 더 큰 가치를 갖게 된다는 얘기다.

ai-ml

OpenRouter, 시리즈 B에서 1억1300만 달러 조달…멀티 모델 AI 인프라 판 커진다

OpenRouter가 알파벳 성장펀드 CapitalG 주도로 1억1300만 달러 규모 시리즈 B 투자를 받았다. 최근 6개월간 주간 처리량이 5조 토큰에서 25조 토큰으로 5배 늘었고, 올해 1천조 토큰 이상을 처리하는 속도로 성장 중이라고 밝혔다.

ai-ml

테슬라 FSD, 중국서 첫 집단 사기 소송 심리 시작

중국 베이징 법원이 테슬라의 풀 셀프 드라이빙 판매 약속을 둘러싼 소비자 사기 소송 첫 심리를 열었다. 원고 10명은 2019~2021년에 약 5만6천 위안을 내고 FSD를 샀지만, 실제 중국 출시 기능은 구형 하드웨어 차량을 배제했고 완전 자율주행도 제공하지 못했다고 주장한다. 중국 소비자보호법상 사기로 인정되면 환불뿐 아니라 3배 배상까지 이어질 수 있어 파장이 크다.

ai-ml

안도르 제작자, 1,500쪽 대본 공개 접은 이유는 “AI 학습 데이터 되기 싫어서”

스타워즈 드라마 안도르의 쇼러너 토니 길로이가 준비해둔 1,500쪽짜리 대본·콘셉트 아트 공개 계획을 접었다. 이유는 단순하다. 공개하는 순간 AI 모델 학습 데이터로 빨려 들어갈 수 있다는 우려 때문이다. 헐리우드 창작자와 스튜디오, AI 기업 사이의 저작권·학습 데이터 갈등이 다시 선명하게 드러난 사례다.