---
title: "틱톡이 말하는 AI 실전 운영: 큰 모델보다 최적화가 진짜 승부처"
published: 2026-07-03T11:05:02.989Z
canonical: https://jeff.news/article/4595
---
# 틱톡이 말하는 AI 실전 운영: 큰 모델보다 최적화가 진짜 승부처

틱톡은 범용 AI 모델은 출발점일 뿐이고, 실제 서비스에서는 도메인 최적화와 운영 개선이 경쟁력을 가른다고 봤다. 교사 모델과 학생 모델 구조, 양자화, 지식 증류, 온라인 A/B 테스트 같은 실전 운영 기법이 핵심으로 제시됐다.

## 범용 모델은 출발점일 뿐이라는 얘기

- 틱톡은 AI 경쟁의 핵심이 ‘누가 더 큰 모델을 갖고 있냐’가 아니라, 그 모델을 실제 서비스에 맞게 얼마나 잘 최적화하느냐라고 봄
  - 칸찬 사르카르 틱톡 엔지니어링 매니저가 서울 코엑스에서 열린 메타콘 2026에서 밝힌 내용임
  - 발표 주제는 틱톡이 AI 시대의 시장을 어떻게 움직이는가였고, 핵심 메시지는 꽤 현실적이었음

- 연구용 모델과 서비스용 모델은 목표가 다름
  - 연구 모델은 보통 정확도 최대화가 목표지만, 서비스에서는 초당 수천 건의 요청(QPS), 지연시간, 비용, 적대적 공격, 도메인 특화 문제까지 같이 봐야 함
  - 공개 모델이나 범용 모델을 그대로 붙이면 기대한 성능이 안 나오는 경우가 많고, 결국 서비스 환경에 맞춘 최적화가 필요하다는 얘기임

> [!IMPORTANT]
> 틱톡이 강조한 포인트는 단순함. 좋은 모델을 고르는 것보다, 그 모델을 실제 사용자 트래픽에서 싸고 빠르고 안정적으로 굴리는 능력이 더 중요하다는 것임.

## 교사 모델과 학생 모델로 비용을 줄이는 방식

- 틱톡은 대형 교사(Teacher) 모델과 경량 학생(Student) 모델 구조를 활용한다고 설명함
  - 교사 모델은 실제 환경을 더 정확하게 이해하지만 느리고 비쌈
  - 학생 모델은 교사 모델이 배운 지식을 넘겨받아 실제 서비스에 투입되는 쪽에 가까움

- 이 구조를 쓰면 운영 비용 차이가 꽤 크게 남
  - 범용 모델을 교사 모델로 활용한 뒤, 특징 증류(Feature Distillation), 소프트 러닝(Soft Learning), 작업별 미세조정(Task-specific Fine-tuning)을 거쳐 학생 모델을 만듦
  - 사르카르에 따르면 학생 모델은 교사 모델 수준에 가까운 성능을 내면서도 실제 서비스에서는 약 10~15배 저렴하게 운영할 수 있음

- 오픈소스 모델이든 폐쇄형 모델이든 그대로는 부족하다는 입장도 분명히 함
  - 산업과 서비스에 맞는 도메인 특화 작업이 필요하고, 파인튜닝, 강화학습, 검색증강생성(RAG) 같은 방식으로 서비스 품질을 맞춰야 한다는 것
  - 텍스트, 음성, 이미지 중 어떤 모달리티를 쓸지도 과제마다 달라짐

```mermaid
sequenceDiagram
    participant 범용모델 as 범용 모델
    participant 교사모델 as 교사 모델
    participant 학생모델 as 학생 모델
    participant 서비스 as 실제 서비스
    participant 사용자 as 사용자 트래픽
    범용모델->>교사모델: 서비스 과제에 맞게 기준 모델 구성
    교사모델->>학생모델: 지식 증류와 작업별 미세조정
    학생모델->>서비스: 저비용 추론 모델로 배포
    사용자->>서비스: 실제 요청 유입
    서비스->>서비스: 지연시간과 비용 측정
    서비스->>학생모델: A/B 테스트 결과로 개선
```

## 공개 벤치마크보다 실제 트래픽이 더 중요함

- 틱톡은 인프라 제약도 모델 설계의 일부로 봄
  - 모델 압축(Model Compression), 지식 증류, 하드웨어 가속(Hardware Acceleration)을 함께 고려해야 함
  - GPU 비용, 지연시간, 처리량을 무시한 모델은 서비스에 올리기 어렵다는 현실론임

- 특히 공개 데이터셋 점수만 믿으면 위험하다고 봄
  - 사르카르는 “온라인 테스트만이 유일한 검증 방법”이라고까지 말함
  - 공개 데이터셋에서 좋아 보여도 실제 사용자 행동, 도메인 데이터, 공격 패턴이 들어오면 결과가 달라질 수 있어서 A/B 테스트가 필수라는 것

## 아직 남은 숙제도 많음

- 틱톡은 앞으로 AI 서비스가 풀어야 할 과제로 여섯 가지를 제시함
  - 지속 학습(Continual Learning): 사용자 행동과 서비스 환경이 계속 변하니 모델도 계속 업데이트돼야 함
  - 장문 맥락 이해(Long Context Vision): 긴 영상이나 장문 문서를 제대로 처리해야 함
  - 논리적 추론(Logical Reasoning): 환각과 부정확한 판단을 줄여야 함
  - 에이전트 AI 확장성: 여러 에이전트가 협업하는 시스템을 안정적으로 굴려야 함
  - 설계 단계부터 규제 준수(Compliance by Design): 국가별 AI 규제에 대응해야 함
  - 멀티모달 추론(Multimodal Reasoning): 공간과 시간 정보까지 함께 이해해야 함

- 결국 틱톡의 메시지는 ‘AI 모델 도입’보다 ‘AI 운영 체계’가 중요하다는 쪽에 가까움
  - 모델 선택, 경량화, 배포, 모니터링, 온라인 검증, 규제 대응까지 이어지는 전체 파이프라인이 경쟁력이라는 얘기임
  - 대규모 서비스를 운영하는 팀이라면 꽤 뼈아프게 들릴 만한 포인트임

---

## 기술 맥락

- 틱톡이 교사 모델과 학생 모델을 나눠 쓰는 이유는 대형 모델을 그대로 서비스에 올리면 비용과 지연시간이 너무 커지기 때문이에요. 특히 틱톡처럼 요청량이 큰 서비스에서는 모델 정확도만 좋아서는 부족하고, 초당 요청 수와 응답 시간을 같이 맞춰야 하거든요.

- 지식 증류는 여기서 현실적인 타협점이에요. 교사 모델이 더 풍부한 판단을 만들고, 학생 모델은 그 판단 방식을 배워서 훨씬 싼 비용으로 비슷한 결과를 내는 구조예요. 발표에서 나온 10~15배 비용 절감도 이 맥락에서 나온 수치예요.

- 양자화와 모델 압축도 같은 방향의 선택이에요. 모델을 작게 만들면 GPU 메모리를 덜 쓰고 추론 속도도 빨라지지만, 정확도가 떨어질 수 있어서 실제 트래픽으로 검증해야 해요. 그래서 공개 벤치마크보다 A/B 테스트가 더 중요하다는 말이 나오는 거예요.

- RAG나 파인튜닝을 같이 언급한 것도 범용 모델이 서비스 도메인의 맥락을 자동으로 이해하지 못하기 때문이에요. 쇼트폼 영상, 광고, 추천, 안전성 같은 문제는 데이터와 사용자 행동이 특수해서 서비스별 보정이 필요해요.

## 핵심 포인트

- 범용 모델 하나로 모든 서비스 문제를 해결하려는 접근에는 한계가 있음
- 틱톡은 교사 모델의 지식을 경량 학생 모델로 옮겨 운영 비용을 약 10~15배 낮추는 방식을 활용함
- 공개 데이터셋 성능보다 실제 트래픽에서의 온라인 테스트와 A/B 테스트가 더 중요하다고 강조함
- 지속 학습, 장문 맥락 이해, 논리 추론, 에이전트 확장성, 규제 준수, 멀티모달 추론이 남은 과제로 제시됨

## 인사이트

요즘 AI 서비스의 병목은 모델을 ‘가지고 있느냐’보다 그걸 싸고 빠르게, 그리고 서비스 맥락에 맞게 굴릴 수 있느냐로 옮겨가고 있음. 틱톡 사례는 대규모 사용자 서비스를 운영하는 팀이 왜 모델 선택보다 추론 비용, 지연시간, A/B 테스트를 더 집요하게 보는지 잘 보여줌.
