---
title: "바이트댄스, AI 에이전트가 배포 뒤에도 똑똑해지는 ‘확장 법칙’ 주장"
published: 2026-07-04T20:50:01.500Z
canonical: https://jeff.news/article/4611
---
# 바이트댄스, AI 에이전트가 배포 뒤에도 똑똑해지는 ‘확장 법칙’ 주장

바이트댄스 시드 AI 팀이 AI 에이전트가 실제 업무 환경에서 장기간 상호작용할수록 성능이 예측 가능한 곡선으로 좋아진다는 연구를 내놨다. 연구진은 134개 장기 과제와 3만8000시간 규모의 상호작용 데이터를 분석했고, 배포 후 학습이 사전 학습 이후의 새 스케일링 축이 될 수 있다고 주장했다.

## 사전 학습만으로는 슬슬 한계가 보인다는 문제의식

- 바이트댄스 산하 시드 AI 팀이 AI 에이전트의 ‘배포 후 학습’에도 스케일링 법칙이 있다는 연구를 발표함
  - 기존 스케일링 법칙은 더 많은 데이터와 연산량을 사전 학습에 때려 넣으면 성능이 좋아진다는 쪽에 가까웠음
  - 이번 연구는 모델이 실제 업무 환경에 투입된 뒤, 환경과 오래 상호작용하면서 성능이 좋아지는 패턴을 수학적으로 모델링했다는 게 포인트임

- 배경에는 꽤 현실적인 병목이 있음. 고품질 인간 생성 텍스트 데이터가 무한하지 않다는 것
  - 기사에서는 에포크 AI 분석을 인용해 고품질 텍스트 데이터가 향후 6년 안에 바닥날 수 있다고 설명함
  - 안드레이 카파티 같은 연구자들도 “데이터와 컴퓨팅만 더 넣는 사전 학습 방식이 영원할 수 없다”는 식의 경고를 해왔음

> [!IMPORTANT]
> 핵심은 “모델을 더 크게 만들자”가 아니라 “배포된 에이전트가 실제 일을 하면서 더 똑똑해질 수 있느냐”임. 이게 맞다면 기업용 AI의 경쟁력은 학습 데이터보다 운영 환경과 피드백 루프에서 갈릴 수 있음.

## 바이트댄스가 본 건 ‘장기 업무를 버티는 에이전트’임

- 연구진은 엣지벤치라는 독자 벤치마크를 만들어 AI 에이전트의 장기 수행 능력을 봤다고 밝힘
  - 과제는 총 134개고, 각각 최소 12시간 이상의 연속 운영이 필요한 초장기 작업으로 구성됨
  - 분야는 소프트웨어 공학, 과학적 발견, 형식 수학, 전문 지식 작업 등이 포함됨

- 분석 규모도 기사 기준으로는 꽤 큼. 총 3만8000시간의 실제 환경 상호작용 데이터를 계산했다고 함
  - 대상 모델에는 클로드 오푸스 4.8, 지피티 5.5, 지피티 5.4가 포함됨
  - 중국 쪽 모델로는 지푸 AI와 딥시크의 최신 모델도 포함됐다고 소개됨

- 결론은 꽤 센 편임. 에이전트가 실제 업무 현장에서 인간 대신 작업을 수행하면, 지속적인 환경 상호작용을 통해 3개월마다 학습 속도를 2배로 끌어올릴 수 있다는 주장임
  - 단순히 “좋아졌다”가 아니라 예측 가능한 성과 향상 곡선이 관찰됐다는 식으로 설명됨
  - 연구진은 배포 후 학습도 사전 학습처럼 체계적인 투자와 스케일링 관심을 받을 자격이 있다고 주장함

```mermaid
sequenceDiagram
    participant 기업환경 as 기업 업무 환경
    participant 에이전트 as AI 에이전트
    participant 피드백 as 환경 피드백
    participant 벤치마크 as 엣지벤치
    participant 연구팀 as 시드 AI 연구팀
    기업환경->>에이전트: 장기 업무 투입
    에이전트->>피드백: 실행 결과와 오류 축적
    피드백->>에이전트: 다음 작업 전략에 반영
    에이전트->>벤치마크: 134개 장기 과제 수행
    벤치마크->>연구팀: 3만8000시간 상호작용 데이터 제공
    연구팀->>연구팀: 성능 향상 곡선 모델링
```

## 이게 맞다면 기업용 AI의 무게중심이 바뀜

- 지금까지 많은 기업은 “어떤 모델을 쓰느냐”에 집중했지만, 이 연구가 가리키는 방향은 “모델을 어떤 환경에서 얼마나 잘 굴리느냐”임
  - 에이전트가 기업 소프트웨어, 과학 연구, 대형 엔지니어링 프로젝트에 들어가면 정적 지식만으로는 오래 못 버팀
  - 현장의 데이터, 예외 케이스, 업무 흐름을 계속 먹고 적응하는 시스템이 더 큰 가치를 만들 수 있다는 논리임

- 기사에서는 이 흐름을 2026년 하반기 글로벌 IT 전선의 핵심 변수로 봄
  - 초기 학습 때 주입된 지식에만 의존하는 모델은 변화하는 업무 환경에서 밀릴 수 있음
  - 반대로 배포 뒤에도 경험을 쌓는 에이전트는 기업 내부 프로세스와 함께 진화할 가능성이 있음

- 개발자 입장에서 재밌는 지점은 벤치마크의 기준이 바뀐다는 데 있음
  - 짧은 프롬프트 답변 점수보다, 12시간 넘는 작업을 얼마나 안정적으로 이어가고 실패에서 회복하는지가 중요해짐
  - 에이전트 오케스트레이션, 로그 수집, 피드백 설계, 권한 제어, 평가 자동화 같은 주변 시스템의 가치가 커질 수밖에 없음

---

## 기술 맥락

- 이번 선택의 핵심은 사전 학습 중심의 확장 전략에서 배포 후 학습으로 시선을 옮긴 거예요. 고품질 텍스트 데이터가 줄어드는 상황에서는 모델을 계속 크게 만드는 것만으로 성능을 끌어올리기 어렵거든요.

- 바이트댄스가 장기 과제 벤치마크를 만든 이유도 여기에 있어요. 에이전트는 짧은 답변보다 긴 작업에서 진짜 한계가 드러나요. 12시간 이상 이어지는 소프트웨어 공학이나 형식 수학 과제를 보면 계획 유지, 오류 복구, 중간 결과 검증 같은 능력이 같이 드러나거든요.

- 기업 환경에서는 이 접근이 특히 중요해요. 실제 업무는 깨끗한 벤치마크처럼 움직이지 않고, 권한 문제, 레거시 시스템, 바뀌는 요구사항, 불완전한 문서가 계속 튀어나와요. 그래서 에이전트가 환경 피드백을 학습 루프에 넣을 수 있느냐가 성능 차이로 이어질 수 있어요.

- 다만 이 주장이 실무 가치로 이어지려면 운영 시스템이 같이 필요해요. 에이전트가 무엇을 시도했고 왜 실패했는지 기록하는 로그, 재현 가능한 평가 환경, 잘못된 학습을 막는 검증 장치가 없으면 배포 후 학습은 그냥 위험한 자동화가 될 수 있거든요.

## 핵심 포인트

- AI 에이전트가 배포 후 실제 환경에서 학습하며 3개월마다 학습 속도가 2배 늘 수 있다는 주장이 나옴
- 연구에는 12시간 이상 걸리는 134개 장기 과제 벤치마크 엣지벤치가 사용됨
- 클로드 오푸스 4.8, 지피티 5.5, 지피티 5.4, 지푸 AI, 딥시크 계열 모델의 총 3만8000시간 상호작용을 분석함
- 고품질 인간 생성 데이터가 6년 안에 고갈될 수 있다는 문제의 대안으로 배포 후 학습을 제시함

## 인사이트

AI 모델 경쟁이 ‘더 큰 사전 학습’만으로는 버티기 어렵다는 얘기는 계속 나왔는데, 이번 포인트는 에이전트를 실제 업무에 오래 굴렸을 때도 스케일링 법칙처럼 투자 논리를 만들 수 있느냐임. 기업 입장에선 모델 자체보다 운영 환경, 피드백 루프, 장기 작업 벤치마크가 더 중요한 자산이 될 수 있다는 신호로 읽힘.