본문으로 건너뛰기
피드

바이트댄스, AI 에이전트가 배포 뒤에도 똑똑해지는 ‘확장 법칙’ 주장

ai-ml 약 7분
vote
0
댓글
북마크

바이트댄스 시드 AI 팀이 AI 에이전트가 실제 업무 환경에서 장기간 상호작용할수록 성능이 예측 가능한 곡선으로 좋아진다는 연구를 내놨다. 연구진은 134개 장기 과제와 3만8000시간 규모의 상호작용 데이터를 분석했고, 배포 후 학습이 사전 학습 이후의 새 스케일링 축이 될 수 있다고 주장했다.

  • 1

    AI 에이전트가 배포 후 실제 환경에서 학습하며 3개월마다 학습 속도가 2배 늘 수 있다는 주장이 나옴

  • 2

    연구에는 12시간 이상 걸리는 134개 장기 과제 벤치마크 엣지벤치가 사용됨

  • 3

    클로드 오푸스 4.8, 지피티 5.5, 지피티 5.4, 지푸 AI, 딥시크 계열 모델의 총 3만8000시간 상호작용을 분석함

  • 4

    고품질 인간 생성 데이터가 6년 안에 고갈될 수 있다는 문제의 대안으로 배포 후 학습을 제시함

사전 학습만으로는 슬슬 한계가 보인다는 문제의식

  • 바이트댄스 산하 시드 AI 팀이 AI 에이전트의 ‘배포 후 학습’에도 스케일링 법칙이 있다는 연구를 발표함

    • 기존 스케일링 법칙은 더 많은 데이터와 연산량을 사전 학습에 때려 넣으면 성능이 좋아진다는 쪽에 가까웠음
    • 이번 연구는 모델이 실제 업무 환경에 투입된 뒤, 환경과 오래 상호작용하면서 성능이 좋아지는 패턴을 수학적으로 모델링했다는 게 포인트임
  • 배경에는 꽤 현실적인 병목이 있음. 고품질 인간 생성 텍스트 데이터가 무한하지 않다는 것

    • 기사에서는 에포크 AI 분석을 인용해 고품질 텍스트 데이터가 향후 6년 안에 바닥날 수 있다고 설명함
    • 안드레이 카파티 같은 연구자들도 “데이터와 컴퓨팅만 더 넣는 사전 학습 방식이 영원할 수 없다”는 식의 경고를 해왔음

중요

> 핵심은 “모델을 더 크게 만들자”가 아니라 “배포된 에이전트가 실제 일을 하면서 더 똑똑해질 수 있느냐”임. 이게 맞다면 기업용 AI의 경쟁력은 학습 데이터보다 운영 환경과 피드백 루프에서 갈릴 수 있음.

바이트댄스가 본 건 ‘장기 업무를 버티는 에이전트’임

  • 연구진은 엣지벤치라는 독자 벤치마크를 만들어 AI 에이전트의 장기 수행 능력을 봤다고 밝힘

    • 과제는 총 134개고, 각각 최소 12시간 이상의 연속 운영이 필요한 초장기 작업으로 구성됨
    • 분야는 소프트웨어 공학, 과학적 발견, 형식 수학, 전문 지식 작업 등이 포함됨
  • 분석 규모도 기사 기준으로는 꽤 큼. 총 3만8000시간의 실제 환경 상호작용 데이터를 계산했다고 함

    • 대상 모델에는 클로드 오푸스 4.8, 지피티 5.5, 지피티 5.4가 포함됨
    • 중국 쪽 모델로는 지푸 AI와 딥시크의 최신 모델도 포함됐다고 소개됨
  • 결론은 꽤 센 편임. 에이전트가 실제 업무 현장에서 인간 대신 작업을 수행하면, 지속적인 환경 상호작용을 통해 3개월마다 학습 속도를 2배로 끌어올릴 수 있다는 주장임

    • 단순히 “좋아졌다”가 아니라 예측 가능한 성과 향상 곡선이 관찰됐다는 식으로 설명됨
    • 연구진은 배포 후 학습도 사전 학습처럼 체계적인 투자와 스케일링 관심을 받을 자격이 있다고 주장함
sequenceDiagram
    participant 기업환경 as 기업 업무 환경
    participant 에이전트 as AI 에이전트
    participant 피드백 as 환경 피드백
    participant 벤치마크 as 엣지벤치
    participant 연구팀 as 시드 AI 연구팀
    기업환경->>에이전트: 장기 업무 투입
    에이전트->>피드백: 실행 결과와 오류 축적
    피드백->>에이전트: 다음 작업 전략에 반영
    에이전트->>벤치마크: 134개 장기 과제 수행
    벤치마크->>연구팀: 3만8000시간 상호작용 데이터 제공
    연구팀->>연구팀: 성능 향상 곡선 모델링

이게 맞다면 기업용 AI의 무게중심이 바뀜

  • 지금까지 많은 기업은 “어떤 모델을 쓰느냐”에 집중했지만, 이 연구가 가리키는 방향은 “모델을 어떤 환경에서 얼마나 잘 굴리느냐”임

    • 에이전트가 기업 소프트웨어, 과학 연구, 대형 엔지니어링 프로젝트에 들어가면 정적 지식만으로는 오래 못 버팀
    • 현장의 데이터, 예외 케이스, 업무 흐름을 계속 먹고 적응하는 시스템이 더 큰 가치를 만들 수 있다는 논리임
  • 기사에서는 이 흐름을 2026년 하반기 글로벌 IT 전선의 핵심 변수로 봄

    • 초기 학습 때 주입된 지식에만 의존하는 모델은 변화하는 업무 환경에서 밀릴 수 있음
    • 반대로 배포 뒤에도 경험을 쌓는 에이전트는 기업 내부 프로세스와 함께 진화할 가능성이 있음
  • 개발자 입장에서 재밌는 지점은 벤치마크의 기준이 바뀐다는 데 있음

    • 짧은 프롬프트 답변 점수보다, 12시간 넘는 작업을 얼마나 안정적으로 이어가고 실패에서 회복하는지가 중요해짐
    • 에이전트 오케스트레이션, 로그 수집, 피드백 설계, 권한 제어, 평가 자동화 같은 주변 시스템의 가치가 커질 수밖에 없음

기술 맥락

  • 이번 선택의 핵심은 사전 학습 중심의 확장 전략에서 배포 후 학습으로 시선을 옮긴 거예요. 고품질 텍스트 데이터가 줄어드는 상황에서는 모델을 계속 크게 만드는 것만으로 성능을 끌어올리기 어렵거든요.

  • 바이트댄스가 장기 과제 벤치마크를 만든 이유도 여기에 있어요. 에이전트는 짧은 답변보다 긴 작업에서 진짜 한계가 드러나요. 12시간 이상 이어지는 소프트웨어 공학이나 형식 수학 과제를 보면 계획 유지, 오류 복구, 중간 결과 검증 같은 능력이 같이 드러나거든요.

  • 기업 환경에서는 이 접근이 특히 중요해요. 실제 업무는 깨끗한 벤치마크처럼 움직이지 않고, 권한 문제, 레거시 시스템, 바뀌는 요구사항, 불완전한 문서가 계속 튀어나와요. 그래서 에이전트가 환경 피드백을 학습 루프에 넣을 수 있느냐가 성능 차이로 이어질 수 있어요.

  • 다만 이 주장이 실무 가치로 이어지려면 운영 시스템이 같이 필요해요. 에이전트가 무엇을 시도했고 왜 실패했는지 기록하는 로그, 재현 가능한 평가 환경, 잘못된 학습을 막는 검증 장치가 없으면 배포 후 학습은 그냥 위험한 자동화가 될 수 있거든요.

AI 모델 경쟁이 ‘더 큰 사전 학습’만으로는 버티기 어렵다는 얘기는 계속 나왔는데, 이번 포인트는 에이전트를 실제 업무에 오래 굴렸을 때도 스케일링 법칙처럼 투자 논리를 만들 수 있느냐임. 기업 입장에선 모델 자체보다 운영 환경, 피드백 루프, 장기 작업 벤치마크가 더 중요한 자산이 될 수 있다는 신호로 읽힘.

댓글

댓글

댓글을 불러오는 중...

ai-ml

중국에서 ‘1인 창업자+AI’ 모델 급증…1인 기업 1600만개 돌파

중국에서 AI를 디지털 직원처럼 활용하는 1인 기업이 빠르게 늘고 있다. 코트라에 따르면 지난해 6월 기준 중국 1인 유한책임회사는 1600만개를 넘었고, 지난해 상반기 신규 등록 1인 기업은 약 290만개로 전년 대비 47% 증가했다.

ai-ml

구글 agents-cli로 AI 에이전트 제작·평가·배포 흐름 가져다 쓰기

구글의 agents-cli는 코딩 에이전트 자체가 아니라, 기존 코딩 도구에 에이전트 제작·평가·배포 절차를 붙여주는 CLI다. 같은 글에서는 Anthropic Fable 5 재개, 구글 DESIGN.md를 활용한 AI 디자인 맥락 주입 방식도 함께 다뤘고, 특히 프로덕션에서는 맥락을 통째로 넣는 방식보다 필요한 부분만 불러오는 방식이 더 유리할 수 있다는 점이 핵심이다.

ai-ml

메타가 AI 인프라를 팔기 시작하면, 국내 클라우드 기업 가치도 다시 보일까

메타가 자체 구축한 GPU와 데이터센터를 외부에 판매하는 클라우드 사업을 검토하면서, AI 설비투자가 단순 비용이 아니라 수익 자산이 될 수 있다는 분석이 나왔어. 국내에서는 네이버와 삼성SDS 같은 클라우드 관련 기업의 가치가 재평가될 수 있다는 전망이 붙었지만, 글로벌 CSP와 같은 논리를 그대로 적용하긴 어렵다는 지적도 같이 나왔어.

ai-ml

메타가 클로드까지 팔 수 있다? AI 인프라 전쟁이 모델 유통전으로 번지는 중

세미애널리시스는 메타가 앤트로픽의 클로드 프라이빗 인스턴스 접근 권한을 확보하기 위한 최종 협상 단계에 있는 것으로 봤다. 메타가 자체 데이터센터에 타사 최고급 모델을 올려 내부 사용과 기업 고객 판매에 활용하려는 전략이라는 분석이다.

ai-ml

테더 CEO가 본 빅테크 AI의 약점, ‘사용자는 늘리는데 돈은 언제 버나’

테더 CEO 파올로 아르도이노가 빅테크 AI 기업들의 투자 구조에 의문을 제기했다. 사용자 확보를 위해 컴퓨팅 비용을 보조하지만, 인프라 감가상각과 투자 회수 시점이 맞지 않고 오픈소스 AI가 매출을 잠식할 수 있다는 주장이다.