본문으로 건너뛰기
피드

Kimi K2.6 공개 — 12시간 연속 코딩 에이전트와 300개 서브 스웜으로 장기 실행 전쟁 돌입

ai-ml 약 10분
vote
0
댓글
북마크

Kimi가 오픈소스 코딩 특화 모델 K2.6을 공개했다. 12-13시간짜리 장기 실행 코딩 태스크에서 4,000+ tool call을 유지하며 Zig로 추론 엔진을 짜거나 금융 매칭 엔진의 스레드 토폴로지를 재구성해 처리량을 133-185% 끌어올리는 사례를 제시했다. Agent Swarm은 서브 에이전트 300개·4,000 스텝 규모로 확장됐고, 이기종 에이전트를 통합 오케스트레이션하는 Claw Groups 리서치 프리뷰도 함께 열렸다.

  • 1

    262,144 토큰 컨텍스트, 오픈소스로 공개

  • 2

    12시간 연속 실행으로 Zig 추론 엔진 구현 — LM Studio 대비 20% 빠른 속도 달성

  • 3

    exchange-core 리팩터링: 스레드 토폴로지 재설계로 처리량 최대 185% 상승

  • 4

    Agent Swarm 300 서브에이전트·4,000 스텝 (K2.5는 100·1,500)

  • 5

    5일간 무인으로 모니터링/장애 대응을 자율 수행하는 프로액티브 에이전트 시연

  • 6

    HLE 텍스트 셋에서 툴 사용 시 55.5% 달성

  • Kimi K2.6 오픈소스 공개 — 장기 실행 코딩(long-horizon coding)과 에이전트 스웜(agent swarm)에 올인한 모델
    • Kimi.com, 앱, API, Kimi Code 전방위 배포
    • 컨텍스트 길이 262,144 토큰, 기본 temperature 1.0 / top-p 1.0로 벤치마크 측정

장기 실행 코딩이 핵심 셀링 포인트

  • Rust, Go, Python 전반에서 프론트엔드/데브옵스/성능 최적화까지 일관된 성능 — 내부 Kimi Code Bench에서 K2.5 대비 대폭 상승
  • 데모 1: Mac에서 Qwen3.5-0.8B 모델을 로컬 배포하고 Zig로 추론 엔진을 직접 구현
    • 4,000회 이상 tool call, 12시간 연속 실행, 14번 이터레이션
    • 처리량 15 tokens/sec → 193 tokens/sec로 끌어올림 — 최종적으로 LM Studio보다 약 20% 빠름
    • 니치한 Zig로 구현했다는 점에서 out-of-distribution 일반화를 과시한 셈
  • 데모 2: 8년 된 오픈소스 금융 매칭 엔진 exchange-core를 자율적으로 리팩터링
    • 13시간 실행, 12개 최적화 전략 시도, 1,000회 이상 tool call로 4,000줄 이상 코드 수정
    • CPU/할당 플레임그래프를 직접 읽고 코어 스레드 토폴로지를 4ME+2RE → 2ME+1RE로 재구성
    • 중간 처리량 185% 상승 (0.43 → 1.24 MT/s), 최고 처리량 133% 상승 (1.23 → 2.86 MT/s)

중요

> 12시간, 13시간짜리 세션에서 수천 번의 tool call을 유지한다는 건 기존 "30분이면 컨텍스트 꼬이는" 에이전트 경험과는 차원이 다른 영역임. 장기 실행 자율성을 정조준한 모델.

디자인-드리븐 프론트엔드 + 풀스택까지

  • 단일 프롬프트에서 히어로 섹션, 인터랙션, 스크롤 트리거 애니메이션까지 갖춘 완성형 랜딩 페이지 생성
  • 이미지/비디오 생성 툴을 붙이면 일관된 비주얼 에셋까지 한 번에 뽑아냄
  • 정적 프론트엔드를 넘어서 인증 → 유저 인터랙션 → DB 조작까지 간단한 풀스택 워크플로도 커버 — 거래 로그, 세션 관리 수준의 경량 케이스
  • 내부 Kimi Design Bench 4개 카테고리(비주얼 입력, 랜딩 페이지, 풀스택, 일반 창의 프로그래밍)에서 Google AI Studio 대비 양호한 결과

Agent Swarm — "위로 키우는 게 아니라 옆으로 펼친다"

  • Agent Swarm은 작업을 이종(heterogeneous) 서브태스크로 쪼개 도메인별 자가 생성 에이전트가 병렬 실행하는 구조
  • K2.5 대비 스케일이 질적으로 점프
    • 서브 에이전트 100개 → 300개, 코디네이션 스텝 1,500 → 4,000
    • 수평 확장으로 e2e 지연을 줄이면서 산출물 품질까지 상승
  • 단일 실행에서 문서, 웹사이트, 슬라이드, 스프레드시트를 한꺼번에 만들어내는 compositional intelligence 강조
  • PDF/스프레드시트/슬라이드/Word를 Skill로 변환 — 원본의 구조/스타일 DNA를 캡처해서 이후 태스크에 재사용 가능
sequenceDiagram
    participant 사용자
    participant 코디네이터 as K2.6 코디네이터
    participant 에이전트A as 도메인 에이전트 A
    participant 에이전트B as 도메인 에이전트 B
    사용자->>코디네이터: 복합 태스크 요청
    코디네이터->>코디네이터: 서브태스크 분해 + 스킬 매칭
    코디네이터->>에이전트A: 검색/분석 서브태스크
    코디네이터->>에이전트B: 문서/슬라이드 생성 서브태스크
    에이전트A-->>코디네이터: 중간 결과
    에이전트B-->>코디네이터: 중간 결과
    코디네이터->>사용자: 통합 산출물 전달

Proactive Agent — 24/7 백그라운드에서 돌아가는 놈들

  • OpenClaw, Hermes 같은 상시 실행 에이전트에서 강한 성능
  • 자체 RL infra 팀이 K2.6 백엔드 에이전트를 5일간 무인 운영 — 모니터링/장애 대응/시스템 운영을 알림 수신부터 해결까지 전 사이클 처리
  • 내부 Claw Bench 5개 도메인(코딩, IM 생태계 통합, 정보 연구/분석, 스케줄 태스크, 메모리 활용)에서 K2.5 대비 전 항목 우위
  • API 해석 정밀도, 장시간 실행 안정성, 연구 태스크 중 안전성 인식 모두 개선됐다는 주장

Claw Groups — "내 에이전트, 네 에이전트" 경계를 지움

  • K2.6 기반 Agent Swarm의 새 인스턴스로 리서치 프리뷰 공개
  • 로컬 노트북, 모바일, 클라우드 어디서든 다른 모델로 구동되는 이종 에이전트를 공용 워크스페이스에 합류시킴 — 각자 고유 툴킷, 스킬, 영속 메모리 유지
  • K2.6이 중앙 코디네이터 역할 — 태스크와 에이전트의 스킬 프로파일을 동적 매칭
  • 에이전트가 실패하거나 멈추면 자동으로 감지해 재할당/서브태스크 재생성
  • Kimi 자체 마케팅팀은 이미 Claw Groups로 도그푸딩 중 — Demo Maker, Benchmark Maker, Social Media, Video Maker 에이전트들이 협업해 런칭 캠페인 돌림

벤치마크 비교 대상과 설정

  • 대조군: Claude Opus 4.6 (max effort), GPT-5.4 (xhigh reasoning), Gemini 3.1 Pro (high thinking), Kimi K2.5
  • HLE(Humanity's Last Exam) 텍스트 전용 셋에서 툴 없이 36.4%, 툴 사용 시 55.5%
  • SWE-Bench(Verified/Multilingual/Pro)는 자체 프레임워크로 10회 평균 측정
  • Terminal-Bench 2.0은 Terminus-2 에이전트 프레임워크로 preserve thinking mode에서 측정

기술 맥락

  • 장기 실행(long-horizon) 에이전트가 왜 중요한가 — 요즘 LLM 코딩의 병목은 "단발 코드 생성"이 아니라 "여러 시간에 걸쳐 컨텍스트를 유지하며 수정-검증-수정 루프를 도는 능력"이에요. 컨텍스트 관리 전략(예: 오래된 tool 결과 버리기)과 일관된 자가 평가가 없으면 몇 시간만 돌려도 방향을 잃거든요. K2.6이 12-13시간, 4,000+ tool call을 자랑하는 이유가 바로 이거예요.

  • Agent Swarm의 "heterogeneous"가 의미하는 것 — 단순히 LLM 여러 개를 병렬 호출하는 게 아니라, 서로 다른 스킬/툴셋/메모리를 가진 서브 에이전트를 코디네이터가 태스크별로 매칭한다는 뜻이에요. 실패 시 재할당/재생성 로직이 있다는 점에서 Kubernetes 스케줄러 + LLM 오케스트레이터 하이브리드 같은 느낌이고, 수평 확장성이 성능의 핵심 지표가 돼요.

  • Zig로 추론 엔진을 짰다는 포인트 — Zig는 C 대체를 노리는 비교적 최근 시스템 언어라 학습 데이터가 희소해요. 그런데도 4,000번의 툴 호출 끝에 LM Studio보다 빠른 엔진을 뽑았다는 건, 훈련 분포 밖 태스크에서도 디버깅 루프를 돌려 해법을 수렴시킬 수 있다는 증거로 해석돼요.

  • exchange-core 스레드 토폴로지 재구성(4ME+2RE → 2ME+1RE) — ME는 Matching Engine, RE는 Risk Engine 스레드인데, 금융 매칭 엔진은 락 프리 큐와 CPU 캐시 라인 배치가 처리량을 좌우해요. 플레임그래프로 실제 병목을 읽고 스레드 수 자체를 줄여 성능을 끌어올렸다는 건, AI가 도메인 특화 퍼포먼스 엔지니어링을 흉내 낼 수 있는 수준에 왔다는 신호예요.

  • Skills로 파일 재사용 — 기존 에이전트는 PDF나 슬라이드를 "읽어서 요약"하는 수준이었는데, K2.6은 원본의 스타일/구조를 템플릿화해서 미래 태스크에 재적용할 수 있어요. 실무 문서 양산 관점에서 보면 디자인 시스템을 LLM이 내재화한 셈이라 파급력이 커요.

단발 코드 생성 경쟁이 끝나가고, 이제는 '얼마나 오래 컨텍스트를 유지하며 자율적으로 돌릴 수 있는가'가 차별점이 됐다. 오픈소스 진영이 수평 확장(스웜)을 무기로 클로즈드 모델에 맞불을 놓는 구도.

댓글

댓글

댓글을 불러오는 중...

ai-ml

핀터레스트, AWS에 40억달러 베팅…AI 인프라 확장 본격화

핀터레스트가 2031년까지 AWS에 클라우드 비용 40억달러를 지불하는 장기 계약을 맺었다. AWS는 그래비톤과 트레이니움 같은 맞춤형 칩을 제공하고, 핀터레스트는 광고와 추천 중심의 AI 기능을 더 키우려는 흐름이다.

ai-ml

메타, 월 200달러짜리 개인용 인공지능 에이전트 ‘해치’ 준비 중

메타가 개인용 인공지능 에이전트 ‘해치’를 준비 중이며, 자연어로 앱 생성과 업무 자동화를 수행하는 범용 도구를 목표로 하고 있다. 월 199.99달러 수준의 프리미엄 요금제, 무료 대비 5~10배 사용 한도, 10여 개 기업 파일럿 뒤 7월 출시 가능성이 언급됐다.

ai-ml

중고나라, 내부 출신 개발 리더를 기술총괄로 선임하고 전사 인공지능 전환 속도냄

중고나라가 공자윤 신임 기술총괄을 내부 선임하고, 거래 안전성과 서비스 품질 개선을 위한 기술 조직 개편에 들어갔다. 인공지능 전환 전담팀과 데이터 전담팀을 신설하고, 사기 거래 탐지 모델과 개인화 추천 시스템 고도화를 추진한다.

ai-ml

ISPOR 2026, AI와 실제임상근거가 가치 기반 의료의 중심으로 들어옴

ISPOR 2026은 약가정책, 실제임상근거, 생성형 AI, 환자 중심 가치평가가 보건의료 의사결정의 핵심으로 올라왔다는 흐름을 보여준 행사였음. 개발자 관점에서는 의료 AI가 단순 자동화가 아니라 투명성, 재현 가능성, 거버넌스까지 요구받는다는 점이 포인트임.

ai-ml

메타 첫 폐쇄형 AI 모델, API 출시가 늦어지며 수익화에 빨간불

메타가 4월 공개한 폐쇄형 AI 모델 ‘뮤즈 스파크’의 개발자용 API 출시를 아직 못 하고 있다는 보도임. 라마처럼 내려받아 쓰는 개방형 모델이 아니라면 API가 곧 개발자 생태계와 과금 모델의 입구라서, 지연 자체가 메타 AI 수익화 전략의 약점으로 읽힘.