---
title: "Kimi K2.6 공개 — 12시간 연속 코딩 에이전트와 300개 서브 스웜으로 장기 실행 전쟁 돌입"
published: 2026-04-20T15:28:13.000Z
canonical: https://jeff.news/article/1843
---
# Kimi K2.6 공개 — 12시간 연속 코딩 에이전트와 300개 서브 스웜으로 장기 실행 전쟁 돌입

Kimi가 오픈소스 코딩 특화 모델 K2.6을 공개했다. 12-13시간짜리 장기 실행 코딩 태스크에서 4,000+ tool call을 유지하며 Zig로 추론 엔진을 짜거나 금융 매칭 엔진의 스레드 토폴로지를 재구성해 처리량을 133-185% 끌어올리는 사례를 제시했다. Agent Swarm은 서브 에이전트 300개·4,000 스텝 규모로 확장됐고, 이기종 에이전트를 통합 오케스트레이션하는 Claw Groups 리서치 프리뷰도 함께 열렸다.

- Kimi K2.6 오픈소스 공개 — 장기 실행 코딩(long-horizon coding)과 에이전트 스웜(agent swarm)에 올인한 모델
  - Kimi.com, 앱, API, Kimi Code 전방위 배포
  - 컨텍스트 길이 262,144 토큰, 기본 temperature 1.0 / top-p 1.0로 벤치마크 측정

### 장기 실행 코딩이 핵심 셀링 포인트

- Rust, Go, Python 전반에서 프론트엔드/데브옵스/성능 최적화까지 일관된 성능 — 내부 Kimi Code Bench에서 K2.5 대비 대폭 상승
- 데모 1: Mac에서 Qwen3.5-0.8B 모델을 로컬 배포하고 Zig로 추론 엔진을 직접 구현
  - 4,000회 이상 tool call, 12시간 연속 실행, 14번 이터레이션
  - 처리량 15 tokens/sec → 193 tokens/sec로 끌어올림 — 최종적으로 LM Studio보다 약 20% 빠름
  - 니치한 Zig로 구현했다는 점에서 out-of-distribution 일반화를 과시한 셈
- 데모 2: 8년 된 오픈소스 금융 매칭 엔진 exchange-core를 자율적으로 리팩터링
  - 13시간 실행, 12개 최적화 전략 시도, 1,000회 이상 tool call로 4,000줄 이상 코드 수정
  - CPU/할당 플레임그래프를 직접 읽고 코어 스레드 토폴로지를 4ME+2RE → 2ME+1RE로 재구성
  - 중간 처리량 185% 상승 (0.43 → 1.24 MT/s), 최고 처리량 133% 상승 (1.23 → 2.86 MT/s)

> [!IMPORTANT]
> 12시간, 13시간짜리 세션에서 수천 번의 tool call을 유지한다는 건 기존 "30분이면 컨텍스트 꼬이는" 에이전트 경험과는 차원이 다른 영역임. 장기 실행 자율성을 정조준한 모델.

### 디자인-드리븐 프론트엔드 + 풀스택까지

- 단일 프롬프트에서 히어로 섹션, 인터랙션, 스크롤 트리거 애니메이션까지 갖춘 완성형 랜딩 페이지 생성
- 이미지/비디오 생성 툴을 붙이면 일관된 비주얼 에셋까지 한 번에 뽑아냄
- 정적 프론트엔드를 넘어서 인증 → 유저 인터랙션 → DB 조작까지 간단한 풀스택 워크플로도 커버 — 거래 로그, 세션 관리 수준의 경량 케이스
- 내부 Kimi Design Bench 4개 카테고리(비주얼 입력, 랜딩 페이지, 풀스택, 일반 창의 프로그래밍)에서 Google AI Studio 대비 양호한 결과

### Agent Swarm — "위로 키우는 게 아니라 옆으로 펼친다"

- Agent Swarm은 작업을 이종(heterogeneous) 서브태스크로 쪼개 도메인별 자가 생성 에이전트가 병렬 실행하는 구조
- K2.5 대비 스케일이 질적으로 점프
  - 서브 에이전트 100개 → **300개**, 코디네이션 스텝 1,500 → **4,000**
  - 수평 확장으로 e2e 지연을 줄이면서 산출물 품질까지 상승
- 단일 실행에서 문서, 웹사이트, 슬라이드, 스프레드시트를 한꺼번에 만들어내는 compositional intelligence 강조
- PDF/스프레드시트/슬라이드/Word를 Skill로 변환 — 원본의 구조/스타일 DNA를 캡처해서 이후 태스크에 재사용 가능

```mermaid
sequenceDiagram
    participant 사용자
    participant 코디네이터 as K2.6 코디네이터
    participant 에이전트A as 도메인 에이전트 A
    participant 에이전트B as 도메인 에이전트 B
    사용자->>코디네이터: 복합 태스크 요청
    코디네이터->>코디네이터: 서브태스크 분해 + 스킬 매칭
    코디네이터->>에이전트A: 검색/분석 서브태스크
    코디네이터->>에이전트B: 문서/슬라이드 생성 서브태스크
    에이전트A-->>코디네이터: 중간 결과
    에이전트B-->>코디네이터: 중간 결과
    코디네이터->>사용자: 통합 산출물 전달
```

### Proactive Agent — 24/7 백그라운드에서 돌아가는 놈들

- OpenClaw, Hermes 같은 상시 실행 에이전트에서 강한 성능
- 자체 RL infra 팀이 K2.6 백엔드 에이전트를 **5일간 무인 운영** — 모니터링/장애 대응/시스템 운영을 알림 수신부터 해결까지 전 사이클 처리
- 내부 Claw Bench 5개 도메인(코딩, IM 생태계 통합, 정보 연구/분석, 스케줄 태스크, 메모리 활용)에서 K2.5 대비 전 항목 우위
- API 해석 정밀도, 장시간 실행 안정성, 연구 태스크 중 안전성 인식 모두 개선됐다는 주장

### Claw Groups — "내 에이전트, 네 에이전트" 경계를 지움

- K2.6 기반 Agent Swarm의 새 인스턴스로 리서치 프리뷰 공개
- 로컬 노트북, 모바일, 클라우드 어디서든 다른 모델로 구동되는 이종 에이전트를 공용 워크스페이스에 합류시킴 — 각자 고유 툴킷, 스킬, 영속 메모리 유지
- K2.6이 중앙 코디네이터 역할 — 태스크와 에이전트의 스킬 프로파일을 동적 매칭
- 에이전트가 실패하거나 멈추면 자동으로 감지해 재할당/서브태스크 재생성
- Kimi 자체 마케팅팀은 이미 Claw Groups로 도그푸딩 중 — Demo Maker, Benchmark Maker, Social Media, Video Maker 에이전트들이 협업해 런칭 캠페인 돌림

### 벤치마크 비교 대상과 설정

- 대조군: Claude Opus 4.6 (max effort), GPT-5.4 (xhigh reasoning), Gemini 3.1 Pro (high thinking), Kimi K2.5
- HLE(Humanity's Last Exam) 텍스트 전용 셋에서 툴 없이 36.4%, 툴 사용 시 55.5%
- SWE-Bench(Verified/Multilingual/Pro)는 자체 프레임워크로 10회 평균 측정
- Terminal-Bench 2.0은 Terminus-2 에이전트 프레임워크로 preserve thinking mode에서 측정

---

## 기술 맥락

- **장기 실행(long-horizon) 에이전트가 왜 중요한가** — 요즘 LLM 코딩의 병목은 "단발 코드 생성"이 아니라 "여러 시간에 걸쳐 컨텍스트를 유지하며 수정-검증-수정 루프를 도는 능력"이에요. 컨텍스트 관리 전략(예: 오래된 tool 결과 버리기)과 일관된 자가 평가가 없으면 몇 시간만 돌려도 방향을 잃거든요. K2.6이 12-13시간, 4,000+ tool call을 자랑하는 이유가 바로 이거예요.

- **Agent Swarm의 "heterogeneous"가 의미하는 것** — 단순히 LLM 여러 개를 병렬 호출하는 게 아니라, 서로 다른 스킬/툴셋/메모리를 가진 서브 에이전트를 코디네이터가 태스크별로 매칭한다는 뜻이에요. 실패 시 재할당/재생성 로직이 있다는 점에서 Kubernetes 스케줄러 + LLM 오케스트레이터 하이브리드 같은 느낌이고, 수평 확장성이 성능의 핵심 지표가 돼요.

- **Zig로 추론 엔진을 짰다는 포인트** — Zig는 C 대체를 노리는 비교적 최근 시스템 언어라 학습 데이터가 희소해요. 그런데도 4,000번의 툴 호출 끝에 LM Studio보다 빠른 엔진을 뽑았다는 건, 훈련 분포 밖 태스크에서도 디버깅 루프를 돌려 해법을 수렴시킬 수 있다는 증거로 해석돼요.

- **exchange-core 스레드 토폴로지 재구성(4ME+2RE → 2ME+1RE)** — ME는 Matching Engine, RE는 Risk Engine 스레드인데, 금융 매칭 엔진은 락 프리 큐와 CPU 캐시 라인 배치가 처리량을 좌우해요. 플레임그래프로 실제 병목을 읽고 스레드 수 자체를 줄여 성능을 끌어올렸다는 건, AI가 도메인 특화 퍼포먼스 엔지니어링을 흉내 낼 수 있는 수준에 왔다는 신호예요.

- **Skills로 파일 재사용** — 기존 에이전트는 PDF나 슬라이드를 "읽어서 요약"하는 수준이었는데, K2.6은 원본의 스타일/구조를 템플릿화해서 미래 태스크에 재적용할 수 있어요. 실무 문서 양산 관점에서 보면 디자인 시스템을 LLM이 내재화한 셈이라 파급력이 커요.

## 핵심 포인트

- 262,144 토큰 컨텍스트, 오픈소스로 공개
- 12시간 연속 실행으로 Zig 추론 엔진 구현 — LM Studio 대비 20% 빠른 속도 달성
- exchange-core 리팩터링: 스레드 토폴로지 재설계로 처리량 최대 185% 상승
- Agent Swarm 300 서브에이전트·4,000 스텝 (K2.5는 100·1,500)
- 5일간 무인으로 모니터링/장애 대응을 자율 수행하는 프로액티브 에이전트 시연
- HLE 텍스트 셋에서 툴 사용 시 55.5% 달성

## 인사이트

단발 코드 생성 경쟁이 끝나가고, 이제는 '얼마나 오래 컨텍스트를 유지하며 자율적으로 돌릴 수 있는가'가 차별점이 됐다. 오픈소스 진영이 수평 확장(스웜)을 무기로 클로즈드 모델에 맞불을 놓는 구도.