본문으로 건너뛰기
피드

Kimi K2.6 공개 — 12시간 연속 코딩 에이전트와 300개 서브 스웜으로 장기 실행 전쟁 돌입

ai-ml 약 10분

Kimi가 오픈소스 코딩 특화 모델 K2.6을 공개했다. 12-13시간짜리 장기 실행 코딩 태스크에서 4,000+ tool call을 유지하며 Zig로 추론 엔진을 짜거나 금융 매칭 엔진의 스레드 토폴로지를 재구성해 처리량을 133-185% 끌어올리는 사례를 제시했다. Agent Swarm은 서브 에이전트 300개·4,000 스텝 규모로 확장됐고, 이기종 에이전트를 통합 오케스트레이션하는 Claw Groups 리서치 프리뷰도 함께 열렸다.

  • 1

    262,144 토큰 컨텍스트, 오픈소스로 공개

  • 2

    12시간 연속 실행으로 Zig 추론 엔진 구현 — LM Studio 대비 20% 빠른 속도 달성

  • 3

    exchange-core 리팩터링: 스레드 토폴로지 재설계로 처리량 최대 185% 상승

  • 4

    Agent Swarm 300 서브에이전트·4,000 스텝 (K2.5는 100·1,500)

  • 5

    5일간 무인으로 모니터링/장애 대응을 자율 수행하는 프로액티브 에이전트 시연

  • 6

    HLE 텍스트 셋에서 툴 사용 시 55.5% 달성

  • Kimi K2.6 오픈소스 공개 — 장기 실행 코딩(long-horizon coding)과 에이전트 스웜(agent swarm)에 올인한 모델
    • Kimi.com, 앱, API, Kimi Code 전방위 배포
    • 컨텍스트 길이 262,144 토큰, 기본 temperature 1.0 / top-p 1.0로 벤치마크 측정

장기 실행 코딩이 핵심 셀링 포인트

  • Rust, Go, Python 전반에서 프론트엔드/데브옵스/성능 최적화까지 일관된 성능 — 내부 Kimi Code Bench에서 K2.5 대비 대폭 상승
  • 데모 1: Mac에서 Qwen3.5-0.8B 모델을 로컬 배포하고 Zig로 추론 엔진을 직접 구현
    • 4,000회 이상 tool call, 12시간 연속 실행, 14번 이터레이션
    • 처리량 15 tokens/sec → 193 tokens/sec로 끌어올림 — 최종적으로 LM Studio보다 약 20% 빠름
    • 니치한 Zig로 구현했다는 점에서 out-of-distribution 일반화를 과시한 셈
  • 데모 2: 8년 된 오픈소스 금융 매칭 엔진 exchange-core를 자율적으로 리팩터링
    • 13시간 실행, 12개 최적화 전략 시도, 1,000회 이상 tool call로 4,000줄 이상 코드 수정
    • CPU/할당 플레임그래프를 직접 읽고 코어 스레드 토폴로지를 4ME+2RE → 2ME+1RE로 재구성
    • 중간 처리량 185% 상승 (0.43 → 1.24 MT/s), 최고 처리량 133% 상승 (1.23 → 2.86 MT/s)

중요

> 12시간, 13시간짜리 세션에서 수천 번의 tool call을 유지한다는 건 기존 "30분이면 컨텍스트 꼬이는" 에이전트 경험과는 차원이 다른 영역임. 장기 실행 자율성을 정조준한 모델.

디자인-드리븐 프론트엔드 + 풀스택까지

  • 단일 프롬프트에서 히어로 섹션, 인터랙션, 스크롤 트리거 애니메이션까지 갖춘 완성형 랜딩 페이지 생성
  • 이미지/비디오 생성 툴을 붙이면 일관된 비주얼 에셋까지 한 번에 뽑아냄
  • 정적 프론트엔드를 넘어서 인증 → 유저 인터랙션 → DB 조작까지 간단한 풀스택 워크플로도 커버 — 거래 로그, 세션 관리 수준의 경량 케이스
  • 내부 Kimi Design Bench 4개 카테고리(비주얼 입력, 랜딩 페이지, 풀스택, 일반 창의 프로그래밍)에서 Google AI Studio 대비 양호한 결과

Agent Swarm — "위로 키우는 게 아니라 옆으로 펼친다"

  • Agent Swarm은 작업을 이종(heterogeneous) 서브태스크로 쪼개 도메인별 자가 생성 에이전트가 병렬 실행하는 구조
  • K2.5 대비 스케일이 질적으로 점프
    • 서브 에이전트 100개 → 300개, 코디네이션 스텝 1,500 → 4,000
    • 수평 확장으로 e2e 지연을 줄이면서 산출물 품질까지 상승
  • 단일 실행에서 문서, 웹사이트, 슬라이드, 스프레드시트를 한꺼번에 만들어내는 compositional intelligence 강조
  • PDF/스프레드시트/슬라이드/Word를 Skill로 변환 — 원본의 구조/스타일 DNA를 캡처해서 이후 태스크에 재사용 가능
sequenceDiagram
    participant 사용자
    participant 코디네이터 as K2.6 코디네이터
    participant 에이전트A as 도메인 에이전트 A
    participant 에이전트B as 도메인 에이전트 B
    사용자->>코디네이터: 복합 태스크 요청
    코디네이터->>코디네이터: 서브태스크 분해 + 스킬 매칭
    코디네이터->>에이전트A: 검색/분석 서브태스크
    코디네이터->>에이전트B: 문서/슬라이드 생성 서브태스크
    에이전트A-->>코디네이터: 중간 결과
    에이전트B-->>코디네이터: 중간 결과
    코디네이터->>사용자: 통합 산출물 전달

Proactive Agent — 24/7 백그라운드에서 돌아가는 놈들

  • OpenClaw, Hermes 같은 상시 실행 에이전트에서 강한 성능
  • 자체 RL infra 팀이 K2.6 백엔드 에이전트를 5일간 무인 운영 — 모니터링/장애 대응/시스템 운영을 알림 수신부터 해결까지 전 사이클 처리
  • 내부 Claw Bench 5개 도메인(코딩, IM 생태계 통합, 정보 연구/분석, 스케줄 태스크, 메모리 활용)에서 K2.5 대비 전 항목 우위
  • API 해석 정밀도, 장시간 실행 안정성, 연구 태스크 중 안전성 인식 모두 개선됐다는 주장

Claw Groups — "내 에이전트, 네 에이전트" 경계를 지움

  • K2.6 기반 Agent Swarm의 새 인스턴스로 리서치 프리뷰 공개
  • 로컬 노트북, 모바일, 클라우드 어디서든 다른 모델로 구동되는 이종 에이전트를 공용 워크스페이스에 합류시킴 — 각자 고유 툴킷, 스킬, 영속 메모리 유지
  • K2.6이 중앙 코디네이터 역할 — 태스크와 에이전트의 스킬 프로파일을 동적 매칭
  • 에이전트가 실패하거나 멈추면 자동으로 감지해 재할당/서브태스크 재생성
  • Kimi 자체 마케팅팀은 이미 Claw Groups로 도그푸딩 중 — Demo Maker, Benchmark Maker, Social Media, Video Maker 에이전트들이 협업해 런칭 캠페인 돌림

벤치마크 비교 대상과 설정

  • 대조군: Claude Opus 4.6 (max effort), GPT-5.4 (xhigh reasoning), Gemini 3.1 Pro (high thinking), Kimi K2.5
  • HLE(Humanity's Last Exam) 텍스트 전용 셋에서 툴 없이 36.4%, 툴 사용 시 55.5%
  • SWE-Bench(Verified/Multilingual/Pro)는 자체 프레임워크로 10회 평균 측정
  • Terminal-Bench 2.0은 Terminus-2 에이전트 프레임워크로 preserve thinking mode에서 측정

기술 맥락

  • 장기 실행(long-horizon) 에이전트가 왜 중요한가 — 요즘 LLM 코딩의 병목은 "단발 코드 생성"이 아니라 "여러 시간에 걸쳐 컨텍스트를 유지하며 수정-검증-수정 루프를 도는 능력"이에요. 컨텍스트 관리 전략(예: 오래된 tool 결과 버리기)과 일관된 자가 평가가 없으면 몇 시간만 돌려도 방향을 잃거든요. K2.6이 12-13시간, 4,000+ tool call을 자랑하는 이유가 바로 이거예요.

  • Agent Swarm의 "heterogeneous"가 의미하는 것 — 단순히 LLM 여러 개를 병렬 호출하는 게 아니라, 서로 다른 스킬/툴셋/메모리를 가진 서브 에이전트를 코디네이터가 태스크별로 매칭한다는 뜻이에요. 실패 시 재할당/재생성 로직이 있다는 점에서 Kubernetes 스케줄러 + LLM 오케스트레이터 하이브리드 같은 느낌이고, 수평 확장성이 성능의 핵심 지표가 돼요.

  • Zig로 추론 엔진을 짰다는 포인트 — Zig는 C 대체를 노리는 비교적 최근 시스템 언어라 학습 데이터가 희소해요. 그런데도 4,000번의 툴 호출 끝에 LM Studio보다 빠른 엔진을 뽑았다는 건, 훈련 분포 밖 태스크에서도 디버깅 루프를 돌려 해법을 수렴시킬 수 있다는 증거로 해석돼요.

  • exchange-core 스레드 토폴로지 재구성(4ME+2RE → 2ME+1RE) — ME는 Matching Engine, RE는 Risk Engine 스레드인데, 금융 매칭 엔진은 락 프리 큐와 CPU 캐시 라인 배치가 처리량을 좌우해요. 플레임그래프로 실제 병목을 읽고 스레드 수 자체를 줄여 성능을 끌어올렸다는 건, AI가 도메인 특화 퍼포먼스 엔지니어링을 흉내 낼 수 있는 수준에 왔다는 신호예요.

  • Skills로 파일 재사용 — 기존 에이전트는 PDF나 슬라이드를 "읽어서 요약"하는 수준이었는데, K2.6은 원본의 스타일/구조를 템플릿화해서 미래 태스크에 재적용할 수 있어요. 실무 문서 양산 관점에서 보면 디자인 시스템을 LLM이 내재화한 셈이라 파급력이 커요.

단발 코드 생성 경쟁이 끝나가고, 이제는 '얼마나 오래 컨텍스트를 유지하며 자율적으로 돌릴 수 있는가'가 차별점이 됐다. 오픈소스 진영이 수평 확장(스웜)을 무기로 클로즈드 모델에 맞불을 놓는 구도.

댓글

댓글

댓글을 불러오는 중...

ai-ml

'클로드 코워크' 등장 — PC 화면 보고 직접 클릭해서 영수증·메일 처리하는 AI 에이전트

앤트로픽이 비개발자용 AI 에이전트 클로드 코워크를 내놓았다. 코딩 없이 클로드가 직접 PC 화면을 보고 브라우저를 조작해 영수증 정리, 메일 분류 같은 반복 업무를 대신 처리하는 게 핵심이다. 그동안 클로드 코드 같은 에이전트가 개발자 전유물로 느껴졌던 사무직을 겨냥한 UX로 포지셔닝됐다.

ai-ml

어도비, 멀티 LLM 허브 'CX 엔터프라이즈' 공개…챗GPT·클로드·제미나이 다 물리는 AI 마케팅 에이전트

어도비가 서밋 2026에서 기업용 AI 마케팅 시스템 'CX 엔터프라이즈'를 공개했다. 오픈AI·앤트로픽·구글·MS 등 7개 AI 벤더와 모두 연동해 고객사가 어떤 LLM을 쓰든 어도비 마케팅 기능을 그대로 호출할 수 있게 한 개방 전략이 특징이다. 세계 6대 광고 에이전시가 당일 표준 도구로 채택했고 결제 연동까지 포함됐다.

ai-ml

회사 코드에 AI가 얼마나 들어갔나 추적하는 오픈소스 'PatchTrack' 공개…오픈소스 PR 40.7%에서 챗GPT 흔적 발견

네바다대학교 연구팀이 챗GPT 제안 코드가 실제 소프트웨어에 반영된 비율을 토큰 단위로 측정하는 도구 PatchTrack을 공개했다. 머지된 오픈소스 PR 285건 분석 결과 40.7%에서 챗GPT 코드가 실제 반영됐고, 채택된 코드의 중앙값은 AI 제안의 25%에 불과했다. 거부된 코드의 주요 사유는 품질이 아닌 프로젝트 관습/아키텍처 불일치로 나타났다.

ai-ml

구글 클라우드, 한국 3각 편대 공개 — 카뱅 전사 AI · CJ ENM · 메가존 파트너십

구글 클라우드가 넥스트 2026 직전 한국 협력 사례를 공개. 카카오뱅크는 전 임직원 1,800명 대상 제미나이 엔터프라이즈 전사 도입, CJ ENM은 Veo/Imagen으로 영상 제작 R&D, 메가존소프트는 전략적 파트너십(SPA) 체결. 금융·콘텐츠·파트너 3축으로 국내 에이전틱 AI 전환 본격화.

ai-ml

칭화대 교수가 만든 '즈푸AI' — 세계 최초 LLM 상장, GLM-4.7로 GPT에 도전

칭화대 교수 탕제가 창업한 중국 AI 스타트업 즈푸AI가 2026년 1월 홍콩 증시에 1,159대 1 경쟁률로 상장 — 세계 최초 LLM 순수 스타트업 상장 사례. GLM-4.7은 LiveCodeBench 84.9%, SWE-bench 73.8% 기록하며 Claude API 대비 10분의 1 가격으로 시장 재편을 시도 중.