본문으로 건너뛰기
피드

Kimi K2.7-Code 공개, 긴 코딩 작업에서 생각 토큰을 30% 줄인 오픈 모델

ai-ml 약 8분
vote
0
댓글
북마크

Moonshot AI가 Kimi K2.6 기반의 코딩 특화 에이전트 모델 Kimi K2.7-Code를 공개했다. 실전형 장기 코딩 작업 성능을 끌어올리고, K2.6 대비 생각 토큰 사용량을 약 30% 줄인 것이 핵심이다.

  • 1

    Kimi K2.7-Code는 복잡한 소프트웨어 엔지니어링 워크플로를 끝까지 수행하는 코딩 에이전트 모델로 소개됨

  • 2

    생각 모드 기준 K2.6 대비 생각 토큰 사용량을 약 30% 줄였다고 밝힘

  • 3

    컨텍스트 길이는 벤치마크에서 262,144토큰으로 설정됐고, vLLM·SGLang·KTransformers 배포를 지원함

  • 4

    모델은 네이티브 int4 양자화를 사용하고, 코드 저장소와 모델 가중치는 수정 MIT 라이선스로 공개됨

  • 5

    이미지·비디오 입력, 추론 보존, 다단계 도구 호출 같은 에이전트형 기능을 지원함

무엇이 나왔나

  • Moonshot AI가 코딩 특화 오픈 모델 Kimi K2.7-Code를 공개함

    • Kimi K2.6을 기반으로 만든 에이전트형 코딩 모델임
    • 목표는 단발성 코드 생성보다, 복잡한 소프트웨어 엔지니어링 작업을 끝까지 수행하는 쪽에 가까움
    • 모델 저장소와 가중치는 수정 MIT 라이선스로 공개됨
  • 가장 눈에 띄는 숫자는 ‘생각 토큰 약 30% 감소’임

    • Moonshot은 K2.7-Code가 K2.6 대비 생각 토큰 사용량을 약 30% 줄였다고 설명함
    • 코딩 에이전트에서는 추론 토큰이 곧 비용과 지연시간이라, 이 숫자는 그냥 홍보 문구로 넘기기 애매함
    • 긴 작업을 많이 돌리는 팀이라면 모델 성능만큼이나 토큰 효율이 바로 운영비로 이어짐

중요

> K2.7-Code의 포인트는 ‘더 똑똑한 코딩 모델’만이 아니라 ‘긴 코딩 작업을 더 적은 추론 토큰으로 처리한다’는 주장임. 에이전트 비용 계산할 때 꽤 중요한 축임.

벤치마크와 사용 조건

  • 벤치마크는 꽤 에이전트 지향으로 구성됨

    • 자체 벤치마크인 Kimi Code Bench V2는 백엔드, 인프라, 성능 엔지니어링, 시스템 프로그래밍, 보안, 프런트엔드, 머신러닝·데이터 엔지니어링 등을 포함한다고 밝힘
    • Program Bench는 컴파일된 바이너리와 문서만 보고 프로그램 동작을 재현하는 200개 과제로 구성됨
    • 제출물은 248,000개 이상의 퍼즈 생성 행동 테스트로 원본 바이너리와 비교됨
  • 장기 작업 평가도 들어감

    • Kimi Claw 24/7 Bench는 여러 날 지속되는 동료 작업 시나리오를 평가하는 자체 벤치마크임
    • 17개 전문 시나리오와 610개 평가 포인트를 포함하고, 소프트웨어 엔지니어링뿐 아니라 머신러닝 연구, 리크루팅, 트레이딩, 마케팅까지 다룸
    • 결과는 OpenClaw 하네스에서 3회 실행 평균으로 계산됨
  • 도구 사용 벤치마크도 빠지지 않음

    • MCP-Atlas는 현실적인 도구 사용 작업을 평가하고, 설정은 100회 도구 호출 예산과 단계당 최대 32,000토큰임
    • MCPMark-Verified는 Notion, GitHub, 파일시스템, Postgres, Playwright 같은 실제 서버 환경에서 MCP 도구 사용을 평가함
    • 이것도 100단계 도구 호출 예산과 단계당 32,000토큰 설정으로 3회 평균을 냄

배포와 실행 방식

  • 배포 경로는 실무자가 바로 알아볼 만한 조합임

    • vLLM, SGLang, KTransformers를 권장 추론 엔진으로 제시함
    • Kimi K2.5, K2.6과 같은 아키텍처라 기존 배포 방식을 재사용할 수 있다고 밝힘
    • Transformers 버전 요구사항은 4.57.1 이상, 5.0.0 미만임
  • 자체 API도 OpenAI·Anthropic 호환 형태로 제공됨

    • 공식 API는 platform.moonshot.ai에서 접근 가능하다고 안내함
    • vLLM이나 SGLang으로 띄우면 OpenAI 호환 채팅 완성 API처럼 호출하는 예제가 제공됨
    • Docker Model Runner로는 hf.co/moonshotai/Kimi-K2.7-Code 형태 실행도 안내됨
  • 네이티브 int4 양자화를 채택함

    • Kimi-K2-Thinking과 같은 native int4 quantization 방식을 쓴다고 설명함
    • 대형 코딩 모델을 직접 올릴 때 GPU 메모리 부담을 낮추는 쪽의 선택임

💡

> 자체 호스팅을 볼 거면 모델 점수보다 먼저 vLLM·SGLang 지원, 컨텍스트 길이, int4 배포 가능성, 추론 토큰 사용량을 같이 봐야 함. 코딩 에이전트는 ‘한 번 호출’이 아니라 ‘오래 굴리는 시스템’이라서 운영비가 빨리 튐.

에이전트 기능 쪽 디테일

  • K2.7-Code는 생각 모드를 강제하는 설계임

    • 권장 temperature는 1.0, top_p는 0.95로 제시됨
    • 즉시 모드는 지원하지 않는다고 밝힘
    • preserve_thinking이 기본 활성화되어 있고 끌 수 없음
  • preserve_thinking은 멀티턴 코딩 에이전트에서 중요한 기능임

    • 이전 턴의 추론 내용을 보존해 다음 턴에서 이어갈 수 있게 하는 방식임
    • 예제로는 모델이 내부 추론에서 떠올린 숫자를 다음 사용자 질문에서 기억해 답하는 흐름을 보여줌
    • 실제 개발 작업에서는 ‘왜 이렇게 고쳤는지’의 맥락을 다음 단계로 넘기는 데 영향을 줄 수 있음
  • 이미지와 비디오 입력도 지원함

    • 이미지 입력 예제는 공식 API와 OpenAI 호환 메시지 포맷을 사용함
    • 비디오 입력은 현재 공식 API에서만 실험적으로 지원된다고 적혀 있음
    • 제3자 API로 vLLM이나 SGLang을 쓸 때는 비디오 지원 범위가 제한됨
  • Kimi Code CLI와 함께 쓸 때 가장 잘 맞는다고 안내함

    • Moonshot은 Kimi K2.7-Code가 Kimi Code CLI를 코딩 에이전트 프레임워크로 사용할 때 가장 잘 작동한다고 설명함
    • Interleaved Thinking과 Multi-Step Tool Call 설계는 K2 Thinking과 같은 방향이라고 밝힘

기술 맥락

  • Kimi K2.7-Code의 핵심 선택은 모델을 ‘코드 생성기’가 아니라 ‘코딩 에이전트용 실행 엔진’으로 잡은 거예요. 그래서 평가도 단순 문제풀이보다 긴 작업, 도구 호출, 실제 프로젝트형 과제 쪽으로 많이 기울어져 있어요.

  • 생각 토큰 30% 절감이 중요한 이유는 에이전트가 한 번 답하고 끝나지 않기 때문이에요. 파일 읽기, 수정, 테스트, 재시도, 도구 호출을 반복하면 추론 토큰이 계속 쌓이고, 그게 곧 비용과 응답 지연으로 돌아오거든요.

  • vLLM, SGLang, KTransformers를 배포 경로로 둔 것도 실무적인 선택이에요. 연구용 데모가 아니라 사내 개발 도구나 자동화 파이프라인에 붙이려면 OpenAI 호환 API, 컨텍스트 길이, GPU 메모리 효율이 같이 맞아야 해요.

  • preserve_thinking을 끌 수 없게 한 건 성능 쪽에는 유리할 수 있지만 운영 정책상 검토할 부분도 생겨요. 멀티턴 작업 맥락을 강하게 유지하는 대신, 추론 내용 보존이 로깅·프라이버시·비용 관리와 어떻게 맞물리는지 봐야 하거든요.

  • 결국 이 모델은 “벤치마크 점수가 몇 점이냐”보다 “우리 팀의 장기 코딩 작업에서 비용 대비 완료율이 좋아지냐”로 평가하는 게 맞아요. 특히 자체 호스팅을 고려한다면 int4 양자화와 추론 엔진 지원이 실제 도입 난이도를 크게 좌우해요.

요즘 코딩 모델 경쟁은 단순 코드 생성보다 ‘긴 작업을 얼마나 적은 토큰으로 끝까지 끌고 가느냐’로 옮겨가고 있다. Kimi K2.7-Code의 30% 토큰 절감 주장은 실제 비용과 지연시간에 바로 연결되기 때문에, 자체 호스팅이나 에이전트 도입을 고민하는 팀이면 볼 만하다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

플랜바이, 건축 설계 AI 자동화 들고 북미 AEC 시장 공략

플랜바이테크놀로지스가 AIA 컨퍼런스 온 아키텍처 & 디자인 2026에서 건축 시각화 플랫폼 플라나와 외관 설계 워크플로우 플랫폼 플래드를 북미 시장에 공개한다. 클라우드 AI 렌더링, 노드 기반 설계, 위성 지도 연동을 앞세워 반복 시안 작업과 고비용 렌더링 문제를 줄이겠다는 그림이다.

ai-ml

AI 인프라 사이클, 한국은 이제 ‘모델’보다 ‘공장’을 봐야 한다

AI 투자는 단순한 서버 증설이 아니라 지능·추론·코딩 비용을 낮추는 새 생산함수에 대한 설비투자로 봐야 한다는 분석이다. 미국 중심으로 시작된 GPU·데이터센터 투자 사이클이 한국에서는 HBM, 전력·냉각, 통신, 클라우드, SI, 로봇·자동화까지 확장될 수 있다는 게 핵심이다. 다만 실제 투자 사이클로 인정받으려면 전력 수전, GPU 조달, 앵커 테넌트 확보가 확인돼야 한다.

ai-ml

비즈니스 AI, 결국 승부는 모델보다 데이터 품질

생성형 AI를 업무에 쓰려면 프롬프트만 잘 쓰는 걸로는 부족하고, AI가 참고하는 데이터의 품질과 범위를 관리해야 한다는 내용이다. 최신 반도체, 서버, 알고리즘보다 먼저 봐야 할 건 AI가 무엇을 학습하고 어떤 맥락을 보고 답하는지라는 점을 짚는다.

ai-ml

AI가 화면 밖으로 나왔다, 인간형 로봇 공장 투입이 본격화되는 중

챗봇과 이미지 생성 중심이던 AI 투자 열기가 로봇, 자율주행, 물류 자동화 같은 현실 세계로 옮겨가고 있다는 분석이 나왔다. 2026년 상반기 로봇 기업 투자액은 558억 달러로 이미 전년도 연간 기록의 거의 두 배에 달했고, BMW·토요타·아마존·테슬라·엔비디아가 전면에 서 있다.

ai-ml

어렵던 블록체인, 이제 AI 비서가 붙는 중

블록체인은 관심도 면에서 AI에 밀린 것처럼 보이지만, 디지털 자산의 보유와 이전을 기록하는 인프라 역할은 여전히 남아 있어. 문제는 지갑, 시드 문구, 서명, 수수료 같은 사용 경험이 너무 어렵다는 점이고, AI가 이 복잡한 절차를 사람 말로 풀어주는 인터페이스가 될 수 있다는 내용이야.