---
title: "미스트랄, 128B 오픈웨이트 모델과 클라우드 코딩 에이전트 공개"
published: 2026-04-29T15:17:46.000Z
canonical: https://jeff.news/article/1965
---
# 미스트랄, 128B 오픈웨이트 모델과 클라우드 코딩 에이전트 공개

미스트랄이 새 기본 모델인 Mistral Medium 3.5를 공개하고, 코딩 에이전트를 로컬 터미널 밖 클라우드로 옮겼다. Vibe CLI나 Le Chat에서 작업을 던지면 에이전트가 샌드박스에서 오래 실행되고, 끝나면 브랜치나 초안 풀 리퀘스트까지 만들어주는 흐름이다. 모델은 128B dense 구조, 256k 컨텍스트, SWE-Bench Verified 77.6%, API 입력 100만 토큰당 1.5달러라는 꽤 공격적인 조합을 들고 나왔다.

## 코딩 에이전트가 이제 로컬 터미널 밖으로 나감

- 미스트랄이 Mistral Medium 3.5를 공개하면서, 코딩 에이전트의 실행 위치를 로컬 노트북에서 클라우드로 옮기는 그림을 같이 내놨음
  - 기존 코딩 에이전트는 대체로 내 터미널에서 한 세션씩 붙잡고 돌리는 느낌이 강했음
  - 이번 Vibe remote agents는 세션이 클라우드에서 따로 돌고, 여러 개를 병렬로 실행할 수 있고, 끝나면 알림을 주는 구조임
  - 시작 지점도 Vibe CLI뿐 아니라 Le Chat 대화창까지 열어뒀음. 채팅하다가 “이 작업 코드로 해줘” 하고 넘기는 흐름을 노린 셈

- 핵심 모델은 Mistral Medium 3.5고, 이제 Le Chat과 Vibe CLI의 기본 모델로 들어감
  - 128B dense 모델이고, instruction-following, reasoning, coding을 하나의 가중치 세트로 합쳤다고 설명함
  - 컨텍스트 창은 256k라서 긴 코드베이스나 문서 묶음을 다루는 에이전트 작업에 맞춘 스펙임
  - reasoning effort를 요청마다 조절할 수 있어서, 가벼운 채팅 답변과 오래 걸리는 에이전트 실행을 같은 모델에서 처리하려는 방향임

> [!IMPORTANT]
> 미스트랄이 내세운 숫자는 SWE-Bench Verified 77.6%, τ³-Telecom 91.4임. 특히 SWE-Bench Verified는 실제 저장소 이슈를 고치는 능력을 보는 벤치마크라 코딩 에이전트 발표에서 꽤 중요한 카드임.

## Mistral Medium 3.5의 포지션

- 이 모델은 “제일 큰 모델” 경쟁보다 “에이전트를 오래 굴릴 수 있는 현실적인 플래그십” 쪽에 가까움
  - 미스트랄은 4개 GPU 정도로도 자체 호스팅이 가능하다고 주장함
  - 오픈웨이트로 공개됐고, 라이선스는 modified MIT임
  - API 가격은 입력 100만 토큰당 1.5달러, 출력 100만 토큰당 7.5달러로 제시됐음

- 모델이 목표로 하는 작업도 명확함. 짧은 코드 조각 생성보다 긴 호흡의 업무 자동화임
  - 여러 도구를 안정적으로 호출하는 작업
  - 다운스트림 코드가 바로 먹을 수 있는 구조화 출력 생성
  - 코딩, 분석, 리서치처럼 중간 단계가 길고 실패-수정 루프가 있는 작업

- 비전 인코더도 처음부터 새로 훈련했다고 밝힘
  - 다양한 이미지 크기와 종횡비를 처리하기 위한 목적이라고 함
  - 이 부분은 단순 텍스트 코딩 모델이 아니라 문서, 화면, 이미지가 섞인 작업까지 염두에 둔 신호로 볼 수 있음

## Vibe remote agents가 바꾸려는 개발 루틴

- Vibe remote agents는 “에이전트가 코드를 치는 과정”보다 “개발자가 결과물을 리뷰하는 방식”을 전면에 둠
  - 각 코딩 세션은 격리된 샌드박스에서 실행됨
  - broad edits와 패키지 설치 같은 작업도 샌드박스 안에서 처리할 수 있음
  - 끝나면 GitHub에 풀 리퀘스트를 열고 개발자에게 알릴 수 있음

- 로컬에서 돌리던 CLI 세션을 클라우드로 옮기는 기능도 있음. 표현이 꽤 노골적으로 “teleport”임
  - 세션 히스토리, 작업 상태, 승인 내역을 유지한 채 클라우드 런타임으로 넘기는 방식
  - 개발자가 자리를 비워도 긴 작업을 계속 돌리는 시나리오를 겨냥함
  - 여러 작업을 동시에 돌릴 수 있어서, 모듈 리팩터링이나 테스트 생성 같은 반복 작업에 특히 잘 맞음

- 연결되는 업무 도구도 개발팀이 실제로 쓰는 쪽으로 맞춰져 있음
  - GitHub는 코드와 풀 리퀘스트
  - Linear와 Jira는 이슈
  - Sentry는 인시던트
  - Slack과 Teams는 진행 상황 공유

```mermaid
sequenceDiagram
    participant 개발자
    participant Vibe_CLI
    participant 클라우드_에이전트
    participant GitHub
    participant Slack_Teams

    개발자->>Vibe_CLI: 코딩 작업 시작
    Vibe_CLI->>클라우드_에이전트: 세션 실행 또는 로컬 세션 이전
    클라우드_에이전트->>GitHub: 코드 수정 및 초안 풀 리퀘스트 생성
    클라우드_에이전트->>개발자: 진행 상태, 질문, 승인 요청 표시
    개발자->>클라우드_에이전트: 민감 작업 승인 또는 피드백
    클라우드_에이전트->>Slack_Teams: 완료 알림 전송
```

## Le Chat의 Work mode는 채팅 앱을 실행 백엔드로 밀어붙임

- Le Chat에는 Work mode라는 새 프리뷰 모드가 들어감
  - Mistral Medium 3.5와 새 agent harness 기반으로 동작함
  - Le Chat이 단순히 답변만 하는 게 아니라 읽기, 쓰기, 여러 도구 병렬 호출을 수행하는 실행 환경이 됨
  - 세션이 일반 채팅 답변보다 오래 유지돼서, 여러 턴과 시행착오를 거쳐 작업을 완료하는 구조임

- 예시 작업은 전형적인 지식노동 자동화 쪽임
  - 이메일, 메시지, 캘린더를 한 번에 훑어서 따라잡기
  - 회의 참석자 맥락, 최신 뉴스, 논의 포인트를 모아 회의 준비하기
  - 웹, 내부 문서, 연결된 도구를 뒤져 구조화된 리포트 만들기
  - 팀이나 고객 대화에서 Jira 이슈를 만들고 Slack에 요약 보내기

- 다만 권한과 승인 흐름은 꽤 강조함
  - 에이전트가 하는 모든 tool call과 reasoning rationale을 볼 수 있다고 설명함
  - 메시지 전송, 문서 작성, 데이터 수정 같은 민감한 작업은 권한에 따라 명시적 승인을 요구함
  - Work mode에서는 connector가 기본으로 켜져 있어, 에이전트가 문서, 메일함, 캘린더에 접근해 맥락을 가져올 수 있음

> [!WARNING]
> connector가 기본으로 켜지는 에이전트는 편하지만, 조직 입장에서는 권한 설계가 바로 보안 설계가 됨. “보여줄 수 있는 정보”와 “수정해도 되는 데이터”를 대충 묶으면 사고 나기 딱 좋음.

## 개발자 입장에서 중요한 지점

- 이 발표는 “새 모델 나왔음”보다 “코딩 에이전트를 어디에 배치할 것인가”가 더 큼
  - 로컬 터미널에 붙어 있는 에이전트는 결국 사용자의 시간과 세션에 묶임
  - 클라우드 에이전트는 오래 걸리는 작업을 백그라운드로 넘기고, 개발자는 diff와 PR을 중심으로 판단하게 됨
  - 잘 정의된 작업이 많을수록 병렬 실행의 이득이 커짐

- 미스트랄이 예시로 든 작업도 꽤 현실적임
  - 모듈 리팩터링
  - 테스트 생성
  - 의존성 업그레이드
  - CI 조사
  - 버그 수정
  - 즉, “개발자의 판단은 필요하지만 모든 키 입력을 사람이 할 필요는 없는 작업”을 노림

- 배포 채널도 넓게 잡았음
  - Mistral Vibe와 Le Chat에서는 바로 사용 가능
  - Pro, Team, Enterprise 플랜에서 remote coding agents와 Work mode를 제공
  - Hugging Face에는 오픈웨이트가 올라감
  - NVIDIA build.nvidia.com의 GPU 가속 엔드포인트와 NVIDIA NIM으로도 프로토타이핑 가능

---

## 기술 맥락

- 이번 선택의 핵심은 모델 자체를 “채팅 응답기”가 아니라 “오래 실행되는 작업자”에 맞췄다는 점이에요. 256k 컨텍스트, configurable reasoning effort, 구조화 출력은 전부 에이전트가 코드베이스와 외부 도구를 물고 오래 버티게 하려는 장치거든요.

- Vibe remote agents가 클라우드 샌드박스를 쓰는 이유는 개발자 로컬 환경에 묶이면 병렬성과 지속성이 바로 막히기 때문이에요. 로컬 세션을 클라우드로 옮기고, 여러 작업을 동시에 돌리고, 결과를 PR로 받는 구조가 되면 개발자는 실행자가 아니라 리뷰어에 더 가까워져요.

- Work mode에서 connector를 기본으로 켜는 것도 같은 맥락이에요. 이메일, 캘린더, 문서, 이슈 트래커의 맥락을 매번 사람이 붙여주면 에이전트가 할 수 있는 일이 얕아지니까, 아예 도구 접근을 실행 환경의 기본값으로 둔 거예요.

- 대신 이 구조는 권한과 감사 가능성이 중요해져요. 에이전트가 문서를 쓰고, 메시지를 보내고, 데이터를 수정할 수 있다면 tool call 표시와 명시적 승인은 기능이 아니라 안전장치에 가까워요.

## 핵심 포인트

- Mistral Medium 3.5는 instruction-following, reasoning, coding을 하나의 128B dense 모델에 합친 공개 프리뷰 모델
- Vibe remote agents는 코딩 세션을 클라우드 샌드박스에서 병렬로 돌리고, GitHub 풀 리퀘스트까지 이어주는 비동기 코딩 워크플로우
- Le Chat의 Work mode는 메일, 캘린더, 문서, 이슈 트래커 같은 도구를 연결해 다단계 작업을 수행하는 에이전트 모드
- 모델은 SWE-Bench Verified 77.6%, τ³-Telecom 91.4를 기록했고, 자체 호스팅은 최소 4개 GPU에서도 가능하다고 주장

## 인사이트

이번 발표의 포인트는 모델 숫자보다 개발자 작업 방식 쪽에 더 있음. 코딩 에이전트가 로컬 터미널 안에서 한 턴씩 답하던 단계에서, 클라우드에서 여러 작업을 병렬로 굴리고 PR 단위로 검토받는 쪽으로 이동하는 흐름이 꽤 선명해졌음.