---
title: "코히어, H100 2장으로 돌리는 기업용 에이전트 모델 커맨드 A+ 공개"
published: 2026-05-22T08:05:02.785Z
canonical: https://jeff.news/article/3154
---
# 코히어, H100 2장으로 돌리는 기업용 에이전트 모델 커맨드 A+ 공개

코히어가 기업용 AI 에이전트 업무에 맞춘 오픈소스 대규모 언어 모델 커맨드 A+를 아파치 2.0 라이선스로 공개했다. 2180억 매개변수 규모지만 추론 때는 250억개만 활성화하는 희소 전문가 혼합 구조를 쓰고, 4비트 버전은 H100 2장이나 단일 블랙웰 GPU로 구동 가능하다는 점이 핵심이다.

## 기업용 에이전트 모델을 하나로 합침

- 코히어가 기업용 AI 에이전트에 맞춘 오픈소스 대규모 언어 모델(LLM) 커맨드 A+를 공개함
  - 라이선스는 아파치 2.0이라 무료 상업 활용이 가능함
  - 허깅페이스와 코히어의 모델 배포 플랫폼 모델 볼트에서 받을 수 있고, API와 무료 체험 환경도 같이 열림

- 커맨드 A+는 기존 커맨드 A 계열 4개 모델의 역할을 하나로 합친 모델임
  - 커맨드 A, 커맨드 A 리즈닝, 커맨드 A 비전, 커맨드 A 트랜슬레이트 기능을 통합함
  - 텍스트, 이미지, 도구 사용을 동시에 처리하는 멀티모달 모델로 설계됨
  - 코히어가 특히 강조한 용도는 에이전트형 워크플로, 검색증강생성(RAG), 멀티모달 문서 처리, 다국어 추론임

- 스펙만 보면 “큰데 싸게 돌리려는” 의도가 선명함
  - 전체 매개변수는 2180억개지만, 실제 추론 때 활성화되는 매개변수는 250억개 수준임
  - 희소 전문가 혼합(Sparse MoE) 구조를 써서 128개 전문가 네트워크 중 토큰별로 8개만 선택적으로 동작시킴
  - 최대 입력은 12만8000 토큰, 최대 생성은 6만4000 토큰까지 지원함

> [!IMPORTANT]
> 제일 눈에 띄는 숫자는 4비트 버전 기준 단일 블랙웰 GPU 또는 H100 2장으로 구동 가능하다는 점임. 온프레미스나 자체 클라우드에서 기업용 에이전트를 돌리려는 팀에 바로 비용 계산 포인트가 됨.

## 양자화와 벤치마크 숫자가 꽤 공격적임

- 커맨드 A+는 16비트, 8비트, 4비트 양자화 버전으로 제공됨
  - 16비트는 BF16, 8비트는 FP8, 4비트는 W4A4 형태임
  - 가장 가벼운 W4A4 버전이 H100 2장으로 돌아간다는 게 이번 발표의 핵심 포인트 중 하나임
  - 코히어는 4비트에서도 성능 저하를 줄이려고 양자화 인식 증류(QAD)를 적용했다고 설명함

- 에이전트와 업무 자동화 쪽 벤치마크 개선 폭이 큼
  - 통신 분야 AI 벤치마크인 타우2-벤치 텔레콤 점수는 기존 37%에서 85%로 상승함
  - 에이전트형 코딩 테스트 터미널-벤치 하드는 3%에서 25%로 올라감
  - 기업용 플랫폼 노스 내부 평가에서는 클라우드 파일 시스템 연결 질의응답 정확도가 20% 개선됨
  - 스프레드시트 분석 품질은 32% 좋아졌고, 이전 세션 정보를 활용하는 메모리 성능은 39%에서 54%로 높아짐

- 멀티모달과 시각 추론도 강화됨
  - 이미지와 문서 이해 능력을 보는 MMMU 벤치마크에서 75.1%를 기록함
  - 수학 시각 추론 벤치마크 매스비스타 점수는 73.5%에서 80.6%로 상승함
  - 기업 문서, 이미지 포함 보고서, 스프레드시트 같은 입력을 한 모델로 처리하려는 쪽에 초점이 맞춰져 있음

## 한국어와 추론 속도도 직접 언급됨

- 다국어 지원은 23개 언어에서 48개 언어로 확대됨
  - 토크나이저 효율도 개선돼 같은 응답을 만드는 데 필요한 토큰 수가 줄었다고 함
  - 아랍어는 20%, 한국어는 16%, 일본어는 18% 효율이 좋아졌다고 코히어가 밝힘
  - 한국어 서비스 운영하는 팀 입장에서는 응답 품질뿐 아니라 토큰 비용에도 연결되는 숫자라 그냥 지나치기 어려움

- 추론 속도 쪽도 꽤 많이 손봄
  - 같은 양자화 환경 기준으로 기존 모델보다 초당 출력 토큰 수는 최대 63% 증가함
  - 첫 응답 생성 시간은 최대 17% 감소함
  - MoE 전용 추측적 디코딩을 적용해 텍스트와 멀티모달 입력 처리 속도를 추가로 1.5배에서 1.6배 높였다고 설명함

- 코히어의 메시지는 “기업이 자기 인프라에서 모델을 직접 실행하고 제어하게 하겠다”에 가까움
  - 개발자가 모델을 실행, 제어, 수정할 수 있어야 한다는 점을 강조함
  - 폐쇄형 API만 쓰기 애매한 기업, 특히 데이터 통제나 비용 예측이 중요한 팀을 겨냥한 발표로 보임

---

## 기술 맥락

- 커맨드 A+의 핵심 선택은 큰 모델을 그대로 매번 돌리는 대신 Sparse MoE로 필요한 전문가만 켜는 거예요. 전체 모델 크기는 2180억 매개변수지만 추론 때는 250억개 수준만 활성화하니, 기업 입장에서는 성능과 비용 사이의 타협점을 만들 수 있거든요.

- 4비트 양자화에 QAD를 붙인 것도 같은 맥락이에요. 양자화는 메모리와 비용을 줄이는 대신 성능 손실이 생기기 쉬운데, 코히어는 고정밀 모델의 출력 분포를 학습시키는 방식으로 그 손실을 줄였다고 설명해요.

- 벤치마크 선택도 흥미롭습니다. 단순 챗봇 점수보다 통신 업무, 터미널 기반 코딩, 클라우드 파일 질의응답, 스프레드시트 분석처럼 기업 에이전트가 실제로 부딪히는 작업을 앞에 세웠거든요.

- 한국어 토큰 효율 16% 개선은 국내 팀에 꽤 실용적인 숫자예요. 같은 답변을 더 적은 토큰으로 만들 수 있으면 지연 시간과 비용이 같이 내려가고, 장문 문서 처리에서도 컨텍스트 예산을 덜 잡아먹게 돼요.

## 핵심 포인트

- 커맨드 A+는 텍스트, 이미지, 도구 사용을 하나로 처리하는 멀티모달 모델임
- 전체 2180억 매개변수 중 추론 시 250억개만 활성화하는 희소 전문가 혼합 구조를 채택함
- 최대 12만8000 토큰 입력과 6만4000 토큰 생성을 지원함
- 4비트 양자화 버전은 H100 2장 또는 단일 블랙웰 GPU로 실행 가능함
- 한국어 토큰 효율이 16% 개선되고 출력 속도도 최대 63% 증가함

## 인사이트

기업용 LLM 경쟁이 단순 점수 싸움에서 자체 인프라, 에이전트 워크플로, 비용 통제 쪽으로 이동하는 흐름이 잘 보인다. 한국어 토큰 효율 16% 개선까지 명시된 건 국내 팀이 실제 운영비 관점에서 볼 만한 포인트다.
