코히어, H100 2장으로 돌리는 기업용 에이전트 모델 커맨드 A+ 공개

ai-ml 2026-05-22 약 6분

 tags

#llm #moe #rag #quantization #multimodal

vote

북마크

코히어가 기업용 AI 에이전트 업무에 맞춘 오픈소스 대규모 언어 모델 커맨드 A+를 아파치 2.0 라이선스로 공개했다. 2180억 매개변수 규모지만 추론 때는 250억개만 활성화하는 희소 전문가 혼합 구조를 쓰고, 4비트 버전은 H100 2장이나 단일 블랙웰 GPU로 구동 가능하다는 점이 핵심이다.

1
커맨드 A+는 텍스트, 이미지, 도구 사용을 하나로 처리하는 멀티모달 모델임
2
전체 2180억 매개변수 중 추론 시 250억개만 활성화하는 희소 전문가 혼합 구조를 채택함
3
최대 12만8000 토큰 입력과 6만4000 토큰 생성을 지원함
4
4비트 양자화 버전은 H100 2장 또는 단일 블랙웰 GPU로 실행 가능함
5
한국어 토큰 효율이 16% 개선되고 출력 속도도 최대 63% 증가함

기업용 에이전트 모델을 하나로 합침

코히어가 기업용 AI 에이전트에 맞춘 오픈소스 대규모 언어 모델(LLM) 커맨드 A+를 공개함
- 라이선스는 아파치 2.0이라 무료 상업 활용이 가능함
- 허깅페이스와 코히어의 모델 배포 플랫폼 모델 볼트에서 받을 수 있고, API와 무료 체험 환경도 같이 열림
커맨드 A+는 기존 커맨드 A 계열 4개 모델의 역할을 하나로 합친 모델임
- 커맨드 A, 커맨드 A 리즈닝, 커맨드 A 비전, 커맨드 A 트랜슬레이트 기능을 통합함
- 텍스트, 이미지, 도구 사용을 동시에 처리하는 멀티모달 모델로 설계됨
- 코히어가 특히 강조한 용도는 에이전트형 워크플로, 검색증강생성(RAG), 멀티모달 문서 처리, 다국어 추론임
스펙만 보면 “큰데 싸게 돌리려는” 의도가 선명함
- 전체 매개변수는 2180억개지만, 실제 추론 때 활성화되는 매개변수는 250억개 수준임
- 희소 전문가 혼합(Sparse MoE) 구조를 써서 128개 전문가 네트워크 중 토큰별로 8개만 선택적으로 동작시킴
- 최대 입력은 12만8000 토큰, 최대 생성은 6만4000 토큰까지 지원함

❗중요

> 제일 눈에 띄는 숫자는 4비트 버전 기준 단일 블랙웰 GPU 또는 H100 2장으로 구동 가능하다는 점임. 온프레미스나 자체 클라우드에서 기업용 에이전트를 돌리려는 팀에 바로 비용 계산 포인트가 됨.

양자화와 벤치마크 숫자가 꽤 공격적임

커맨드 A+는 16비트, 8비트, 4비트 양자화 버전으로 제공됨
- 16비트는 BF16, 8비트는 FP8, 4비트는 W4A4 형태임
- 가장 가벼운 W4A4 버전이 H100 2장으로 돌아간다는 게 이번 발표의 핵심 포인트 중 하나임
- 코히어는 4비트에서도 성능 저하를 줄이려고 양자화 인식 증류(QAD)를 적용했다고 설명함
에이전트와 업무 자동화 쪽 벤치마크 개선 폭이 큼
- 통신 분야 AI 벤치마크인 타우2-벤치 텔레콤 점수는 기존 37%에서 85%로 상승함
- 에이전트형 코딩 테스트 터미널-벤치 하드는 3%에서 25%로 올라감
- 기업용 플랫폼 노스 내부 평가에서는 클라우드 파일 시스템 연결 질의응답 정확도가 20% 개선됨
- 스프레드시트 분석 품질은 32% 좋아졌고, 이전 세션 정보를 활용하는 메모리 성능은 39%에서 54%로 높아짐
멀티모달과 시각 추론도 강화됨
- 이미지와 문서 이해 능력을 보는 MMMU 벤치마크에서 75.1%를 기록함
- 수학 시각 추론 벤치마크 매스비스타 점수는 73.5%에서 80.6%로 상승함
- 기업 문서, 이미지 포함 보고서, 스프레드시트 같은 입력을 한 모델로 처리하려는 쪽에 초점이 맞춰져 있음

한국어와 추론 속도도 직접 언급됨

다국어 지원은 23개 언어에서 48개 언어로 확대됨
- 토크나이저 효율도 개선돼 같은 응답을 만드는 데 필요한 토큰 수가 줄었다고 함
- 아랍어는 20%, 한국어는 16%, 일본어는 18% 효율이 좋아졌다고 코히어가 밝힘
- 한국어 서비스 운영하는 팀 입장에서는 응답 품질뿐 아니라 토큰 비용에도 연결되는 숫자라 그냥 지나치기 어려움
추론 속도 쪽도 꽤 많이 손봄
- 같은 양자화 환경 기준으로 기존 모델보다 초당 출력 토큰 수는 최대 63% 증가함
- 첫 응답 생성 시간은 최대 17% 감소함
- MoE 전용 추측적 디코딩을 적용해 텍스트와 멀티모달 입력 처리 속도를 추가로 1.5배에서 1.6배 높였다고 설명함
코히어의 메시지는 “기업이 자기 인프라에서 모델을 직접 실행하고 제어하게 하겠다”에 가까움
- 개발자가 모델을 실행, 제어, 수정할 수 있어야 한다는 점을 강조함
- 폐쇄형 API만 쓰기 애매한 기업, 특히 데이터 통제나 비용 예측이 중요한 팀을 겨냥한 발표로 보임

기술 맥락

커맨드 A+의 핵심 선택은 큰 모델을 그대로 매번 돌리는 대신 Sparse MoE로 필요한 전문가만 켜는 거예요. 전체 모델 크기는 2180억 매개변수지만 추론 때는 250억개 수준만 활성화하니, 기업 입장에서는 성능과 비용 사이의 타협점을 만들 수 있거든요.
4비트 양자화에 QAD를 붙인 것도 같은 맥락이에요. 양자화는 메모리와 비용을 줄이는 대신 성능 손실이 생기기 쉬운데, 코히어는 고정밀 모델의 출력 분포를 학습시키는 방식으로 그 손실을 줄였다고 설명해요.
벤치마크 선택도 흥미롭습니다. 단순 챗봇 점수보다 통신 업무, 터미널 기반 코딩, 클라우드 파일 질의응답, 스프레드시트 분석처럼 기업 에이전트가 실제로 부딪히는 작업을 앞에 세웠거든요.
한국어 토큰 효율 16% 개선은 국내 팀에 꽤 실용적인 숫자예요. 같은 답변을 더 적은 토큰으로 만들 수 있으면 지연 시간과 비용이 같이 내려가고, 장문 문서 처리에서도 컨텍스트 예산을 덜 잡아먹게 돼요.

기업용 LLM 경쟁이 단순 점수 싸움에서 자체 인프라, 에이전트 워크플로, 비용 통제 쪽으로 이동하는 흐름이 잘 보인다. 한국어 토큰 효율 16% 개선까지 명시된 건 국내 팀이 실제 운영비 관점에서 볼 만한 포인트다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

코히어, H100 2장으로 돌리는 기업용 에이전트 모델 커맨드 A+ 공개

요약

핵심 포인트

핵심 개념

분석

기업용 에이전트 모델을 하나로 합침

양자화와 벤치마크 숫자가 꽤 공격적임

한국어와 추론 속도도 직접 언급됨

기술 맥락

인사이트

댓글

댓글

코히어, H100 2장으로 돌리는 기업용 에이전트 모델 커맨드 A+ 공개

요약

핵심 포인트

핵심 개념

분석

기업용 에이전트 모델을 하나로 합침

양자화와 벤치마크 숫자가 꽤 공격적임

한국어와 추론 속도도 직접 언급됨

기술 맥락

인사이트

댓글

댓글

관련 기사