본문으로 건너뛰기
피드

코히어, H100 2장으로 돌리는 기업용 에이전트 모델 커맨드 A+ 공개

ai-ml 약 6분
vote
0
댓글
북마크

코히어가 기업용 AI 에이전트 업무에 맞춘 오픈소스 대규모 언어 모델 커맨드 A+를 아파치 2.0 라이선스로 공개했다. 2180억 매개변수 규모지만 추론 때는 250억개만 활성화하는 희소 전문가 혼합 구조를 쓰고, 4비트 버전은 H100 2장이나 단일 블랙웰 GPU로 구동 가능하다는 점이 핵심이다.

  • 1

    커맨드 A+는 텍스트, 이미지, 도구 사용을 하나로 처리하는 멀티모달 모델임

  • 2

    전체 2180억 매개변수 중 추론 시 250억개만 활성화하는 희소 전문가 혼합 구조를 채택함

  • 3

    최대 12만8000 토큰 입력과 6만4000 토큰 생성을 지원함

  • 4

    4비트 양자화 버전은 H100 2장 또는 단일 블랙웰 GPU로 실행 가능함

  • 5

    한국어 토큰 효율이 16% 개선되고 출력 속도도 최대 63% 증가함

기업용 에이전트 모델을 하나로 합침

  • 코히어가 기업용 AI 에이전트에 맞춘 오픈소스 대규모 언어 모델(LLM) 커맨드 A+를 공개함

    • 라이선스는 아파치 2.0이라 무료 상업 활용이 가능함
    • 허깅페이스와 코히어의 모델 배포 플랫폼 모델 볼트에서 받을 수 있고, API와 무료 체험 환경도 같이 열림
  • 커맨드 A+는 기존 커맨드 A 계열 4개 모델의 역할을 하나로 합친 모델임

    • 커맨드 A, 커맨드 A 리즈닝, 커맨드 A 비전, 커맨드 A 트랜슬레이트 기능을 통합함
    • 텍스트, 이미지, 도구 사용을 동시에 처리하는 멀티모달 모델로 설계됨
    • 코히어가 특히 강조한 용도는 에이전트형 워크플로, 검색증강생성(RAG), 멀티모달 문서 처리, 다국어 추론임
  • 스펙만 보면 “큰데 싸게 돌리려는” 의도가 선명함

    • 전체 매개변수는 2180억개지만, 실제 추론 때 활성화되는 매개변수는 250억개 수준임
    • 희소 전문가 혼합(Sparse MoE) 구조를 써서 128개 전문가 네트워크 중 토큰별로 8개만 선택적으로 동작시킴
    • 최대 입력은 12만8000 토큰, 최대 생성은 6만4000 토큰까지 지원함

중요

> 제일 눈에 띄는 숫자는 4비트 버전 기준 단일 블랙웰 GPU 또는 H100 2장으로 구동 가능하다는 점임. 온프레미스나 자체 클라우드에서 기업용 에이전트를 돌리려는 팀에 바로 비용 계산 포인트가 됨.

양자화와 벤치마크 숫자가 꽤 공격적임

  • 커맨드 A+는 16비트, 8비트, 4비트 양자화 버전으로 제공됨

    • 16비트는 BF16, 8비트는 FP8, 4비트는 W4A4 형태임
    • 가장 가벼운 W4A4 버전이 H100 2장으로 돌아간다는 게 이번 발표의 핵심 포인트 중 하나임
    • 코히어는 4비트에서도 성능 저하를 줄이려고 양자화 인식 증류(QAD)를 적용했다고 설명함
  • 에이전트와 업무 자동화 쪽 벤치마크 개선 폭이 큼

    • 통신 분야 AI 벤치마크인 타우2-벤치 텔레콤 점수는 기존 37%에서 85%로 상승함
    • 에이전트형 코딩 테스트 터미널-벤치 하드는 3%에서 25%로 올라감
    • 기업용 플랫폼 노스 내부 평가에서는 클라우드 파일 시스템 연결 질의응답 정확도가 20% 개선됨
    • 스프레드시트 분석 품질은 32% 좋아졌고, 이전 세션 정보를 활용하는 메모리 성능은 39%에서 54%로 높아짐
  • 멀티모달과 시각 추론도 강화됨

    • 이미지와 문서 이해 능력을 보는 MMMU 벤치마크에서 75.1%를 기록함
    • 수학 시각 추론 벤치마크 매스비스타 점수는 73.5%에서 80.6%로 상승함
    • 기업 문서, 이미지 포함 보고서, 스프레드시트 같은 입력을 한 모델로 처리하려는 쪽에 초점이 맞춰져 있음

한국어와 추론 속도도 직접 언급됨

  • 다국어 지원은 23개 언어에서 48개 언어로 확대됨

    • 토크나이저 효율도 개선돼 같은 응답을 만드는 데 필요한 토큰 수가 줄었다고 함
    • 아랍어는 20%, 한국어는 16%, 일본어는 18% 효율이 좋아졌다고 코히어가 밝힘
    • 한국어 서비스 운영하는 팀 입장에서는 응답 품질뿐 아니라 토큰 비용에도 연결되는 숫자라 그냥 지나치기 어려움
  • 추론 속도 쪽도 꽤 많이 손봄

    • 같은 양자화 환경 기준으로 기존 모델보다 초당 출력 토큰 수는 최대 63% 증가함
    • 첫 응답 생성 시간은 최대 17% 감소함
    • MoE 전용 추측적 디코딩을 적용해 텍스트와 멀티모달 입력 처리 속도를 추가로 1.5배에서 1.6배 높였다고 설명함
  • 코히어의 메시지는 “기업이 자기 인프라에서 모델을 직접 실행하고 제어하게 하겠다”에 가까움

    • 개발자가 모델을 실행, 제어, 수정할 수 있어야 한다는 점을 강조함
    • 폐쇄형 API만 쓰기 애매한 기업, 특히 데이터 통제나 비용 예측이 중요한 팀을 겨냥한 발표로 보임

기술 맥락

  • 커맨드 A+의 핵심 선택은 큰 모델을 그대로 매번 돌리는 대신 Sparse MoE로 필요한 전문가만 켜는 거예요. 전체 모델 크기는 2180억 매개변수지만 추론 때는 250억개 수준만 활성화하니, 기업 입장에서는 성능과 비용 사이의 타협점을 만들 수 있거든요.

  • 4비트 양자화에 QAD를 붙인 것도 같은 맥락이에요. 양자화는 메모리와 비용을 줄이는 대신 성능 손실이 생기기 쉬운데, 코히어는 고정밀 모델의 출력 분포를 학습시키는 방식으로 그 손실을 줄였다고 설명해요.

  • 벤치마크 선택도 흥미롭습니다. 단순 챗봇 점수보다 통신 업무, 터미널 기반 코딩, 클라우드 파일 질의응답, 스프레드시트 분석처럼 기업 에이전트가 실제로 부딪히는 작업을 앞에 세웠거든요.

  • 한국어 토큰 효율 16% 개선은 국내 팀에 꽤 실용적인 숫자예요. 같은 답변을 더 적은 토큰으로 만들 수 있으면 지연 시간과 비용이 같이 내려가고, 장문 문서 처리에서도 컨텍스트 예산을 덜 잡아먹게 돼요.

기업용 LLM 경쟁이 단순 점수 싸움에서 자체 인프라, 에이전트 워크플로, 비용 통제 쪽으로 이동하는 흐름이 잘 보인다. 한국어 토큰 효율 16% 개선까지 명시된 건 국내 팀이 실제 운영비 관점에서 볼 만한 포인트다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.