본문으로 건너뛰기
피드

딥인프라, 1억700만 달러 유치…오픈소스 AI 추론 클라우드 판 키운다

ai-ml 약 7분

독립 AI 추론 클라우드 딥인프라가 시리즈B로 1억700만 달러를 유치했다. 자체 GPU 인프라를 운영하며 라마, 딥시크, 미스트랄 등 190개 이상 오픈소스 모델을 오픈AI 호환 API로 제공하고, 비용은 오픈AI 대비 5~10배 저렴하다고 내세운다.

  • 1

    딥인프라가 시리즈B 라운드에서 1억700만 달러 유치

  • 2

    미국 8개 데이터센터에서 GPU를 직접 소유·운영하는 수직통합 구조

  • 3

    190개 이상 오픈소스 모델을 오픈AI 호환 API로 제공

  • 4

    시리즈A 이후 처리 토큰 양이 25배 증가했고 현재 주당 거의 5조 토큰 처리

  • 5

    엔비디아, 삼성넥스트, 수퍼마이크로 등이 투자에 참여

추론 인프라가 AI의 새 전쟁터가 됨

  • 딥인프라가 시리즈B 라운드로 1억700만 달러를 유치함

    • 500 글로벌과 조르주 하릭이 공동 주도했고, 엔비디아, 삼성넥스트, 수퍼마이크로, A.Capital 벤처스, 크레센트 코브, 펠리시스, 피크식스, 어퍼90이 참여함
    • 자금은 글로벌 컴퓨팅 용량 확장과 개발자 도구 고도화에 쓸 계획임
  • 딥인프라의 포지션은 “오픈소스 모델을 싸고 쉽게 쓰게 해주는 독립 추론 클라우드”에 가까움

    • 오픈AI나 앤트로픽은 자체 모델 API를 팔고, 아마존·구글·마이크로소프트는 자기 클라우드 위에 AI 추론 서비스를 얹는 구조임
    • 딥인프라는 어느 한 빅테크 생태계에 묶이지 않고, 자체 GPU 인프라와 오픈소스 모델 API를 묶어 제공하는 쪽임

중요

> 딥인프라는 엔드포인트 하나만 바꾸면 오픈AI 대비 5~10배 저렴하게 쓸 수 있다고 주장함. 에이전트처럼 모델 호출이 많은 서비스에서는 이 차이가 곧 마진 차이가 됨.

왜 하드웨어를 직접 사는가

  • 창업팀의 배경이 꽤 개발자스럽다. 공동창업자 3명은 메신저 앱 이모의 백엔드 인프라를 함께 구축한 엔지니어 출신임

    • 이모는 월간 활성 사용자 2억 명, 누적 플레이스토어 다운로드 10억 건을 기록한 글로벌 메신저임
    • 이 팀은 이모 운영 경험에서 “클라우드를 빌리는 것보다 하드웨어를 직접 사는 게 훨씬 싸다”는 결론을 얻었다고 함
  • 딥인프라는 이 논리를 AI 추론에 그대로 적용함

    • 미국 내 8개 데이터센터에서 GPU를 직접 소유·운영함
    • 라마, 딥시크, 미스트랄 등 190개 이상 오픈소스 모델을 오픈AI 호환 API로 묶어 제공함
    • GLM-5 기준 100만 토큰당 가격은 1.24달러로, 시장 평균보다 약 20% 싸다고 밝힘
sequenceDiagram
    participant 개발자
    participant 딥인프라 API
    participant 모델 라우터
    participant GPU 클러스터
    participant 오픈소스 모델
    개발자->>딥인프라 API: 오픈AI 호환 요청 전송
    딥인프라 API->>모델 라우터: 모델과 용량 선택
    모델 라우터->>GPU 클러스터: 추론 작업 할당
    GPU 클러스터->>오픈소스 모델: 라마·딥시크·미스트랄 실행
    오픈소스 모델-->>GPU 클러스터: 결과 생성
    GPU 클러스터-->>딥인프라 API: 응답 반환
    딥인프라 API-->>개발자: 기존 형식으로 결과 전달

에이전트가 토큰 소비를 밀어 올림

  • 성장 속도도 꽤 세다. 딥인프라는 시리즈A 이후 처리 토큰 양이 25배 증가했다고 밝힘

    • 현재 주당 처리하는 토큰은 거의 5조 개에 달함
    • 에이전트 기반 AI 시스템 확산이 이 성장을 끌고 있다는 설명임
  • 에이전트는 한 번의 사용자 요청에도 모델 호출을 여러 번 때리는 구조라 추론비가 훅 올라감

    • 기사에서는 하나의 에이전트 작업이 모델 호출을 50~100번 이상 요구하는 경우가 흔하다고 설명함
    • 그래서 추론 인프라의 비용과 안정성이 AI 서비스 전체 수익성을 좌우하는 결정 변수가 됨
    • 말 그대로 “모델 잘 고르기”만큼 “토큰 싸게 태우기”가 중요해지는 판임

💡

> AI 서비스를 만들 때 초기에는 모델 품질만 보게 되지만, 사용량이 커지면 추론 단가·지연시간·장애율이 바로 제품 손익계산서로 튀어나옴.

엔비디아와 보안 카드까지 챙김

  • 엔비디아와의 협력도 딥인프라가 강조하는 차별점임

    • 딥인프라는 엔비디아 오픈 AI 생태계의 초기 인프라 파트너로, 네모트론 모델, 네모클로 에이전트 프레임워크, 다이나모 추론 소프트웨어를 지원함
    • 블랙웰 GPU 조기 도입과 향후 베라 루빈 탑재를 통해 추론 비용 효율성이 최대 20배까지 개선될 것으로 기대한다고 밝힘
  • 기업 고객을 위한 보안 조건도 챙겼음

    • 제로 데이터 리텐션을 내세우고, SOC 2와 ISO 27001 인증을 갖췄다고 설명함
    • 기업 입장에서는 “싸다”만으로 AI 추론 벤더를 고르기 어렵기 때문에, 데이터 보관 정책과 인증이 구매 조건으로 붙을 수밖에 없음
  • 엔비디아의 참여는 단순 투자 이상의 의미가 있음

    • 엔비디아는 코어위브, 람다, 베이스텐, 앤트로픽 등 AI 인프라 생태계 전반에 투자해 영향력을 넓히는 중임
    • 딥인프라가 성장하면 결국 더 많은 엔비디아 GPU 수요로 이어지는 구조라, 칩 공급자 입장에서도 자연스러운 베팅임

기술 맥락

  • 딥인프라의 기술적 선택은 GPU를 빌려 쓰는 게 아니라 직접 소유·운영하는 거예요. 추론 요청이 계속 늘어나는 서비스라면 장기적으로 임대 비용보다 직접 운영 비용이 더 유리할 수 있거든요.

  • 이 선택은 이모 메신저 운영 경험에서 나왔어요. 월간 활성 사용자 2억 명 규모의 백엔드 인프라를 다뤄본 팀이 클라우드 임대보다 하드웨어 직접 구매가 싸다는 결론을 AI 추론에도 적용한 거죠.

  • OpenAI 호환 API를 제공하는 이유도 현실적이에요. 개발자가 기존 SDK와 호출 방식을 유지한 채 엔드포인트만 바꾸면 되니, 마이그레이션 장벽이 낮아져요. 인프라 업체 입장에서는 이게 고객 전환 비용을 낮추는 핵심 장치예요.

  • 에이전트 시대에는 추론 인프라의 의미가 더 커져요. 한 작업에 모델 호출이 50~100번씩 들어가면 단가가 조금만 달라도 월 비용이 크게 벌어지거든요. 그래서 추론 비용, 지연시간, 안정성은 이제 모델 품질만큼 제품 경쟁력에 직접 영향을 줘요.

  • 보안 인증과 제로 데이터 리텐션도 그냥 장식이 아니에요. 기업 고객은 민감한 데이터를 외부 모델 API에 보내야 하니까, 데이터가 저장되는지와 감사 가능한 인증을 갖췄는지가 도입 여부를 가르는 조건이 돼요.

AI 앱의 병목이 모델 개발에서 추론 비용으로 이동하고 있다는 신호다. 에이전트가 모델을 50~100번씩 호출하는 시대에는 ‘모델이 좋다’만큼 ‘토큰을 싸고 안정적으로 태운다’가 제품 경쟁력이 된다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

제미나이 도구 호출 능력을 2,600만 파라미터 모델로 증류한 니들 공개

Cactus Compute가 Gemini 3.1의 도구 호출 능력을 2,600만 파라미터짜리 초소형 모델 Needle로 증류해 공개했다. 맥이나 PC에서 로컬 파인튜닝까지 가능하고, 프로덕션 환경에서는 프리필 6,000 토큰/초, 디코드 1,200 토큰/초를 낸다고 주장한다. 개인용 AI 기기에서 함수 호출만 빠르게 처리하는 작은 모델 실험으로 보면 꽤 흥미로운 공개다.

ai-ml

딥시크 V4 인덱서, 6기가바이트 메모리로 백만 토큰까지 밀어붙인 논문

딥시크 V3.2와 V4의 압축 희소 어텐션에서 병목이 되는 인덱서 단계를 스트리밍 방식으로 바꿔, 기존 구현이 6만5536 토큰에서 메모리 부족으로 죽던 문제를 104만8576 토큰까지 확장했다. 핵심은 전체 점수 텐서를 만들지 않고 청크 단위로 top-k를 나눠 계산한 뒤 병합하는 방식이며, 단일 엔비디아 H200에서 피크 메모리 6.21기가바이트를 기록했다. 다만 논문은 인덱서 단계만 다루며, 실제 체크포인트 기반 종단간 성능이나 더 빠른 어텐션 커널을 주장하진 않는다.

ai-ml

챗지피티가 학습에 좋다던 유명 논문, 결국 철회됨

챗지피티가 학생 학습 성과에 큰 도움이 된다고 주장했던 논문이 출판 약 1년 만에 철회됐어. 스프링거 네이처는 분석의 불일치와 결론 신뢰 부족을 이유로 들었고, 문제의 논문은 이미 500회 넘게 인용된 뒤였어.

ai-ml

샘 올트먼, 법정에서 “머스크가 오픈AI 지배권을 자녀에게 넘기려 했다”고 증언

샘 올트먼이 캘리포니아 오클랜드 연방법원 배심원 앞에서 일론 머스크가 오픈AI의 장기 지배권을 원했고, 사망 후엔 자녀에게 넘기는 방안까지 언급했다고 증언했다. 머스크는 오픈AI가 비영리로 출발했는데도 영리화됐다고 소송을 제기했지만, 올트먼은 오히려 머스크가 영리 전환과 테슬라 편입을 밀었다는 취지로 반박했다.

ai-ml

혜전대, AI로 스마트팜 생산·가공·유통 교육 모델 만든다

혜전대가 2026년 교육부·한국연구재단의 AID 전환 중점 전문대학 지원사업에 충남 지역 연합형 사업단으로 선정됐다. 연암대와 역할을 나눠 스마트팜 생산부터 가공·유통까지 전주기를 디지털화하는 교육 모델을 만들겠다는 내용이다.