---
title: "딥인프라, 1억700만 달러 유치…오픈소스 AI 추론 클라우드 판 키운다"
published: 2026-05-09T13:05:04.367Z
canonical: https://jeff.news/article/2400
---
# 딥인프라, 1억700만 달러 유치…오픈소스 AI 추론 클라우드 판 키운다

독립 AI 추론 클라우드 딥인프라가 시리즈B로 1억700만 달러를 유치했다. 자체 GPU 인프라를 운영하며 라마, 딥시크, 미스트랄 등 190개 이상 오픈소스 모델을 오픈AI 호환 API로 제공하고, 비용은 오픈AI 대비 5~10배 저렴하다고 내세운다.

## 추론 인프라가 AI의 새 전쟁터가 됨

- 딥인프라가 시리즈B 라운드로 1억700만 달러를 유치함
  - 500 글로벌과 조르주 하릭이 공동 주도했고, 엔비디아, 삼성넥스트, 수퍼마이크로, A.Capital 벤처스, 크레센트 코브, 펠리시스, 피크식스, 어퍼90이 참여함
  - 자금은 글로벌 컴퓨팅 용량 확장과 개발자 도구 고도화에 쓸 계획임

- 딥인프라의 포지션은 “오픈소스 모델을 싸고 쉽게 쓰게 해주는 독립 추론 클라우드”에 가까움
  - 오픈AI나 앤트로픽은 자체 모델 API를 팔고, 아마존·구글·마이크로소프트는 자기 클라우드 위에 AI 추론 서비스를 얹는 구조임
  - 딥인프라는 어느 한 빅테크 생태계에 묶이지 않고, 자체 GPU 인프라와 오픈소스 모델 API를 묶어 제공하는 쪽임

> [!IMPORTANT]
> 딥인프라는 엔드포인트 하나만 바꾸면 오픈AI 대비 5~10배 저렴하게 쓸 수 있다고 주장함. 에이전트처럼 모델 호출이 많은 서비스에서는 이 차이가 곧 마진 차이가 됨.

## 왜 하드웨어를 직접 사는가

- 창업팀의 배경이 꽤 개발자스럽다. 공동창업자 3명은 메신저 앱 이모의 백엔드 인프라를 함께 구축한 엔지니어 출신임
  - 이모는 월간 활성 사용자 2억 명, 누적 플레이스토어 다운로드 10억 건을 기록한 글로벌 메신저임
  - 이 팀은 이모 운영 경험에서 “클라우드를 빌리는 것보다 하드웨어를 직접 사는 게 훨씬 싸다”는 결론을 얻었다고 함

- 딥인프라는 이 논리를 AI 추론에 그대로 적용함
  - 미국 내 8개 데이터센터에서 GPU를 직접 소유·운영함
  - 라마, 딥시크, 미스트랄 등 190개 이상 오픈소스 모델을 오픈AI 호환 API로 묶어 제공함
  - GLM-5 기준 100만 토큰당 가격은 1.24달러로, 시장 평균보다 약 20% 싸다고 밝힘

```mermaid
sequenceDiagram
    participant 개발자
    participant 딥인프라 API
    participant 모델 라우터
    participant GPU 클러스터
    participant 오픈소스 모델
    개발자->>딥인프라 API: 오픈AI 호환 요청 전송
    딥인프라 API->>모델 라우터: 모델과 용량 선택
    모델 라우터->>GPU 클러스터: 추론 작업 할당
    GPU 클러스터->>오픈소스 모델: 라마·딥시크·미스트랄 실행
    오픈소스 모델-->>GPU 클러스터: 결과 생성
    GPU 클러스터-->>딥인프라 API: 응답 반환
    딥인프라 API-->>개발자: 기존 형식으로 결과 전달
```

## 에이전트가 토큰 소비를 밀어 올림

- 성장 속도도 꽤 세다. 딥인프라는 시리즈A 이후 처리 토큰 양이 25배 증가했다고 밝힘
  - 현재 주당 처리하는 토큰은 거의 5조 개에 달함
  - 에이전트 기반 AI 시스템 확산이 이 성장을 끌고 있다는 설명임

- 에이전트는 한 번의 사용자 요청에도 모델 호출을 여러 번 때리는 구조라 추론비가 훅 올라감
  - 기사에서는 하나의 에이전트 작업이 모델 호출을 50~100번 이상 요구하는 경우가 흔하다고 설명함
  - 그래서 추론 인프라의 비용과 안정성이 AI 서비스 전체 수익성을 좌우하는 결정 변수가 됨
  - 말 그대로 “모델 잘 고르기”만큼 “토큰 싸게 태우기”가 중요해지는 판임

> [!TIP]
> AI 서비스를 만들 때 초기에는 모델 품질만 보게 되지만, 사용량이 커지면 추론 단가·지연시간·장애율이 바로 제품 손익계산서로 튀어나옴.

## 엔비디아와 보안 카드까지 챙김

- 엔비디아와의 협력도 딥인프라가 강조하는 차별점임
  - 딥인프라는 엔비디아 오픈 AI 생태계의 초기 인프라 파트너로, 네모트론 모델, 네모클로 에이전트 프레임워크, 다이나모 추론 소프트웨어를 지원함
  - 블랙웰 GPU 조기 도입과 향후 베라 루빈 탑재를 통해 추론 비용 효율성이 최대 20배까지 개선될 것으로 기대한다고 밝힘

- 기업 고객을 위한 보안 조건도 챙겼음
  - 제로 데이터 리텐션을 내세우고, SOC 2와 ISO 27001 인증을 갖췄다고 설명함
  - 기업 입장에서는 “싸다”만으로 AI 추론 벤더를 고르기 어렵기 때문에, 데이터 보관 정책과 인증이 구매 조건으로 붙을 수밖에 없음

- 엔비디아의 참여는 단순 투자 이상의 의미가 있음
  - 엔비디아는 코어위브, 람다, 베이스텐, 앤트로픽 등 AI 인프라 생태계 전반에 투자해 영향력을 넓히는 중임
  - 딥인프라가 성장하면 결국 더 많은 엔비디아 GPU 수요로 이어지는 구조라, 칩 공급자 입장에서도 자연스러운 베팅임

---

## 기술 맥락

- 딥인프라의 기술적 선택은 GPU를 빌려 쓰는 게 아니라 직접 소유·운영하는 거예요. 추론 요청이 계속 늘어나는 서비스라면 장기적으로 임대 비용보다 직접 운영 비용이 더 유리할 수 있거든요.

- 이 선택은 이모 메신저 운영 경험에서 나왔어요. 월간 활성 사용자 2억 명 규모의 백엔드 인프라를 다뤄본 팀이 클라우드 임대보다 하드웨어 직접 구매가 싸다는 결론을 AI 추론에도 적용한 거죠.

- OpenAI 호환 API를 제공하는 이유도 현실적이에요. 개발자가 기존 SDK와 호출 방식을 유지한 채 엔드포인트만 바꾸면 되니, 마이그레이션 장벽이 낮아져요. 인프라 업체 입장에서는 이게 고객 전환 비용을 낮추는 핵심 장치예요.

- 에이전트 시대에는 추론 인프라의 의미가 더 커져요. 한 작업에 모델 호출이 50~100번씩 들어가면 단가가 조금만 달라도 월 비용이 크게 벌어지거든요. 그래서 추론 비용, 지연시간, 안정성은 이제 모델 품질만큼 제품 경쟁력에 직접 영향을 줘요.

- 보안 인증과 제로 데이터 리텐션도 그냥 장식이 아니에요. 기업 고객은 민감한 데이터를 외부 모델 API에 보내야 하니까, 데이터가 저장되는지와 감사 가능한 인증을 갖췄는지가 도입 여부를 가르는 조건이 돼요.

## 핵심 포인트

- 딥인프라가 시리즈B 라운드에서 1억700만 달러 유치
- 미국 8개 데이터센터에서 GPU를 직접 소유·운영하는 수직통합 구조
- 190개 이상 오픈소스 모델을 오픈AI 호환 API로 제공
- 시리즈A 이후 처리 토큰 양이 25배 증가했고 현재 주당 거의 5조 토큰 처리
- 엔비디아, 삼성넥스트, 수퍼마이크로 등이 투자에 참여

## 인사이트

AI 앱의 병목이 모델 개발에서 추론 비용으로 이동하고 있다는 신호다. 에이전트가 모델을 50~100번씩 호출하는 시대에는 ‘모델이 좋다’만큼 ‘토큰을 싸고 안정적으로 태운다’가 제품 경쟁력이 된다.
