---
title: "엔비디아, ‘알파고 아버지’ 스타트업과 대규모 강화학습 인프라 만든다"
published: 2026-05-16T08:05:01.859Z
canonical: https://jeff.news/article/2747
---
# 엔비디아, ‘알파고 아버지’ 스타트업과 대규모 강화학습 인프라 만든다

엔비디아가 딥마인드 강화학습 팀을 이끌었던 데이비드 실버의 스타트업 인에퍼블인텔리전스와 대규모 강화학습 시스템 구축에 협력한다. 이 회사는 인간 데이터로 학습하는 기존 모델과 달리 시행착오와 경험 데이터로 스스로 지식을 발견하는 AI를 목표로 하며, 엔비디아의 그레이스블랙웰 칩과 베라루빈 플랫폼을 활용할 예정이다.

- 엔비디아가 ‘알파고 아버지’로 불리는 데이비드 실버의 스타트업 인에퍼블인텔리전스와 손잡음
  - 인에퍼블은 구글 딥마인드 강화학습 팀 리더 출신인 데이비드 실버가 2025년 말 영국 런던에 세운 회사임
  - 엔비디아와 인에퍼블은 “시행착오를 통해 학습하는 AI 시스템” 구축을 위한 엔지니어링 협력을 시작한다고 밝힘
  - 젠슨 황 엔비디아 최고경영자는 AI의 다음 프런티어를 “경험으로부터 지속적으로 학습하는 슈퍼러너 시스템”이라고 표현함

- 이 협력의 핵심은 대규모 강화학습 인프라임
  - 강화학습은 AI가 행동하고, 결과를 보고, 보상을 통해 더 나은 전략을 배우는 방식임
  - 알파고가 대표적인 강화학습 성공 사례였고, 데이비드 실버는 그 계보의 핵심 인물임
  - 이번에는 게임 하나를 잘하는 모델이 아니라, 경험을 통해 새로운 지식을 발견하는 범용 시스템을 겨냥하는 분위기임

> [!IMPORTANT]
> 포인트는 “인터넷에 있는 인간 지식을 더 긁어모으자”가 아니라, AI가 경험 데이터로 스스로 배울 수 있는 인프라를 만들자는 쪽임.

- 인에퍼블은 기존 주요 AI 모델과 다른 학습 재료를 노림
  - 지금의 대형 AI 모델은 대체로 인간 언어와 인간이 만든 데이터를 많이 먹고 자람
  - 인에퍼블은 인간 데이터와 상당히 다른 형태의 풍부한 경험 데이터를 기반으로 학습하는 시스템을 만들겠다고 설명함
  - 회사는 이를 위해 새로운 모델 구조와 학습 알고리즘이 필요할 수 있다고 봄

- 엔비디아는 이 시스템에 필요한 데이터 파이프라인과 하드웨어를 같이 설계하려 함
  - 양사 엔지니어들이 대규모 강화학습 시스템에 데이터를 공급할 수 있는 파이프라인 구축에 집중할 예정임
  - 프로젝트에는 엔비디아의 그레이스블랙웰 칩과 베라루빈 플랫폼이 사용됨
  - 결국 엔비디아는 그래픽처리장치 공급자를 넘어, 차세대 AI 학습 방식의 인프라 기준까지 잡으려는 셈임

```mermaid
sequenceDiagram
    participant 인에퍼블
    participant 경험환경
    participant 데이터파이프라인
    participant 엔비디아인프라
    participant 학습모델
    인에퍼블->>경험환경: 시행착오 기반 경험 생성
    경험환경->>데이터파이프라인: 행동 결과와 보상 데이터 전달
    데이터파이프라인->>엔비디아인프라: 대규모 학습용 데이터 공급
    엔비디아인프라->>학습모델: 강화학습 연산 실행
    학습모델->>경험환경: 개선된 행동 전략 적용
```

- 돈도 이미 엄청나게 몰리고 있음
  - 인에퍼블은 2026년 4월 세쿼이아캐피털과 라이트스피드벤처파트너스가 공동 주도한 11억달러 규모 시드 투자를 유치함
  - 투자자로는 엔비디아, DST글로벌, 인덱스벤처스, 구글, 영국 소버린AI펀드 등이 참여함
  - 시드 투자 규모가 11억달러라는 것부터 이 시장의 기대치가 얼마나 과열됐는지 보여줌

- 빅테크 출신 연구자들이 새 AI 연구소를 차리고 거액을 끌어오는 흐름도 같이 이어지고 있음
  - 전 구글 딥마인드 엔지니어 팀 로크태셸이 세운 리커시브 슈퍼인텔리전스는 6억5000만달러 투자 유치를 발표함
  - 메타AI 총괄을 맡았던 얀 르쿤의 AMI랩스는 출범 수개월 만인 2026년 3월 10억달러를 유치했다고 밝힘
  - 그 밖에도 오픈AI, 구글 딥마인드, 앤트로픽, xAI 출신 인력들이 만든 스타트업들이 수억달러 단위 자금을 조달 중임

- 데이비드 실버의 문제의식은 꽤 명확함
  - 그는 AI의 비교적 쉬운 문제, 즉 인간이 이미 알고 있는 것을 이해하는 시스템 구축은 상당 부분 해결됐다고 봄
  - 이제는 스스로 새로운 지식을 발견하는 시스템을 만들어야 하고, 이를 위해 경험으로부터 학습하는 완전히 다른 접근이 필요하다는 주장임
  - 이 말이 맞다면 다음 AI 경쟁은 모델 크기 경쟁만이 아니라 ‘학습할 경험을 어떻게 만들고 공급하느냐’의 싸움이 됨

---

## 기술 맥락

- 여기서 엔비디아와 인에퍼블이 고른 길은 강화학습을 훨씬 큰 규모로 밀어붙이는 거예요. 지금까지의 대형 언어 모델은 인간이 만든 텍스트와 데이터를 학습하는 방식이 강했는데, 이 접근은 모델이 환경과 상호작용하면서 경험을 쌓는 쪽에 무게를 둬요.

- 왜 이게 중요하냐면, 인터넷에 있는 인간 지식만으로는 새로운 발견을 계속 만들기 어렵다는 문제의식이 있기 때문이에요. 데이비드 실버는 인간이 이미 아는 것을 이해하는 문제는 많이 풀렸고, 이제는 AI가 스스로 새로운 지식을 찾아야 한다고 봐요.

- 그래서 인프라가 핵심이 됩니다. 강화학습은 단순히 데이터셋 하나 넣고 학습시키는 구조가 아니라, 행동을 만들고 결과를 수집하고 보상을 계산하고 다시 학습시키는 루프가 필요해요. 이 루프가 커지면 데이터 파이프라인과 연산 플랫폼이 병목이 돼요.

- 엔비디아가 그레이스블랙웰과 베라루빈을 내세우는 이유도 여기에 있어요. 칩 성능만 파는 게 아니라, 차세대 AI가 경험 데이터를 먹고 자라는 전체 학습 시스템의 표준 자리를 잡으려는 움직임으로 볼 수 있어요.

## 핵심 포인트

- 엔비디아가 인에퍼블인텔리전스와 대규모 강화학습 인프라를 공동 설계
- 인에퍼블은 딥마인드 출신 데이비드 실버가 2025년 말 런던에 설립한 스타트업
- 2026년 4월 11억달러 규모 시드 투자를 유치했고 엔비디아와 구글도 투자자로 참여
- 목표는 인간 데이터가 아니라 경험 데이터로 학습하는 AI 시스템
- 엔비디아 그레이스블랙웰 칩과 베라루빈 플랫폼이 프로젝트에 사용될 예정

## 인사이트

생성형 AI의 다음 경쟁축이 ‘더 많은 인터넷 텍스트’에서 ‘스스로 경험을 만들고 학습하는 시스템’으로 이동하는 분위기야. 엔비디아는 칩만 파는 게 아니라, 그 학습 방식을 가능하게 하는 인프라 레이어까지 선점하려는 움직임으로 보임.