---
title: "엔비디아 네모트론 데이 서울 — 한국인 700만명 페르소나 데이터셋 공개"
published: 2026-04-21T08:05:02.079Z
canonical: https://jeff.news/article/1846
---
# 엔비디아 네모트론 데이 서울 — 한국인 700만명 페르소나 데이터셋 공개

엔비디아가 GTC 행사를 서울로 가져와 첫 네모트론 개발자 데이를 열었다. 차세대 GPU 블랙웰의 MoE 추론 55배 가속, NVFP4 초저정밀 연산, 합성 데이터 도구(네모 데이터 디자이너·큐레이터), 그리고 한국인 700만명 분포를 반영한 '네모트론 페르소나 코리아' 데이터셋을 공개했다.

- 엔비디아가 서울 디캠프 마포에서 '네모트론 개발자 데이 서울 2026'을 개최함 (4월 21~22일)
  - GTC에서만 진행하던 행사를 한국으로 가져온 첫 케이스
  - 한국어/한국 산업 특화 데이터·도구·모델을 집중 공개

### "효율성이 곧 지능" — 에이전트 AI 시대 네모트론 전략

- 브라이언 카탄자로 엔비디아 딥러닝 응용 연구 부문 부사장의 메시지: AI가 챗봇을 넘어 **스스로 추론하고 도구를 활용하는 에이전트** 시대로 빠르게 이동 중
  - 에이전트는 단일 모델이 아니라 메모리·멀티모달·파일 도구·메시징·여러 에이전트 조합까지 포함하는 시스템이라는 정의
  - 앞으로의 경쟁력은 "개별 모델 성능"이 아니라 "얼마나 효율적으로 조합·운영하느냐"
- "프리사이즈 의류가 모두에게 꼭 맞을 수 없듯, 하나의 획일화된 범용 모델로 모든 상황을 충족시키긴 어렵다" — 카탄자로 부사장의 비유
  - 각자의 데이터·업무 환경에 맞춘 특화 모델이 필요하다는 게 핵심 메시지
- 네모트론은 단순 LLM이 아니라 **개방형 AI 모델 패밀리**로 확장 중
  - 베이스/포스트트레이닝 모델뿐 아니라 데이터셋, 연구 기법, 하이퍼파라미터, SW까지 함께 공개

### 블랙웰과 NVFP4 — 하드웨어 자랑 코너

> [!IMPORTANT]
> 차세대 GPU 블랙웰(Blackwell)이 MoE(전문가혼합) 모델 추론에서 이전 세대 대비 **최대 55배 빠른 성능**을 기록. NVFP4는 숫자당 4.75비트 초저정밀 연산으로 전력 부담을 낮추면서 정확도를 유지.

- 하드웨어와 소프트웨어를 함께 최적화하는 공동 설계(Co-design)가 효율성의 핵심이라는 설명
- 4비트 수준 연산이 의미가 있는 건 추론 비용/전력 문제가 갈수록 커지기 때문

### 데이터 품질이 진짜 승부처 — 네모 데이터 디자이너 & 큐레이터

- 메흐란 마구미 수석 딥러닝 엔지니어: 인터넷 데이터만으론 특정 국가/산업에 맞는 모델 만들기 어려움
  - 합성 데이터 + 데이터 변환 기술이 현지화 AI의 핵심
  - 새 데이터 생성뿐 아니라 기존 데이터를 목표 도메인에 맞게 변환하는 작업도 중요
- **네모 데이터 디자이너** — 합성 데이터를 처음부터 만들거나 기존 데이터를 변환하는 오픈소스 도구
  - 데이터 다양성 제어, 검증, 재현 가능한 파이프라인 구축에 초점
- **네모 큐레이터** — 대규모 데이터 정제·중복 제거·품질 필터링·분류를 수행
  - 의미론적 중복 제거(semantic dedup)와 대규모 파이프라인 설계가 강점

### 진짜 깜짝 발표 — '네모트론 페르소나 코리아' 데이터셋

> [!NOTE]
> 기존 글로벌 LLM이 한국 사회를 묘사할 때 "40%가 샐러드를 즐겨 먹고 사과 과수원을 운영한다"는 식의 왜곡된 인물상을 만들어내는 문제를 정조준한 데이터셋.

- 엔비디아 리서치 김현우 연구원이 발표한 한국 특화 합성 페르소나 데이터셋
  - 통계청, 대법원, 국민건강보험 등 **62개 통계 자료** 기반으로 구축
  - 규모는 한국인 700만 명 수준, 약 17억 토큰
- 반영 속성이 진짜 디테일함
  - 연령·성별·지역·혼인·가족 구성·주거 형태·건강 지표 등 폭넓은 속성
  - 한국표준산업분류 + 한국표준직업분류 적용으로 8000개 이상 산업·직업 조합
  - 1940년대 이후 이름 분포 데이터 참고해 21만여 개 이름 데이터 — 세대별 정서 반영
- 라이선스가 화끈함 — **CC BY 4.0**으로 배포, 개인식별정보 없는 합성 데이터
  - 국내 기업·개발자가 비교적 자유롭게 활용 가능

### 사이드 이벤트들

- 과기정통부·NIPA 후원 패널 토론 — '독자 AI 파운데이션 모델' 프로젝트 연계, K-AI 생태계 경쟁력 논의
- '네모트론 해커톤' — 48시간 동안 에이전틱 시스템과 산업 특화 모델 빌드
- GTC 2026에서 처음 공개됐던 'Build-a-Claw' 팝업도 한국 첫 운영

---

## 기술 맥락

엔비디아가 GTC 행사를 굳이 서울로 가져온 이유는 단순한 마케팅이 아니에요. 한국 정부가 추진 중인 '독자 AI 파운데이션 모델' 프로젝트와 라인을 맞춘 거거든요. 자체 모델을 만들려는 나라에 GPU만 팔지 말고, 데이터셋·도구·레퍼런스 모델까지 묶어서 생태계 자체를 엔비디아 스택으로 끌어들이겠다는 전략이에요.

페르소나 코리아 데이터셋은 LLM 후속 학습(post-training)에서 페르소나 기반 합성 데이터를 쓰는 최신 트렌드를 반영한 거예요. 글로벌 모델이 "한국인은 다 사과 농장을 한다" 같은 헛소리를 하는 이유는 학습 데이터에 한국 인구 분포가 거의 없기 때문이거든요. 통계청 분포에 맞춰 700만 명 페르소나를 합성하면, 이걸 시드로 instruction 데이터를 만들 때 현실적인 한국인 시나리오가 나와요. CC BY 4.0이라 상업 이용도 가능하고요.

NVFP4가 4.75비트인 게 이상해 보일 수 있는데, 부호 비트와 스케일 팩터 때문에 평균 비트가 정수가 아닌 거예요. INT4로 가면 정확도가 무너지는데 NVFP4는 부동소수점 표현을 유지해서 그 갭을 줄여요. MoE 추론에서 이게 특히 효과적인 이유는 활성 전문가만 골라서 연산하니까 메모리 대역폭이 병목이 되는데, 비트 수가 줄면 대역폭도 같이 줄어들거든요.

## 핵심 포인트

- GTC 외 첫 네모트론 개발자 데이를 서울에서 개최, 4월 21~22일 디캠프 마포에서 진행
- 블랙웰 GPU가 MoE 추론에서 이전 세대 대비 최대 55배 빠른 성능, NVFP4는 4.75비트 초저정밀 연산
- 네모 데이터 디자이너·큐레이터를 통한 합성 데이터 생성·정제 파이프라인 강조
- 한국인 700만명·17억 토큰 규모의 페르소나 데이터셋을 CC BY 4.0으로 공개
- 62개 통계 자료, 8000개 이상 산업·직업 조합, 1940년대 이후 이름 21만 개 반영

## 인사이트

엔비디아가 GPU 판매를 넘어 '국가별 AI 스택'을 통째로 제공하려는 전략을 본격화. 한국 정부의 독자 파운데이션 모델 프로젝트와 라인 맞춘 시점인 만큼 국내 LLM 개발사들에게는 즉각 활용 가능한 도구·데이터셋이 늘어나는 셈.
