---
title: "AI허브 데이터 691종 중 30종, 추론형·피지컬 AI 학습 데이터로 재가공"
published: 2026-05-07T14:05:04.060Z
canonical: https://jeff.news/article/2284
---
# AI허브 데이터 691종 중 30종, 추론형·피지컬 AI 학습 데이터로 재가공

과기정통부와 NIA가 기존 AI허브 데이터를 생성형 AI 시대에 맞게 다시 가공하는 사업을 시작한다. 2022년까지 구축된 691종을 분석해 30종을 골랐고, 총 30억 원 규모로 대규모 언어 모델(LLM)과 피지컬 AI용 데이터셋을 만든다.

- 정부가 기존 AI허브 데이터를 생성형 AI용으로 다시 손보기 시작함
  - 과기정통부와 한국지능정보사회진흥원(NIA)이 ‘AI 학습용데이터 업사이클링’ 사업 공고를 4월 30일부터 시작했다고 밝힘
  - 목표는 기존 판별형 AI 중심 라벨링 데이터를 대규모 언어 모델(LLM)과 피지컬 AI가 쓸 수 있는 데이터로 바꾸는 것임

- 규모는 꽤 구체적임. 691종을 뒤져서 30종을 골랐고, 예산은 30억 원임
  - 2022년까지 구축된 AI허브 데이터 691종을 전수 분석함
  - 2023년부터는 생성형 AI용 데이터로 구축됐기 때문에 이번 업사이클링 대상에서는 제외됨
  - 생성형 AI용 확장 가능성과 데이터 활용도를 보고, 외부 전문가 검토까지 거쳐 최종 30종을 선정함

> [!IMPORTANT]
> 새 데이터셋을 처음부터 만드는 게 아니라, 이미 만든 공공 데이터를 추론형·행동형 데이터로 재가공한다는 게 이번 사업의 포인트임.

- LLM 쪽은 “정답만 있는 데이터”에서 “판단 과정이 있는 데이터”로 바꾸려는 방향임
  - 기존 텍스트 데이터를 질문, 근거 검토, 오류 검증, 답변 확정 흐름으로 재구성함
  - 같은 문제에 대해 복수의 추론 경로를 만들고, 근거 기반 판단과 오류 수정 과정을 포함할 계획임
  - 쉽게 말하면 모델이 답만 외우는 게 아니라, 왜 그렇게 판단했는지까지 학습하게 만들겠다는 얘기임

- 피지컬 AI 쪽은 이미지·영상 데이터를 시각, 언어, 행동 데이터로 확장함
  - 기존 데이터가 객체 인식에 가까웠다면, 이제는 시간 흐름에 따른 상황 변화와 객체 간 상호작용까지 담으려는 것임
  - 시각 정보(V), 언어명령(L), 행동 및 제어(A)를 통합한 구조로 고도화함
  - 연속 장면 정보와 객체 움직임 데이터를 활용해 행동 경로와 작업 목표를 정의할 수 있게 재구성할 계획임

- 업사이클링된 데이터는 향후 AI Hub를 통해 공개될 예정임
  - 기업, 연구기관, 스타트업이 자유롭게 활용할 수 있도록 제공하겠다는 방침임
  - 정부는 적은 비용으로 최신 생성형 AI 환경에 맞는 학습 데이터를 확보하고, 기존 데이터 자산의 활용 가치를 높이겠다고 설명함

---

## 기술 맥락

- 이번 사업의 기술적 선택은 기존 라벨링 데이터를 버리지 않고, 생성형 AI가 학습할 수 있는 구조로 다시 만드는 거예요. 새 데이터를 처음부터 만들면 비용과 시간이 커지니까, 이미 검수된 공공 데이터의 골격을 재활용하는 쪽이 정책 효과가 크거든요.

- LLM 데이터에서 중요한 건 정답보다 과정이에요. 질문에 대한 답만 있으면 모델이 패턴을 외우는 데 그칠 수 있지만, 근거 검토와 오류 수정 과정이 있으면 추론을 따라가는 학습 신호를 줄 수 있어요.

- 피지컬 AI는 이미지 한 장을 분류하는 문제와 달라요. 시간에 따라 상황이 변하고, 언어 명령이 행동 제어로 이어져야 하니까 시각, 언어, 행동 데이터를 같이 묶어야 해요.

- 국내 개발자에게는 공개 이후 데이터 품질이 제일 중요해요. 형식만 생성형 AI용으로 바꾼 데이터인지, 실제 모델 학습과 평가에 쓸 만큼 추론 경로와 행동 정보가 촘촘한지가 활용도를 가를 거예요.

## 핵심 포인트

- 기존 판별형 AI 라벨링 데이터를 추론 과정과 행동 정보를 담은 데이터로 업사이클링
- LLM 데이터는 질문, 근거 검토, 오류 검증, 답변 확정 과정을 포함하도록 재구성
- 피지컬 AI 데이터는 시각, 언어명령, 행동·제어 정보를 통합하는 방향으로 고도화

## 인사이트

새 데이터를 무작정 더 만드는 대신 기존 공공 데이터 자산을 생성형 AI 학습 구조로 바꾸겠다는 접근임. 국내 스타트업이나 연구팀 입장에서는 공개 이후 실제 품질이 관건이 될 듯함.