AI허브 데이터 691종 중 30종, 추론형·피지컬 AI 학습 데이터로 재가공

ai-ml 2026-05-07 약 4분

 tags

#llm #dataset #ai-hub #physical-ai #training

vote

북마크

과기정통부와 NIA가 기존 AI허브 데이터를 생성형 AI 시대에 맞게 다시 가공하는 사업을 시작한다. 2022년까지 구축된 691종을 분석해 30종을 골랐고, 총 30억 원 규모로 대규모 언어 모델(LLM)과 피지컬 AI용 데이터셋을 만든다.

1
기존 판별형 AI 라벨링 데이터를 추론 과정과 행동 정보를 담은 데이터로 업사이클링
2
LLM 데이터는 질문, 근거 검토, 오류 검증, 답변 확정 과정을 포함하도록 재구성
3
피지컬 AI 데이터는 시각, 언어명령, 행동·제어 정보를 통합하는 방향으로 고도화

정부가 기존 AI허브 데이터를 생성형 AI용으로 다시 손보기 시작함
- 과기정통부와 한국지능정보사회진흥원(NIA)이 ‘AI 학습용데이터 업사이클링’ 사업 공고를 4월 30일부터 시작했다고 밝힘
- 목표는 기존 판별형 AI 중심 라벨링 데이터를 대규모 언어 모델(LLM)과 피지컬 AI가 쓸 수 있는 데이터로 바꾸는 것임
규모는 꽤 구체적임. 691종을 뒤져서 30종을 골랐고, 예산은 30억 원임
- 2022년까지 구축된 AI허브 데이터 691종을 전수 분석함
- 2023년부터는 생성형 AI용 데이터로 구축됐기 때문에 이번 업사이클링 대상에서는 제외됨
- 생성형 AI용 확장 가능성과 데이터 활용도를 보고, 외부 전문가 검토까지 거쳐 최종 30종을 선정함

❗중요

> 새 데이터셋을 처음부터 만드는 게 아니라, 이미 만든 공공 데이터를 추론형·행동형 데이터로 재가공한다는 게 이번 사업의 포인트임.

LLM 쪽은 “정답만 있는 데이터”에서 “판단 과정이 있는 데이터”로 바꾸려는 방향임
- 기존 텍스트 데이터를 질문, 근거 검토, 오류 검증, 답변 확정 흐름으로 재구성함
- 같은 문제에 대해 복수의 추론 경로를 만들고, 근거 기반 판단과 오류 수정 과정을 포함할 계획임
- 쉽게 말하면 모델이 답만 외우는 게 아니라, 왜 그렇게 판단했는지까지 학습하게 만들겠다는 얘기임
피지컬 AI 쪽은 이미지·영상 데이터를 시각, 언어, 행동 데이터로 확장함
- 기존 데이터가 객체 인식에 가까웠다면, 이제는 시간 흐름에 따른 상황 변화와 객체 간 상호작용까지 담으려는 것임
- 시각 정보(V), 언어명령(L), 행동 및 제어(A)를 통합한 구조로 고도화함
- 연속 장면 정보와 객체 움직임 데이터를 활용해 행동 경로와 작업 목표를 정의할 수 있게 재구성할 계획임
업사이클링된 데이터는 향후 AI Hub를 통해 공개될 예정임
- 기업, 연구기관, 스타트업이 자유롭게 활용할 수 있도록 제공하겠다는 방침임
- 정부는 적은 비용으로 최신 생성형 AI 환경에 맞는 학습 데이터를 확보하고, 기존 데이터 자산의 활용 가치를 높이겠다고 설명함

기술 맥락

이번 사업의 기술적 선택은 기존 라벨링 데이터를 버리지 않고, 생성형 AI가 학습할 수 있는 구조로 다시 만드는 거예요. 새 데이터를 처음부터 만들면 비용과 시간이 커지니까, 이미 검수된 공공 데이터의 골격을 재활용하는 쪽이 정책 효과가 크거든요.
LLM 데이터에서 중요한 건 정답보다 과정이에요. 질문에 대한 답만 있으면 모델이 패턴을 외우는 데 그칠 수 있지만, 근거 검토와 오류 수정 과정이 있으면 추론을 따라가는 학습 신호를 줄 수 있어요.
피지컬 AI는 이미지 한 장을 분류하는 문제와 달라요. 시간에 따라 상황이 변하고, 언어 명령이 행동 제어로 이어져야 하니까 시각, 언어, 행동 데이터를 같이 묶어야 해요.
국내 개발자에게는 공개 이후 데이터 품질이 제일 중요해요. 형식만 생성형 AI용으로 바꾼 데이터인지, 실제 모델 학습과 평가에 쓸 만큼 추론 경로와 행동 정보가 촘촘한지가 활용도를 가를 거예요.

새 데이터를 무작정 더 만드는 대신 기존 공공 데이터 자산을 생성형 AI 학습 구조로 바꾸겠다는 접근임. 국내 스타트업이나 연구팀 입장에서는 공개 이후 실제 품질이 관건이 될 듯함.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-06-21

알파벳, AI 인프라에 1,850억 달러 베팅…구글 클라우드가 성장축으로 부상

모틀리풀은 알파벳이 AI 인프라에 대규모 설비투자를 이어가면서 향후 5년간 주가가 두 배 이상 오를 여지가 있다고 분석했다. 올해 설비투자는 1,800억~1,900억 달러로 예상되며, 구글 클라우드 매출은 1분기에 전년 대비 63% 증가했다.

ai-ml 2026-06-21

넥슨은 AI 에이전트를 ‘소유’하려 했고, 크래프톤은 AI 도구를 ‘관리’하기로 했다

NDC 2026 대담에서 넥슨과 크래프톤이 사내 AI 전환 전략을 꽤 솔직하게 공개했다. 넥슨은 오픈소스 AI 에이전트 오픈클로의 전사 도입을 시도했다가 보안·운영·비용 문제로 보류했고, 크래프톤은 상용 AI 도구를 대시보드로 관리하는 방식을 택했다.

ai-ml 2026-06-21

일본 병원, 재활 요약지 작성에 생성형 인공지능 써보니 시간은 57% 줄고 오류는 81.8%에서 나왔다

일본의 290병상 종합병원 연구진이 재활 요약지 작성에 생성형 인공지능과 엑셀 매크로를 결합한 워크플로를 도입해 실제 임상 현장에서 평가했음. 작성 시간 중앙값은 23분에서 10분으로 줄었지만, 무작위 검토한 문서 11건 중 9건에서 오류가 발견돼 사람의 최종 검토가 필수라는 결론이 나왔음.

ai-ml 2026-06-21

야타브, 규제 산업용 인공지능 신뢰·검증 플랫폼을 비바테크에서 공개

야타브가 비바테크 2026에서 규제 산업을 겨냥한 인공지능 신뢰·검증 플랫폼을 공개했음. 입력 위협 방어, 답변 진위 검증, 기업 내부 지식 기반 검색·추론, 업무 자동화, 산업별 전용 모델 구축까지 한 플랫폼으로 묶는 전략임.

ai-ml 2026-06-21

안양시가 피지컬 인공지능 산업 키우겠다고 두 번째 전략 회의 열었다

안양시가 제조업, 로봇, 인공지능을 결합한 피지컬 인공지능 산업 생태계 조성을 논의했음. 아직 구체적인 기술 구현이나 예산이 나온 단계는 아니지만, 지역 제조 기반을 인공지능 산업 전략으로 연결하려는 정책 초기 움직임으로 볼 수 있음.

AI허브 데이터 691종 중 30종, 추론형·피지컬 AI 학습 데이터로 재가공

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

AI허브 데이터 691종 중 30종, 추론형·피지컬 AI 학습 데이터로 재가공

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사