본문으로 건너뛰기
피드

AI허브 데이터 691종 중 30종, 추론형·피지컬 AI 학습 데이터로 재가공

ai-ml 약 4분

과기정통부와 NIA가 기존 AI허브 데이터를 생성형 AI 시대에 맞게 다시 가공하는 사업을 시작한다. 2022년까지 구축된 691종을 분석해 30종을 골랐고, 총 30억 원 규모로 대규모 언어 모델(LLM)과 피지컬 AI용 데이터셋을 만든다.

  • 1

    기존 판별형 AI 라벨링 데이터를 추론 과정과 행동 정보를 담은 데이터로 업사이클링

  • 2

    LLM 데이터는 질문, 근거 검토, 오류 검증, 답변 확정 과정을 포함하도록 재구성

  • 3

    피지컬 AI 데이터는 시각, 언어명령, 행동·제어 정보를 통합하는 방향으로 고도화

  • 정부가 기존 AI허브 데이터를 생성형 AI용으로 다시 손보기 시작함

    • 과기정통부와 한국지능정보사회진흥원(NIA)이 ‘AI 학습용데이터 업사이클링’ 사업 공고를 4월 30일부터 시작했다고 밝힘
    • 목표는 기존 판별형 AI 중심 라벨링 데이터를 대규모 언어 모델(LLM)과 피지컬 AI가 쓸 수 있는 데이터로 바꾸는 것임
  • 규모는 꽤 구체적임. 691종을 뒤져서 30종을 골랐고, 예산은 30억 원임

    • 2022년까지 구축된 AI허브 데이터 691종을 전수 분석함
    • 2023년부터는 생성형 AI용 데이터로 구축됐기 때문에 이번 업사이클링 대상에서는 제외됨
    • 생성형 AI용 확장 가능성과 데이터 활용도를 보고, 외부 전문가 검토까지 거쳐 최종 30종을 선정함

중요

> 새 데이터셋을 처음부터 만드는 게 아니라, 이미 만든 공공 데이터를 추론형·행동형 데이터로 재가공한다는 게 이번 사업의 포인트임.

  • LLM 쪽은 “정답만 있는 데이터”에서 “판단 과정이 있는 데이터”로 바꾸려는 방향임

    • 기존 텍스트 데이터를 질문, 근거 검토, 오류 검증, 답변 확정 흐름으로 재구성함
    • 같은 문제에 대해 복수의 추론 경로를 만들고, 근거 기반 판단과 오류 수정 과정을 포함할 계획임
    • 쉽게 말하면 모델이 답만 외우는 게 아니라, 왜 그렇게 판단했는지까지 학습하게 만들겠다는 얘기임
  • 피지컬 AI 쪽은 이미지·영상 데이터를 시각, 언어, 행동 데이터로 확장함

    • 기존 데이터가 객체 인식에 가까웠다면, 이제는 시간 흐름에 따른 상황 변화와 객체 간 상호작용까지 담으려는 것임
    • 시각 정보(V), 언어명령(L), 행동 및 제어(A)를 통합한 구조로 고도화함
    • 연속 장면 정보와 객체 움직임 데이터를 활용해 행동 경로와 작업 목표를 정의할 수 있게 재구성할 계획임
  • 업사이클링된 데이터는 향후 AI Hub를 통해 공개될 예정임

    • 기업, 연구기관, 스타트업이 자유롭게 활용할 수 있도록 제공하겠다는 방침임
    • 정부는 적은 비용으로 최신 생성형 AI 환경에 맞는 학습 데이터를 확보하고, 기존 데이터 자산의 활용 가치를 높이겠다고 설명함

기술 맥락

  • 이번 사업의 기술적 선택은 기존 라벨링 데이터를 버리지 않고, 생성형 AI가 학습할 수 있는 구조로 다시 만드는 거예요. 새 데이터를 처음부터 만들면 비용과 시간이 커지니까, 이미 검수된 공공 데이터의 골격을 재활용하는 쪽이 정책 효과가 크거든요.

  • LLM 데이터에서 중요한 건 정답보다 과정이에요. 질문에 대한 답만 있으면 모델이 패턴을 외우는 데 그칠 수 있지만, 근거 검토와 오류 수정 과정이 있으면 추론을 따라가는 학습 신호를 줄 수 있어요.

  • 피지컬 AI는 이미지 한 장을 분류하는 문제와 달라요. 시간에 따라 상황이 변하고, 언어 명령이 행동 제어로 이어져야 하니까 시각, 언어, 행동 데이터를 같이 묶어야 해요.

  • 국내 개발자에게는 공개 이후 데이터 품질이 제일 중요해요. 형식만 생성형 AI용으로 바꾼 데이터인지, 실제 모델 학습과 평가에 쓸 만큼 추론 경로와 행동 정보가 촘촘한지가 활용도를 가를 거예요.

새 데이터를 무작정 더 만드는 대신 기존 공공 데이터 자산을 생성형 AI 학습 구조로 바꾸겠다는 접근임. 국내 스타트업이나 연구팀 입장에서는 공개 이후 실제 품질이 관건이 될 듯함.

댓글

댓글

댓글을 불러오는 중...

ai-ml

앤트로픽이 스페이스X 데이터센터를 쓰는 이유, AI 권력이 컴퓨팅으로 이동 중

앤트로픽이 스페이스X의 멤피스 콜로서스 I 데이터센터를 쓰는 계약을 맺었다는 보도다. 300MW 이상, 엔비디아 GPU 22만 개 이상 규모의 컴퓨팅 용량이 언급됐고, 폭증하는 AI 수요와 낮은 칩 가동률을 맞교환하는 거래로 해석된다.

ai-ml

AI 생산성 2.5%가 미국 39조 달러 부채를 구할 수 있을까

예일대 예산연구소 모델링에 따르면 AI가 향후 5년간 생산성을 매년 2.5% 끌어올리고 고용이 유지되면 미국의 2035년 재정 적자와 부채 비율이 크게 안정될 수 있다. 하지만 AI가 노동자를 대체해 실업 지원 비용이 커지면 생산성 이득 상당 부분이 상쇄될 수 있다는 경고도 함께 나온다.

ai-ml

AI 도입보다 어려운 건 IP 워크플로우 다시 짜기

IP와 R&D 업무에 AI를 붙였더니 초기 효율은 좋아졌지만, 시간이 지나자 모델별 품질 편차와 검증 부담이 새 병목으로 떠올랐다는 얘기다. 핵심은 특정 AI 도구를 더 사는 게 아니라, AI가 후보를 만들고 전문가가 검증하는 식으로 업무 흐름 자체를 재설계하는 데 있다.

ai-ml

클로드 코워크, 복붙 대신 PC를 직접 만지는 AI 에이전트로 가는 길

앤스로픽의 ‘클로드 코워크’는 챗봇처럼 답만 주는 도구가 아니라, PC 폴더와 파일을 직접 열고 정리하며 엑셀 결과물까지 만드는 에이전트형 업무 도구로 소개됐다. 영수증 사진 30장을 읽어 매장명·날짜·항목·금액을 표로 만들고 합계 수식이 들어간 엑셀 파일까지 생성하는 사례가 핵심이다.

ai-ml

국내 의료 AI, 전시용 기술에서 임상 현장 도구로 이동 중

AI 엑스포 코리아 2026에서 국내 의료 AI 기업들이 병원 문서 구조화, 안저 질환 진단 보조, 정신건강 관리 솔루션을 선보였다. 특히 녹내장 93%, 당뇨병성 망막병증 민감도 90% 같은 임상 성적을 내세우며 ‘기술 시연’보다 실제 현장 가치 증명에 초점을 맞췄다.