본문으로 건너뛰기
피드

물리 제약을 넣은 3D 인간 모션 인코더, PINN-JEPA 공개

ai-ml 약 5분
vote
0
댓글
북마크

PINN-JEPA는 3D 골격 인간 모션을 위한 물리 정보 신경망(PINN) 기반 인코더다. 위치에서 속도, 가속도, 저크를 해석적으로 계산하고 뼈 길이와 운동학적 일관성을 유지하도록 자기지도 방식으로 사전학습한다.

  • 1

    공개된 것은 1단계 PINN 사전학습 코드와 구버전 체크포인트이며 프로덕션용이 아님

  • 2

    입력은 17개 관절 기준으로 위치·속도·가속도·저크를 포함한 형태를 가정

  • 3

    자기지도 상태 복원, 뼈 길이 일관성, 유한차분 기반 운동학 일관성, 저크 정규화를 함께 사용

  • PINN-JEPA는 3D 인간 골격 모션을 위한 물리 정보 인코더임

    • 저장소는 1단계 PINN 사전학습 단계, 즉 인코더 본체와 사전학습 헤드를 공개함
    • 공개된 체크포인트는 최신 내부 버전이 아니라 연구 재현과 실험용이라고 못 박아둠
  • 핵심 아이디어는 “각 채널을 따로 예측하지 말고, 물리적으로 묶어두자”임

    • 모델은 위치에 대한 residual만 예측함
    • 속도, 가속도, 저크는 central difference로 해석적으로 계산함
    • 그래서 위치·속도·가속도·저크 채널이 제각각 드리프트하는 걸 줄이려는 구조임
  • 학습 목표는 자기지도 복원에 물리 제약을 얹은 형태임

    • 위치 p, 속도 v, 가속도 a, 저크 j 상태를 가중치를 두고 복원함
    • 골격 edge 기준 뼈 길이 일관성을 유지하게 함
    • 유한차분으로 계산한 운동학 관계가 채널 간에 맞는지도 손실에 넣음
    • 움직임이 덜 튀도록 저크 정규화도 포함함
  • 코드 구성은 꽤 연구 저장소 느낌 그대로임

    • PINN_EncoderBody.py에는 StateEmbedding, GraphMix, TemporalBlock, EncoderBody가 들어 있음
    • PINN_Lossfunction.py에는 물리 기반 사전학습 손실과 기본 가중치가 있음
    • 평가 스크립트는 표현 품질 클러스터링, 자체 평가, 3D 스켈레톤 렌더링까지 포함함

ℹ️참고

> 이 모델은 H36M 기준 17관절 토폴로지와 (p, v, a, j) 입력 레이아웃을 전제로 함. 다른 스켈레톤에는 적응이나 재학습이 필요함.

  • 사용 예시는 PyTorch 기반으로 단순함

    • config.json에서 아키텍처 설정을 읽고 EncoderBodyPINNPretrainModel을 생성함
    • pytorch_model.bin을 로드한 뒤, 입력 x(B, T, J=17, 12) 형태를 기대함
    • 출력에는 (B, T, J, D) 형태의 token_feat(B, T, J, 12) 형태의 재구성 상태 s_hat이 포함됨
  • 한계도 꽤 명확하게 적혀 있음

    • 공개 가중치는 오래된 체크포인트라 내부 최신 버전보다 성능이 낮을 수 있음
    • 추론 시 fps는 속도·가속도·저크 채널을 만들 때 사용한 값과 맞아야 함
    • 임상, 진단, 생체인식, 감시, 안전-critical 용도로는 쓰지 말라고 명시함
    • 라이선스는 코드와 공개 가중치 모두 AFL-3.0임

기술 맥락

  • 이 모델의 선택지는 “모션의 모든 상태를 네트워크가 직접 맞히게 할 것인가”와 “위치만 예측하고 나머지는 물리 관계로 묶을 것인가”예요. PINN-JEPA는 후자를 고른 셈이고, 이유는 채널별 예측이 따로 놀면 그럴듯해 보여도 실제 움직임이 어색해질 수 있기 때문이에요.

  • 위치에서 속도, 가속도, 저크를 central difference로 계산하는 구조는 구현상 제약이 생겨요. fps와 입력 레이아웃이 맞아야 하고, 17관절 토폴로지를 벗어나면 그대로 쓰기 어렵거든요. 대신 모델 표현이 운동학적으로 더 일관된 방향으로 학습된다는 장점이 있어요.

  • 연구용 릴리스라는 점도 중요해요. 공개 체크포인트가 최신 내부 버전이 아니고, 다운스트림 성능을 보장하지 않기 때문에 제품 적용보다는 모션 표현 학습이나 물리 제약 손실을 실험하는 출발점으로 보는 게 맞아요.

  • 한국 개발자에게는 게임, AR/VR, 포즈 추정, 스포츠 분석 쪽에서 참고할 만해요. 특히 “딥러닝 모델에 도메인 제약을 어떻게 손실로 넣을 것인가”라는 설계 패턴은 모션 말고도 로보틱스나 시뮬레이션 데이터 학습에 그대로 이어질 수 있어요.

모션 모델에서 “그럴듯한 포즈”보다 “물리적으로 말이 되는 움직임”을 강제하려는 접근임. 다만 공개 가중치가 최신 내부 버전이 아니고 H36M 17관절 구조에 묶여 있어서, 바로 서비스에 넣기보다는 연구용 베이스라인에 가까움.

댓글

댓글

댓글을 불러오는 중...

ai-ml

바이두, 수십 페이지 문서를 한 번에 읽는 오픈소스 OCR 모델 공개

바이두가 긴 PDF와 이미지 문서를 한 번에 판독하는 오픈소스 모델 언리미티드 OCR을 공개했다. 핵심은 R-SWA라는 어텐션 구조로 장문 출력 때 KV 캐시가 계속 커지는 문제를 억제하는 것이다. 최대 32K 컨텍스트에서 수십 페이지 문서를 1회 추론으로 전사할 수 있다고 설명한다.

ai-ml

딥시크, LLM 추론 가속용 DSpark와 DeepSpec을 오픈소스로 공개

딥시크가 기존 딥시크 V4 Pro에 추측적 디코딩 프레임워크 DSpark를 적용해 추론 속도와 서비스 효율을 끌어올렸다. 함께 공개한 DeepSpec은 드래프트 모델 학습, 평가, 데이터 준비까지 묶은 풀스택 오픈소스 프레임워크다. Qwen3 실험에서는 Eagle3 대비 평균 수용 길이가 26.7~30.9%, DFlash 대비 16.3~18.4% 높았다고 밝혔다.

ai-ml

지자체들이 예산 0원·로컬 AI로 행정 자동화 굴리기 시작함

국내 지방자치단체들이 외부 클라우드 API 대신 온프레미스, 오픈소스 언어모델, 검색증강생성(RAG)을 조합해 행정 AI를 자체 구축하는 사례를 내고 있다. 양산시, 광주시, 남양주시, 서울 광진구 사례를 보면 핵심은 비용 절감뿐 아니라 망분리·보안·환각 제어까지 현장 제약에 맞춘 구조를 만드는 쪽이다.

ai-ml

AI 에이전트가 SaaS를 없애는 게 아니라, SaaS를 ‘기능 API’로 바꾸고 있다

공공 AI-SaaS 컨퍼런스에서 AI 에이전트 시대의 SaaS 변화가 주요 화두로 다뤄졌어. 발표 핵심은 AI와 SaaS가 경쟁하는 게 아니라, AI는 추론과 생성 업무를 맡고 SaaS는 정확한 계산과 규칙 기반 업무를 맡으며 API 중심 구조로 재편된다는 거야.

ai-ml

정부, 2030년까지 제조 AI로 부가가치 100조 원 만들겠다는 ‘M.AX’ 청사진 공개

정부가 ‘제조 AI 2030 전략’을 공개하고 2030년까지 제조업 부가가치 100조 원 창출을 목표로 내걸었어. 국가 제조 데이터 도서관, 제조 AI 파운데이션 모델, 풀 스택 AI 팩토리, M.AX 클러스터가 핵심 축이야.