허깅페이스에 쏟아진 빅테크 오픈웨이트 AI 모델들
이번 허깅페이스 트렌드는 엔비디아의 비주얼 그라운딩 모델, 구글의 인코더 프리 멀티모달 모델, 디퓨전 방식 언어모델이 동시에 주목받은 한 주였다. 오픈웨이트 경쟁이 스타트업만의 무기가 아니라 빅테크의 본격 전장으로 넘어가고 있다는 해석이 나온다.
- 1
엔비디아 LocateAnything-3B는 자연어 지시를 이미지 좌표와 바운딩 박스로 변환하는 비주얼 그라운딩 모델
- 2
구글 Gemma 4 12B는 별도 비전·오디오 인코더 없이 텍스트·이미지·오디오·비디오를 단일 트랜스포머로 처리
- 3
구글 DiffusionGemma는 자기회귀 대신 이산 디퓨전 방식으로 텍스트를 생성하며 H100 기준 초당 1100토큰 이상을 제시
- 4
Ideogram 4, TripoSplat 등 생성형 이미지와 3D 쪽에서도 오픈웨이트·실사용 데모가 확산 중
이번 흐름의 진짜 재미는 성능 수치보다 아키텍처의 상식이 흔들린다는 점이다. 멀티모달은 인코더를 줄이고, 언어모델은 한 토큰씩 쓰는 방식을 버리며, 비전 모델은 설명을 넘어 좌표를 직접 찍는 쪽으로 가고 있다.
관련 기사
플랜바이, 건축 설계 AI 자동화 들고 북미 AEC 시장 공략
플랜바이테크놀로지스가 AIA 컨퍼런스 온 아키텍처 & 디자인 2026에서 건축 시각화 플랫폼 플라나와 외관 설계 워크플로우 플랫폼 플래드를 북미 시장에 공개한다. 클라우드 AI 렌더링, 노드 기반 설계, 위성 지도 연동을 앞세워 반복 시안 작업과 고비용 렌더링 문제를 줄이겠다는 그림이다.
AI 인프라 사이클, 한국은 이제 ‘모델’보다 ‘공장’을 봐야 한다
AI 투자는 단순한 서버 증설이 아니라 지능·추론·코딩 비용을 낮추는 새 생산함수에 대한 설비투자로 봐야 한다는 분석이다. 미국 중심으로 시작된 GPU·데이터센터 투자 사이클이 한국에서는 HBM, 전력·냉각, 통신, 클라우드, SI, 로봇·자동화까지 확장될 수 있다는 게 핵심이다. 다만 실제 투자 사이클로 인정받으려면 전력 수전, GPU 조달, 앵커 테넌트 확보가 확인돼야 한다.
비즈니스 AI, 결국 승부는 모델보다 데이터 품질
생성형 AI를 업무에 쓰려면 프롬프트만 잘 쓰는 걸로는 부족하고, AI가 참고하는 데이터의 품질과 범위를 관리해야 한다는 내용이다. 최신 반도체, 서버, 알고리즘보다 먼저 봐야 할 건 AI가 무엇을 학습하고 어떤 맥락을 보고 답하는지라는 점을 짚는다.
AI가 화면 밖으로 나왔다, 인간형 로봇 공장 투입이 본격화되는 중
챗봇과 이미지 생성 중심이던 AI 투자 열기가 로봇, 자율주행, 물류 자동화 같은 현실 세계로 옮겨가고 있다는 분석이 나왔다. 2026년 상반기 로봇 기업 투자액은 558억 달러로 이미 전년도 연간 기록의 거의 두 배에 달했고, BMW·토요타·아마존·테슬라·엔비디아가 전면에 서 있다.
어렵던 블록체인, 이제 AI 비서가 붙는 중
블록체인은 관심도 면에서 AI에 밀린 것처럼 보이지만, 디지털 자산의 보유와 이전을 기록하는 인프라 역할은 여전히 남아 있어. 문제는 지갑, 시드 문구, 서명, 수수료 같은 사용 경험이 너무 어렵다는 점이고, AI가 이 복잡한 절차를 사람 말로 풀어주는 인터페이스가 될 수 있다는 내용이야.
댓글
댓글
댓글을 불러오는 중...