본문으로 건너뛰기
피드

구글, 표 데이터도 재학습 없이 예측하는 오픈소스 모델 ‘탭FM’ 공개

ai-ml 약 6분
vote
0
댓글
북마크

구글이 표 형식 데이터를 별도 재학습 없이 분석하는 파운데이션 모델 탭FM을 허깅페이스와 깃허브에 오픈소스로 공개했음. 기존 XGBoost, 랜덤 포레스트 같은 모델은 데이터셋마다 학습과 튜닝이 필요했지만, 탭FM은 학습 데이터와 예측 데이터를 한 번에 넣고 제로샷으로 분류·회귀를 수행하는 방식임. 구글은 빅쿼리에도 통합해 SQL 명령어만으로 예측 기능을 쓰게 만들 계획임.

  • 1

    탭FM은 표 데이터용 파운데이션 모델로, 새 데이터셋마다 재학습하지 않고 한 번의 추론으로 분류와 회귀를 수행함

  • 2

    행·열 교차 어텐션, 행 압축, 인컨텍스트 학습을 결합해 표 데이터의 2차원 구조를 다룸

  • 3

    수억개의 합성 데이터셋으로 사전학습해 민감한 기업 데이터를 직접 쓰지 않고 일반화 성능을 노림

  • 4

    탭아레나 벤치마크에서 38개 분류 데이터셋과 13개 회귀 데이터셋으로 평가됐고, 빅쿼리 AI.PREDICT 통합도 예고됨

구글이 표 데이터용 파운데이션 모델을 꺼냄

  • 구글이 표 형식 데이터 분석용 파운데이션 모델 ‘탭FM’을 공개함

    • 허깅페이스와 깃허브에 오픈소스로 공개됐고, 온라인 아카이브를 통해 소개됨
    • 목표는 고객 이탈 예측, 금융 사기 탐지, 신용평가, 매출 예측 같은 기업 표 데이터 문제를 재학습 없이 바로 푸는 것임
  • 지금까지 표 데이터 분석은 XGBoost, AdaBoost, 랜덤 포레스트 같은 트리 기반 모델이 주류였음

    • 문제는 새 데이터셋이 생길 때마다 다시 학습해야 하고, 하이퍼파라미터 튜닝도 필요하다는 점임
    • 데이터 과학자가 피처 엔지니어링까지 직접 해야 해서, 성능은 좋아도 운영과 반복 실험이 꽤 귀찮았음

중요

> 탭FM의 핵심 약속은 “모델 학습 없이 한 번의 추론으로 분류와 회귀를 한다”는 것임. 이게 실무에서 잘 먹히면 표 데이터 분석의 기본 워크플로가 꽤 바뀔 수 있음.

자연어 모델을 표에 그대로 쓰기 어려운 이유

  • 표 데이터는 자연어와 구조가 완전히 다름

    • 자연어는 순서가 중요한 1차원 시퀀스지만, 표는 행과 열로 된 2차원 구조임
    • 행이나 열의 순서가 바뀌어도 의미는 그대로인 경우가 많아서, 기존 트랜스포머 언어모델처럼 앞에서 뒤로 읽는 방식과 잘 안 맞음
  • 구글은 이 문제를 풀기 위해 탭PFN과 탭ICL의 장점을 결합한 하이브리드 아키텍처를 만들었다고 설명함

    • 행과 열을 번갈아 보는 어텐션 구조로 변수 간 관계와 패턴을 파악함
    • 행 압축 기술로 각 행의 정보를 하나의 밀집 벡터로 줄여 중요한 정보만 효율적으로 저장함
    • 압축된 행 벡터는 별도 트랜스포머가 처리해서 계산량을 낮추는 구조임

학습 데이터는 실제 기업 데이터가 아니라 합성 데이터

  • 구글은 실제 산업 데이터를 쓰지 않고 수억개의 합성 데이터셋만으로 탭FM을 사전학습했다고 밝힘

    • 기업 표 데이터는 고객 정보, 금융 정보, 내부 운영 데이터처럼 민감한 내용이 많아서 대규모 공개가 어렵기 때문임
    • 대신 구조적 인과모형(SCM)을 활용해 다양한 데이터 분포와 변수 간 관계를 반영한 합성 데이터를 만들었음
  • 이 합성 데이터가 실제 산업 환경의 다양한 패턴을 재현하도록 설계됐다는 게 구글의 설명임

    • 처음 보는 실제 데이터셋에서도 높은 일반화 성능을 내는 게 목표임
    • 결국 관건은 “합성 데이터로 배운 패턴이 진짜 기업 데이터에서도 통하느냐”임

벤치마크와 빅쿼리 통합까지 예고

  • 구글은 표 데이터 벤치마크 ‘탭아레나’에서 탭FM 성능을 평가함

    • 38개의 분류 데이터셋과 13개의 회귀 데이터셋을 사용함
    • 데이터 규모는 700개 샘플부터 15만개 샘플까지 다양했음
  • 기본 탭FM은 튜닝이나 교차검증 없이 한 번의 추론만으로 예측을 수행함

    • 성능 강화 버전인 탭FM-앙상블은 교차 피처와 특이값분해(SVD) 기반 피처를 추가함
    • 32개 모델을 결합해 최적 가중치를 적용하고, 분류 작업에서는 플랫 스케일링으로 예측 확률을 보정함
  • 구글은 탭FM을 빅쿼리에도 통합할 계획임

    • 몇 주 안에 사용자는 SQL 명령어 AI.PREDICT만으로 회귀와 분류 작업을 수행할 수 있게 된다고 함
    • 머신러닝 모델 구축이나 학습 파이프라인 없이 SQL에서 예측을 호출하는 그림임. 데이터팀 입장에선 이게 제일 솔깃한 포인트일 수 있음

기술 맥락

  • 탭FM이 건드리는 문제는 “표 데이터마다 모델을 새로 만들 필요가 있나”예요. 기존 방식은 데이터셋이 바뀌면 학습, 검증, 튜닝, 피처 엔지니어링을 다시 해야 해서 반복 비용이 컸거든요.

  • 구글이 인컨텍스트 학습을 표 데이터에 적용한 이유는 LLM처럼 입력 안의 예시만 보고 새 작업을 처리하고 싶어서예요. 모델 가중치를 바꾸지 않고도 분류나 회귀를 하게 만들면, 작은 업무 예측이나 빠른 프로토타이핑이 훨씬 쉬워져요.

  • 행과 열을 번갈아 보는 어텐션이 중요한 이유는 표가 문장처럼 한 줄로 읽히는 데이터가 아니기 때문이에요. 같은 열 안의 값 관계, 같은 행 안의 변수 조합을 둘 다 봐야 고객 이탈이나 신용 위험 같은 패턴을 잡을 수 있어요.

  • 합성 데이터 사전학습은 현실적인 타협이에요. 기업의 실제 표 데이터는 공개하기 어렵지만, 구조적 인과모형으로 다양한 분포와 변수 관계를 만들면 모델이 여러 상황을 미리 경험하게 할 수 있거든요.

  • 빅쿼리 통합은 꽤 실용적인 선택이에요. 많은 회사의 데이터는 이미 웨어하우스에 있고, 분석가들은 파이썬보다 SQL에 익숙한 경우가 많아서 AI.PREDICT 같은 형태가 실제 도입 장벽을 낮춰요.

기업 데이터의 대부분은 예쁜 자연어가 아니라 지저분한 표 데이터임. 탭FM이 약속한 대로 튜닝과 피처 엔지니어링 부담을 줄인다면, 데이터 과학자보다 SQL 사용자에게 먼저 체감되는 AI 기능이 될 가능성이 큼.

댓글

댓글

댓글을 불러오는 중...

ai-ml

메타도 AI 클라우드 장사판에 뛰어드나

메타가 AI 모델 접근권과 컴퓨팅 파워를 외부에 판매하는 클라우드 인프라 사업을 검토 중이라는 보도다. AWS, 애저, 구글 클라우드처럼 데이터센터 투자금을 클라우드 매출로 회수하는 구조를 만들 수 있지만, 정작 메타가 팔 만큼 남는 GPU가 있느냐는 의문도 같이 나온다.

ai-ml

메타의 AI 클라우드 진출설, 반도체 폭락이 진짜 수요 둔화 신호일까

메타가 남는 AI 컴퓨팅 자원을 외부에 팔 수 있다는 보도 하나로 네오클라우드와 반도체주가 크게 흔들렸다. 다만 메타가 최근까지 컴퓨팅 부족을 겪었고 올해 1250억~1450억달러 규모의 투자를 예고했다는 점을 보면, 단순한 공급 과잉으로 보기엔 논리가 꽤 빡빡하다.

ai-ml

메타가 클라우드 사업을 검토하자 AI 반도체 피크아웃 논쟁이 다시 붙었다

메타가 자사 컴퓨팅 자원을 외부에 판매하는 클라우드 인프라 사업을 검토 중인 것으로 알려졌다. 올해 설비투자 전망치가 1250억~1450억달러에 달하는 메타가 수요자에서 공급자로 바뀔 수 있다는 해석이 나오면서, AI 인프라 병목 완화와 반도체 수요 둔화 우려가 동시에 제기됐다.

ai-ml

국방부, 지휘관 의사결정 돕는 국방 AI 아이디어 6건 선정

국방부가 2026 제2차 국방 AI 활용 아이디어 경연대회 시상식을 열고, 전 군에서 접수된 253건 중 6개 수상작을 선정했다. 최우수상은 폐쇄망 안에서 공격 AI와 방어 AI가 사이버 교전을 벌이고, 지휘관에게 실시간 상황과 대응 근거를 제시하는 Local AI 기반 시스템이 받았다.

ai-ml

BC카드, 금융 문맥 잘 찾는 자체 임베딩 모델 공개

BC카드가 국내 금융 문맥에 특화된 생성형 AI 임베딩 모델을 자체 개발해 공개했음. 182만건 규모 데이터셋을 활용했고, 경량형 6억 파라미터 모델과 고품질형 40억 파라미터 모델 두 가지로 나뉨. 금융 데이터를 외부 AI 서비스에 넘기지 않고도 검색 기반 AI 서비스를 운영할 수 있는 기반을 확보했다는 점이 핵심임.