---
title: "구글, 표 데이터도 재학습 없이 예측하는 오픈소스 모델 ‘탭FM’ 공개"
published: 2026-07-02T08:31:02.885Z
canonical: https://jeff.news/article/4510
---
# 구글, 표 데이터도 재학습 없이 예측하는 오픈소스 모델 ‘탭FM’ 공개

구글이 표 형식 데이터를 별도 재학습 없이 분석하는 파운데이션 모델 탭FM을 허깅페이스와 깃허브에 오픈소스로 공개했음. 기존 XGBoost, 랜덤 포레스트 같은 모델은 데이터셋마다 학습과 튜닝이 필요했지만, 탭FM은 학습 데이터와 예측 데이터를 한 번에 넣고 제로샷으로 분류·회귀를 수행하는 방식임. 구글은 빅쿼리에도 통합해 SQL 명령어만으로 예측 기능을 쓰게 만들 계획임.

## 구글이 표 데이터용 파운데이션 모델을 꺼냄

- 구글이 표 형식 데이터 분석용 파운데이션 모델 ‘탭FM’을 공개함
  - 허깅페이스와 깃허브에 오픈소스로 공개됐고, 온라인 아카이브를 통해 소개됨
  - 목표는 고객 이탈 예측, 금융 사기 탐지, 신용평가, 매출 예측 같은 기업 표 데이터 문제를 재학습 없이 바로 푸는 것임

- 지금까지 표 데이터 분석은 XGBoost, AdaBoost, 랜덤 포레스트 같은 트리 기반 모델이 주류였음
  - 문제는 새 데이터셋이 생길 때마다 다시 학습해야 하고, 하이퍼파라미터 튜닝도 필요하다는 점임
  - 데이터 과학자가 피처 엔지니어링까지 직접 해야 해서, 성능은 좋아도 운영과 반복 실험이 꽤 귀찮았음

> [!IMPORTANT]
> 탭FM의 핵심 약속은 “모델 학습 없이 한 번의 추론으로 분류와 회귀를 한다”는 것임. 이게 실무에서 잘 먹히면 표 데이터 분석의 기본 워크플로가 꽤 바뀔 수 있음.

## 자연어 모델을 표에 그대로 쓰기 어려운 이유

- 표 데이터는 자연어와 구조가 완전히 다름
  - 자연어는 순서가 중요한 1차원 시퀀스지만, 표는 행과 열로 된 2차원 구조임
  - 행이나 열의 순서가 바뀌어도 의미는 그대로인 경우가 많아서, 기존 트랜스포머 언어모델처럼 앞에서 뒤로 읽는 방식과 잘 안 맞음

- 구글은 이 문제를 풀기 위해 탭PFN과 탭ICL의 장점을 결합한 하이브리드 아키텍처를 만들었다고 설명함
  - 행과 열을 번갈아 보는 어텐션 구조로 변수 간 관계와 패턴을 파악함
  - 행 압축 기술로 각 행의 정보를 하나의 밀집 벡터로 줄여 중요한 정보만 효율적으로 저장함
  - 압축된 행 벡터는 별도 트랜스포머가 처리해서 계산량을 낮추는 구조임

## 학습 데이터는 실제 기업 데이터가 아니라 합성 데이터

- 구글은 실제 산업 데이터를 쓰지 않고 수억개의 합성 데이터셋만으로 탭FM을 사전학습했다고 밝힘
  - 기업 표 데이터는 고객 정보, 금융 정보, 내부 운영 데이터처럼 민감한 내용이 많아서 대규모 공개가 어렵기 때문임
  - 대신 구조적 인과모형(SCM)을 활용해 다양한 데이터 분포와 변수 간 관계를 반영한 합성 데이터를 만들었음

- 이 합성 데이터가 실제 산업 환경의 다양한 패턴을 재현하도록 설계됐다는 게 구글의 설명임
  - 처음 보는 실제 데이터셋에서도 높은 일반화 성능을 내는 게 목표임
  - 결국 관건은 “합성 데이터로 배운 패턴이 진짜 기업 데이터에서도 통하느냐”임

## 벤치마크와 빅쿼리 통합까지 예고

- 구글은 표 데이터 벤치마크 ‘탭아레나’에서 탭FM 성능을 평가함
  - 38개의 분류 데이터셋과 13개의 회귀 데이터셋을 사용함
  - 데이터 규모는 700개 샘플부터 15만개 샘플까지 다양했음

- 기본 탭FM은 튜닝이나 교차검증 없이 한 번의 추론만으로 예측을 수행함
  - 성능 강화 버전인 탭FM-앙상블은 교차 피처와 특이값분해(SVD) 기반 피처를 추가함
  - 32개 모델을 결합해 최적 가중치를 적용하고, 분류 작업에서는 플랫 스케일링으로 예측 확률을 보정함

- 구글은 탭FM을 빅쿼리에도 통합할 계획임
  - 몇 주 안에 사용자는 SQL 명령어 AI.PREDICT만으로 회귀와 분류 작업을 수행할 수 있게 된다고 함
  - 머신러닝 모델 구축이나 학습 파이프라인 없이 SQL에서 예측을 호출하는 그림임. 데이터팀 입장에선 이게 제일 솔깃한 포인트일 수 있음

---

## 기술 맥락

- 탭FM이 건드리는 문제는 “표 데이터마다 모델을 새로 만들 필요가 있나”예요. 기존 방식은 데이터셋이 바뀌면 학습, 검증, 튜닝, 피처 엔지니어링을 다시 해야 해서 반복 비용이 컸거든요.

- 구글이 인컨텍스트 학습을 표 데이터에 적용한 이유는 LLM처럼 입력 안의 예시만 보고 새 작업을 처리하고 싶어서예요. 모델 가중치를 바꾸지 않고도 분류나 회귀를 하게 만들면, 작은 업무 예측이나 빠른 프로토타이핑이 훨씬 쉬워져요.

- 행과 열을 번갈아 보는 어텐션이 중요한 이유는 표가 문장처럼 한 줄로 읽히는 데이터가 아니기 때문이에요. 같은 열 안의 값 관계, 같은 행 안의 변수 조합을 둘 다 봐야 고객 이탈이나 신용 위험 같은 패턴을 잡을 수 있어요.

- 합성 데이터 사전학습은 현실적인 타협이에요. 기업의 실제 표 데이터는 공개하기 어렵지만, 구조적 인과모형으로 다양한 분포와 변수 관계를 만들면 모델이 여러 상황을 미리 경험하게 할 수 있거든요.

- 빅쿼리 통합은 꽤 실용적인 선택이에요. 많은 회사의 데이터는 이미 웨어하우스에 있고, 분석가들은 파이썬보다 SQL에 익숙한 경우가 많아서 AI.PREDICT 같은 형태가 실제 도입 장벽을 낮춰요.

## 핵심 포인트

- 탭FM은 표 데이터용 파운데이션 모델로, 새 데이터셋마다 재학습하지 않고 한 번의 추론으로 분류와 회귀를 수행함
- 행·열 교차 어텐션, 행 압축, 인컨텍스트 학습을 결합해 표 데이터의 2차원 구조를 다룸
- 수억개의 합성 데이터셋으로 사전학습해 민감한 기업 데이터를 직접 쓰지 않고 일반화 성능을 노림
- 탭아레나 벤치마크에서 38개 분류 데이터셋과 13개 회귀 데이터셋으로 평가됐고, 빅쿼리 AI.PREDICT 통합도 예고됨

## 인사이트

기업 데이터의 대부분은 예쁜 자연어가 아니라 지저분한 표 데이터임. 탭FM이 약속한 대로 튜닝과 피처 엔지니어링 부담을 줄인다면, 데이터 과학자보다 SQL 사용자에게 먼저 체감되는 AI 기능이 될 가능성이 큼.
