---
title: "FUTO, 새 스와이프 타이핑 모델용 데이터셋 100만 건 공개"
published: 2026-06-23T17:50:22.000Z
canonical: https://jeff.news/article/4298
---
# FUTO, 새 스와이프 타이핑 모델용 데이터셋 100만 건 공개

FUTO가 모바일 키보드의 스와이프 입력 모델을 만들기 위해 수집한 영어 스와이프 데이터셋 100만 건을 공개했다. 사용자가 직접 모바일 웹에서 동의한 뒤 위키피디아 기반 문장을 단어별로 스와이프했고, 저품질 데이터를 걸러낸 뒤 MIT 라이선스로 배포됐다.

- FUTO가 새 스와이프 타이핑 모델을 만들기 위해 영어 쿼티 스와이프 데이터셋을 직접 모았음
  - 수집은 2024년 8월 `swipe.futo.org` 도메인에서 시작됨
  - 사용자는 모바일폰으로 웹페이지에 접속해서 안내를 읽고 동의한 뒤 참여하는 방식이었음

- 데이터 수집 방식은 꽤 직관적임 — 문장을 보여주고 단어별로 스와이프하게 함
  - 문장은 주로 위키피디아에서 가져온 영어 문장
  - 사용자는 단어를 하나씩 키보드 위에서 스와이프했고, 그 입력 경로가 데이터로 쌓인 구조임

- 최종적으로 100만 건이 넘는 스와이프가 모였고, 품질이 낮은 일부 샘플은 걸러냈음
  - 공개된 데이터셋 규모는 100만 건
  - 2025년 3월 MIT 라이선스로 릴리스됨
  - 지금은 허깅페이스에서 받을 수 있음

- FUTO는 이 데이터를 단순 공개용으로만 쓴 게 아니라, 실제 모델 학습과 평가에 적극 활용했다고 밝힘
  - 새 스와이프 타이핑 모델을 학습시키는 데 핵심 데이터로 사용됨
  - 여러 스와이프 입력 시스템을 비교 평가하는 기준 데이터로도 쓰였음

- 이게 흥미로운 이유는 모바일 키보드 입력 데이터가 생각보다 공개적으로 구하기 어려운 영역이기 때문임
  - 키보드 입력은 개인정보와 사용 습관이 섞이기 쉬워서 대규모 공개 데이터셋을 만들기 까다로움
  - 자발적 동의 기반으로 모은 100만 건 데이터셋이면, 입력기 모델이나 온디바이스 텍스트 입력 연구에 바로 써먹을 여지가 있음

## 핵심 포인트

- 2024년 8월부터 모바일 웹에서 자발적 참여 방식으로 영어 쿼티 스와이프 데이터를 수집함
- 최종적으로 100만 건이 넘는 스와이프를 확보했고, 저품질 샘플 일부를 필터링함
- 2025년 3월 100만 건 데이터셋을 MIT 라이선스로 공개했으며 현재 허깅페이스에서 받을 수 있음
- FUTO는 이 데이터를 모델 학습과 여러 스와이프 타이핑 시스템 평가에 활용함

## 인사이트

모바일 입력기는 다들 매일 쓰지만, 스와이프 입력 데이터셋은 생각보다 공개된 게 많지 않다. 100만 건 규모를 MIT 라이선스로 풀었다는 점은 키보드, 온디바이스 입력 예측, 사용자 인터페이스 연구 쪽에서 꽤 실용적인 재료가 될 수 있다.
