FUTO, 새 스와이프 타이핑 모델용 데이터셋 100만 건 공개
FUTO가 모바일 키보드의 스와이프 입력 모델을 만들기 위해 수집한 영어 스와이프 데이터셋 100만 건을 공개했다. 사용자가 직접 모바일 웹에서 동의한 뒤 위키피디아 기반 문장을 단어별로 스와이프했고, 저품질 데이터를 걸러낸 뒤 MIT 라이선스로 배포됐다.
- 1
2024년 8월부터 모바일 웹에서 자발적 참여 방식으로 영어 쿼티 스와이프 데이터를 수집함
- 2
최종적으로 100만 건이 넘는 스와이프를 확보했고, 저품질 샘플 일부를 필터링함
- 3
2025년 3월 100만 건 데이터셋을 MIT 라이선스로 공개했으며 현재 허깅페이스에서 받을 수 있음
- 4
FUTO는 이 데이터를 모델 학습과 여러 스와이프 타이핑 시스템 평가에 활용함
모바일 입력기는 다들 매일 쓰지만, 스와이프 입력 데이터셋은 생각보다 공개된 게 많지 않다. 100만 건 규모를 MIT 라이선스로 풀었다는 점은 키보드, 온디바이스 입력 예측, 사용자 인터페이스 연구 쪽에서 꽤 실용적인 재료가 될 수 있다.
관련 기사
기업 AI 투자, 이제 비용절감보다 성장과 새 사업모델로 간다
아코디스 보고서에 따르면 기업의 AI 투자는 효율화 중심에서 성장, 혁신, 신규 비즈니스 모델 쪽으로 무게가 옮겨가고 있다. 다만 AI 도입 속도와 별개로, CTO들이 기업 전체에 AI를 확장할 수 있다는 자신감은 3년 연속 떨어졌다. 핵심 병목은 모델 성능보다 운영 모델, 거버넌스, 책임 구분 같은 조직 문제에 가깝다.
그록, 6억5천만 달러 조달하고 ‘AI 추론 클라우드’ 운영사로 피벗
그록이 6억5천만 달러 규모의 신규 성장 자본을 유치하고 AI 추론 클라우드 운영에 회사를 집중하겠다고 밝혔음. 자체 칩 기술은 엔비디아에 넘어가고, 그록은 엔비디아 LPX 시스템까지 활용해 13개 데이터센터를 2027년 말까지 200MW 규모로 확장할 계획임.
제타, 팔란티어 파운드리 기반으로 AI 데이터 클라우드 재구축한다
AI 마케팅 플랫폼 기업 제타 글로벌이 팔란티어와 전략적 제휴를 맺고 자체 데이터 클라우드를 재구축하기로 했음. 팔란티어의 파운드리를 기반으로 빅데이터 처리 속도와 예측 정확도를 높이겠다는 기대가 나오면서 제타 주가는 장중 5.66% 상승했음.
심평원, 전 국민 진료정보 기반 의료 AI 만든다
심평원이 전 국민 건강보험 진료정보와 공통데이터모델(CDM)을 기반으로 보건의료 특화 생성형 AI를 만들겠다고 밝혔다. 목표는 단순 질의응답이 아니라 연구 설계, SQL 생성, 통계분석, 결과 산출까지 돕는 연구지원 플랫폼으로 가는 것이다.
일본, 미국·중국 AI 의존 줄이려 프랑스·인도와 'AI 주권' 전선 만든다
일본이 프랑스, 인도, 브라질, 말레이시아, 영국 등과 AI 주권 협의체를 만들며 미국·중국 중심 AI 질서에서 빠져나오려는 움직임을 보이고 있다. 핵심은 자국 데이터, 인프라, 모델을 외부 플랫폼에 종속시키지 않고 관리하자는 것이며, 방위·스마트시티·광물 탐사·농업까지 경제 안보 영역으로 확장되고 있다.
댓글
댓글
댓글을 불러오는 중...