---
title: "로블록스, 아동 위험 조기 탐지 AI ‘센티넬’을 오픈소스로 공개"
published: 2026-05-31T03:05:03.127Z
canonical: https://jeff.news/article/3529
---
# 로블록스, 아동 위험 조기 탐지 AI ‘센티넬’을 오픈소스로 공개

로블록스가 그루밍 같은 아동 위험 신호를 조기에 탐지하는 AI 시스템 센티넬을 오픈소스로 공개했다. 이 시스템은 하루 60억 건 이상의 채팅 메시지를 거의 실시간으로 분석하고, 2025년 상반기에 약 1,200건의 의심 사례를 미국 실종 및 착취 아동 센터에 신고하는 데 기여했다.

## 왜 센티넬을 만들었나

- 로블록스가 아동 위험 신호를 조기에 잡아내는 AI 시스템 센티넬(Sentinel)을 오픈소스로 공개함
  - 목적은 그루밍(grooming) 같은 위험한 상호작용을 노골적인 피해 신고가 나오기 전에 포착하는 것
  - 2024년 말부터 로블록스 내부에서 운영 중이었고, 이번에 오픈소스 안전 툴킷의 일부로 공개됨

- 규모가 그냥 “채팅 필터 하나 더 붙임” 수준이 아님
  - 로블록스는 매일 1억 1,100만 명 이상의 사용자가 방문한다고 밝힘
  - 커뮤니티는 평균 61억 건의 채팅 메시지를 주고받고, 수십 개 언어로 110만 시간의 음성 대화를 나눔
  - 센티넬은 하루 60억 건 이상의 채팅 메시지를 대상으로 거의 실시간 분석 파이프라인을 돌려야 함

> [!IMPORTANT]
> 2025년 상반기 센티넬은 약 1,200건의 아동 착취 시도 의심 사례를 미국 실종 및 착취 아동 센터에 신고하는 데 기여함. 로블록스가 탐지한 사례의 35%는 이런 선제적 접근 덕분에 발견됐다고 함.

- 로블록스가 풀려는 문제는 키워드 필터로는 잘 안 잡히는 영역임
  - 그루밍은 처음부터 노골적으로 시작되지 않고, 친근한 대화나 지지 메시지처럼 보이는 흐름으로 시작될 수 있음
  - “어디서 왔어?” 같은 한 문장만 보면 애매하지만, 긴 대화 흐름에서는 위험 신호가 될 수 있음
  - 악의적 사용자는 미묘하고 간접적인 표현을 쓰기 때문에 인간 검토자도 패턴을 놓칠 수 있음

## 센티넬이 보는 방식

- 센티넬은 정적 규칙이나 라벨링된 예시만 바라보는 시스템이 아님
  - 자체 감독 학습과 대조 측정(contrastive measurement)을 이용해 대화 패턴을 일반화함
  - 새로운 위협 패턴이 기존 예시와 완전히 일치하지 않아도 위험 방향으로 기울어지는지 보려는 설계임

- 핵심은 긍정 인덱스와 부정 인덱스를 나눠 비교하는 구조임
  - 긍정 인덱스는 안전 관련 규정 위반 이력이 없고 장기적으로 긍정적 활동을 보인 사용자들의 채팅 기록으로 구성됨
  - 부정 인덱스는 인간 운영진이 검토해 아동 위험 정책 위반 증거가 확인된 대화 조각으로 구성됨
  - 부정 인덱스에는 단 13,000개 예시만 포함되어 있는데도, 희귀한 위험 패턴을 잡기 위해 설계됐다는 점이 포인트임

```mermaid
sequenceDiagram
    participant 사용자대화 as 사용자 대화
    participant 임베딩 as 임베딩 변환기
    participant 인덱스 as 긍정·부정 인덱스
    participant 센티넬 as 센티넬 위험 평가
    participant 분석가 as 인간 분석가

    사용자대화->>임베딩: 1분 단위 메시지 수집
    임베딩->>인덱스: 대화 조각을 벡터로 비교
    인덱스->>센티넬: 코사인 유사도와 위험 지표 계산
    센티넬->>센티넬: 시간 경과에 따른 왜도 분석
    센티넬->>분석가: 고위험 패턴 경고 전달
    분석가->>센티넬: 검토 결과로 예시와 훈련 데이터 개선
```

- 각 메시지는 임베딩 벡터로 변환된 뒤 두 인덱스와 비교됨
  - 비교에는 코사인 유사도(cosine similarity)가 쓰임
  - 안전한 패턴에도, 위험한 패턴에도 의미 있게 닿지 않는 메시지는 걸러내서 오탐을 줄임
  - 위험한 패턴에 더 가까운 상호작용에는 더 높은 위험 지표가 붙음

- 단순 평균이 아니라 왜도(skewness)를 보는 점도 흥미로움
  - 악의적 사용자는 대부분 무해한 대화 속에 드문 위험 신호를 섞을 수 있음
  - 평균만 보면 위험 메시지가 잡음에 묻히기 쉬움
  - 센티넬은 시간에 따른 점수 분포의 비대칭성을 봐서 드물지만 강한 위험 신호가 튀는지 확인함

> [!NOTE]
> 활동량이 많은 사용자는 일치하는 메시지 수 자체가 많아 보일 수 있음. 센티넬은 전체 양보다 통계적 비대칭성을 강조해, 그냥 말이 많은 사용자와 위험 패턴을 보이는 사용자를 구분하려고 함.

## 운영에서 중요한 부분

- 센티넬은 AI만으로 끝나는 시스템이 아니라 인간 검토 루프가 붙어 있음
  - 전직 CIA나 FBI 요원 등 전문 분석가들이 센티넬이 표시한 사건을 검토함
  - 분석가의 결정은 다시 예시, 인덱스, 훈련 데이터 개선으로 이어짐
  - 악의적 사용자가 회피 방식을 바꾸면 시스템도 계속 업데이트돼야 하기 때문임

- 로블록스는 이걸 더 넓은 온라인 안전 도구 생태계로 밀고 있음
  - ROOST, 테크 코얼리션의 랜턴(Lantern) 프로젝트 같은 조직에도 참여하고 있음
  - 센티넬을 오픈소스로 공개해 다른 플랫폼도 비슷한 선제적 탐지 접근을 참고할 수 있게 하려는 의도가 있음

- 장기적으로는 텍스트 채팅을 넘어 멀티모달 안전 탐지로 확장하려고 함
  - 로블록스는 텍스트, 이미지, 동영상 등을 함께 이해하는 방향을 탐색 중이라고 밝힘
  - 단일 모달 시스템이 놓치는 위험 신호를 사용자 행동 전체 맥락에서 보려는 흐름임

---

## 기술 맥락

- 센티넬의 기술적 선택은 “나쁜 단어 목록”을 늘리는 쪽이 아니에요. 그루밍 같은 문제는 단어 하나보다 대화의 진행 방향이 중요해서, 메시지를 임베딩으로 바꾸고 안전한 흐름과 위험한 흐름 중 어디에 가까운지 비교하는 방식을 택한 거예요.

- 부정 예시가 13,000개뿐이라는 점도 중요해요. 실제 아동 위험 사례는 드물고 라벨링도 민감하니까, 거대한 정답 데이터셋을 만들기 어렵거든요. 그래서 센티넬은 적은 부정 예시에서도 패턴을 일반화할 수 있는 대조 학습식 접근을 씁니다.

- 왜도를 보는 설계는 대규모 플랫폼 운영에서 꽤 현실적인 선택이에요. 평균 위험 점수만 보면 무해한 대화가 많은 사용자의 위험 신호가 희석될 수 있거든요. 드물지만 강한 신호가 분포를 한쪽으로 기울이는지를 보는 게 더 맞는 문제인 셈이에요.

- 마지막으로 인간 분석가 루프가 빠지지 않는 이유는 안전 도메인에서 자동화만 믿기 어렵기 때문이에요. 센티넬은 경고를 만들고, 전문가는 맥락을 판단하고, 그 결과가 다시 인덱스와 훈련 데이터로 들어가는 구조라서 운영 경험이 곧 모델 개선 재료가 돼요.

## 핵심 포인트

- 센티넬은 정적 키워드 필터가 아니라 임베딩과 대조 측정으로 위험 패턴을 탐지
- 2025년 상반기 로블록스 신고 사례 중 35%가 선제적 탐지 접근 덕분에 발견됨
- 부정 인덱스 예시가 13,000개뿐인데도 희귀한 위험 패턴을 일반화해 탐지하도록 설계됨
- 전직 CIA·FBI 요원 등 전문 분석가가 인간 검토 루프를 맡아 모델 개선에 피드백 제공

## 인사이트

대규모 사용자 생성 플랫폼에서 안전 문제는 이제 ‘필터링’이 아니라 실시간 위험 추론 시스템의 문제로 넘어가고 있음. 특히 부정 사례가 희귀한 영역에서 대조 학습과 인간 검토 루프를 어떻게 조합하는지가 꽤 실무적인 참고점임.
