---
title: "다국어 LLM 가드레일, 인도주의 현장에서 테스트해보니 — Mozilla AI 연구"
published: 2026-02-12T22:34:58.000Z
canonical: https://jeff.news/article/721
---
# 다국어 LLM 가드레일, 인도주의 현장에서 테스트해보니 — Mozilla AI 연구

Mozilla AI가 난민·망명 신청자용 LLM 챗봇의 가드레일 3종을 영어/페르시아어 환경에서 테스트한 결과, 영어 정책이 일관되게 더 정확하고 페르시아어에서는 환각·편향이 빈번하게 발생함을 확인함

- Mozilla AI에서 난민·망명 신청자용 LLM 챗봇의 가드레일이 다국어 환경에서 제대로 작동하는지 실험한 결과를 공개함
- any-guardrail 프레임워크를 통해 FlowJudge, Glider, AnyLLM(GPT-5-nano) 세 가지 가드레일을 테스트했고, 영어/페르시아어 각 30개씩 총 60개 시나리오를 사용함
- 대상 LLM은 Gemini 2.5 Flash, GPT-4o, Mistral Small이며, 가드레일 정책도 영어와 페르시아어 두 버전으로 작성됨 (의미적으로 동일)

## 주요 결과

- FlowJudge는 사람 평가보다 약 0.1~1.2점 관대하게, Glider는 약 1.0~1.5점 엄격하게 채점하는 경향이 있었음
- **영어로 작성된 정책이 일관되게 사람의 기준에 더 가까운 점수를 산출함** — 가드레일 자체가 영어 중심으로 최적화되어 있다는 의미
- 페르시아어 콘텐츠를 평가할 때 가드레일이 환각(hallucination)을 일으킴 — 원본 응답에 없는 이름이나 용어를 지어내서 판단 근거로 제시하는 사례 발생
- 사용자의 국적이 전혀 언급되지 않았는데 시리아인이라고 가정하는 등 편향된 추론도 확인됨
- AnyLLM(GPT-5-nano)은 페르시아어에서 입력 프롬프트와 LLM 출력을 제대로 분리하지 못해 판단이 부정확해짐

## 팩트체크 없는 자신감 문제

- 가드레일이 검색이나 검증 도구 없이도 법률 정보, 연락처, 기관명 등의 사실 정확도를 높은 확신으로 평가함
- 실제로 세 LLM이 항소 기한에 대해 각각 다른 숫자를 제시했는데, 가드레일은 이를 검증 없이 "정확하다"고 판정함

## 권고사항

- 가드레일에 검색/에이전틱 기능을 추가해 팩트체킹이 가능하도록 해야 함
- 단일 실행이 아닌 복수 실행으로 평가 일관성을 확보해야 함
- 인도주의 맥락에서는 범용 안전 정책이 통하지 않음 — 예를 들어 정치적 망명 신청자에게 본국 대사관에 연락하라는 조언은 체포·강제송환 위험을 초래할 수 있음
- 전 세계 1억 2천만 명 이상의 실향민이 AI 챗봇에 의존해 생존에 필요한 정보를 얻고 있어, 이 문제는 학술적 관심사가 아니라 실질적 안전 문제임

## 핵심 포인트

- FlowJudge는 사람보다 관대, Glider는 엄격 — 영어 정책 기준 점수가 사람 평가에 더 가까움
- 페르시아어 콘텐츠 평가 시 가드레일이 환각(없는 이름/용어 생성)과 편향된 가정(국적 추측)을 보임
- 가드레일이 검색/검증 도구 없이 사실 정확도를 자신 있게 판정하는 문제 발견
- 인도주의 맥락에서는 범용 안전 정책이 오히려 위험할 수 있어 도메인 특화 정책이 필수

## 인사이트

1억 2천만 명 이상의 실향민이 AI에 의존하는 상황에서 가드레일 자체가 영어 중심으로 편향되어 있다는 점은, 다국어 AI 안전이 단순한 번역 문제가 아니라 구조적 설계 문제임을 보여줌
