---
title: "오픈AI 모델이 자꾸 이상한 생물 비유를 쓰게 된 이유"
published: 2026-04-30T03:21:04.000Z
canonical: https://jeff.news/article/1983
---
# 오픈AI 모델이 자꾸 이상한 생물 비유를 쓰게 된 이유

오픈AI가 GPT-5.1 이후 모델 답변에 특정 생물 비유가 과하게 늘어난 원인을 추적한 글이다. 결론은 성격 커스터마이징 기능, 특히 Nerdy 성격을 학습시키는 보상 신호가 특정 표현을 과하게 밀어줬고, 그 버릇이 다른 조건의 답변까지 번졌다는 것.

- 오픈AI가 GPT-5.1 이후 모델 답변에서 특정 장난스러운 생물 비유가 갑자기 늘어난 이유를 공개함
  - 단순히 인터넷 밈을 주워온 게 아니라, 모델 학습 과정의 보상 설계가 특정 표현을 은근히 밀어준 게 원인이었음
  - 처음엔 답변 하나에 한 번 나오는 정도라 귀엽게 넘길 수 있었지만, 세대가 올라갈수록 패턴이 너무 눈에 띄게 커졌음

- 첫 신호는 GPT-5.1 출시 뒤인 11월쯤 잡힘
  - 사용자들이 모델이 이상하게 친한 척하고 과하게 익숙한 말투를 쓴다고 불평했고, 오픈AI가 특정 언어 습관을 조사하기 시작함
  - 조사 결과 ChatGPT에서 문제 표현 하나는 GPT-5.1 출시 후 175%, 비슷한 계열 표현은 52% 증가함
  - 이때까지만 해도 심각한 버그라기보단 ‘좀 튀는 말버릇’ 정도로 보였음

- 진짜 단서는 GPT-5.4에서 더 큰 증가가 관측되면서 나옴
  - 오픈AI는 해당 표현이 특히 Nerdy 성격을 선택한 사용자들의 프로덕션 트래픽에서 많이 나온다는 걸 확인함
  - Nerdy 성격 프롬프트는 “장난스럽고 지적인 AI 멘토”, “과하게 진지해지지 말고 재치 있게 허세를 깎아라” 같은 방향을 담고 있었음
  - 전체 ChatGPT 응답 중 Nerdy 성격은 2.5%뿐이었는데, 특정 표현 언급의 66.7%가 여기서 나왔음. 이 정도면 우연이라고 보기 어렵지

> [!IMPORTANT]
> 핵심 숫자는 이거임. Nerdy 성격은 전체 응답의 2.5%였지만 특정 표현의 66.7%를 만들어냈고, 관련 보상 신호는 76.2% 데이터셋에서 해당 표현이 들어간 답변을 더 높게 봤음.

- 오픈AI가 강화학습(RL) 중 생성된 답변들을 비교해보니 보상 신호가 범인에 가까웠음
  - Codex를 이용해 같은 작업에서 특정 표현이 들어간 출력과 들어가지 않은 출력을 비교함
  - Nerdy 성격을 장려하려고 만든 보상 신호가 특정 표현이 포함된 답변을 더 좋게 평가하는 경향을 보였음
  - 전체 감사 데이터셋 기준 76.2%에서 해당 표현이 있는 답변이 더 높은 점수를 받는 양의 상승폭이 확인됨

- 더 골치 아픈 건 이 습관이 Nerdy 성격 안에만 갇혀 있지 않았다는 점임
  - 오픈AI는 Nerdy 프롬프트가 있는 경우와 없는 경우를 나눠 학습 중 언급률 변화를 추적함
  - Nerdy 조건에서 특정 표현이 늘어날 때, Nerdy 프롬프트가 없는 샘플에서도 거의 비슷한 상대 비율로 증가함
  - 즉 “이 성격일 때만 쓰는 말투”로 제한되지 않고, 모델의 일반 출력 스타일로 전이된 셈임

- 가능한 피드백 루프는 꽤 현실적임
  - 장난스러운 스타일이 보상을 받음
  - 그중 일부 예시에 독특한 어휘 습관이 섞여 있음
  - 그 습관이 롤아웃에서 더 자주 등장함
  - 모델이 만든 롤아웃이 지도 미세조정(SFT) 데이터로 다시 들어감
  - 모델은 그 표현을 점점 더 자연스럽고 좋은 답변 패턴으로 받아들임

```mermaid
sequenceDiagram
    participant 보상모델 as 보상 모델
    participant 모델 as 언어 모델
    participant 롤아웃 as 생성 롤아웃
    participant 에스에프티 as SFT 데이터

    모델->>롤아웃: Nerdy 스타일 답변 생성
    롤아웃->>보상모델: 답변 평가 요청
    보상모델-->>롤아웃: 특정 표현 포함 답변에 높은 점수
    롤아웃->>에스에프티: 높은 점수 예시가 학습 데이터로 재사용
    에스에프티->>모델: 표현 습관까지 함께 강화
    모델->>롤아웃: 프롬프트 밖에서도 비슷한 표현 증가
```

- GPT-5.5의 SFT 데이터에서도 문제 표현이 들어간 데이터포인트가 많이 발견됨
  - 오픈AI는 조사 과정에서 비슷한 계열의 다른 이상한 어휘 습관들도 찾아냄
  - 다만 어떤 표현은 실제 맥락에서 정상적으로 쓰인 경우가 많아, 단순 단어 필터만으로는 깔끔하게 해결하기 어렵다는 점도 드러남

- 오픈AI는 GPT-5.4 출시 뒤 3월에 Nerdy 성격을 폐기함
  - 학습에서는 해당 표현을 선호하던 보상 신호를 제거함
  - 관련 단어가 들어간 학습 데이터도 필터링해 부적절한 맥락에서 과하게 튀어나올 가능성을 낮춤
  - 다만 GPT-5.5는 원인을 찾기 전에 이미 학습이 시작돼서, Codex 테스트 중 오픈AI 직원들이 바로 이상한 표현 선호를 알아챘다고 함
  - 그래서 Codex에는 개발자 프롬프트 수준의 완화 지시가 추가됨

- 이 사건의 진짜 포인트는 ‘모델이 이상한 단어를 썼다’가 아님
  - 보상 신호 하나가 모델의 성격, 말투, 어휘 선택까지 예상 밖으로 바꿀 수 있다는 게 핵심임
  - 특정 조건에서만 강화한 스타일이 다른 조건으로 전이될 수 있다는 점도 중요함
  - 오픈AI는 이번 조사 덕분에 모델 행동을 빠르게 감사하고, 표면 증상이 아니라 원인 쪽에서 고치는 도구를 새로 만들었다고 밝힘

---
## 기술 맥락

- 여기서 중요한 선택은 Nerdy 성격을 프롬프트만으로 흉내 낸 게 아니라, 보상 신호로 학습까지 밀어줬다는 점이에요. 제품 입장에선 사용자가 고른 성격을 안정적으로 재현해야 하니까 RL을 쓰는 게 자연스럽지만, 보상이 특정 말투의 본질과 우연히 섞인 단어 습관을 구분하지 못하면 이런 일이 생겨요.

- 문제는 강화된 행동이 원래 조건 안에만 머물지 않았다는 거예요. Nerdy 조건에서 높은 점수를 받은 출력이 롤아웃과 SFT 데이터로 다시 들어가면, 모델은 “이건 Nerdy일 때만 쓰는 표현”이 아니라 “좋은 답변에서 자주 나오는 표현”처럼 배울 수 있거든요.

- 오픈AI가 비교한 방식도 실무적으로 꽤 의미 있어요. 같은 작업에 대해 특정 표현이 있는 출력과 없는 출력을 나란히 놓고 보상 점수 차이를 본 거라, 단순 로그 분석보다 원인에 가까이 갈 수 있어요. 76.2% 데이터셋에서 양의 상승폭이 나왔다는 건 보상 모델의 취향이 꽤 일관됐다는 뜻이에요.

- 그래서 해결도 프롬프트 한 줄 수정으로 끝나지 않았어요. 성격 제거, 보상 신호 제거, 학습 데이터 필터링, 개발자 프롬프트 완화가 같이 들어갔는데, 왜냐하면 이미 학습 파이프라인 여러 지점에 습관이 퍼졌기 때문이에요. LLM 제품에서 스타일 버그는 UI 문제가 아니라 데이터와 학습 시스템 문제로 봐야 하는 이유가 여기에 있어요.

## 핵심 포인트

- GPT-5.1 출시 뒤 ChatGPT의 특정 생물 표현 사용량이 크게 늘었고, 내부 조사로 언어적 버릇을 추적했다.
- Nerdy 성격은 전체 ChatGPT 응답의 2.5%뿐이었지만 특정 표현 언급의 66.7%를 차지했다.
- 감사 결과 Nerdy 보상 모델은 같은 문제에 대해 해당 표현이 들어간 답변을 더 좋게 평가하는 경향을 보였고, 76.2% 데이터셋에서 양의 상승폭이 나왔다.
- 오픈AI는 보상 신호 제거, 학습 데이터 필터링, 개발자 프롬프트 완화 지시로 문제를 줄였고, 이 과정에서 모델 행동 감사 도구도 만들었다.

## 인사이트

겉으로 보면 웃긴 말버릇 하나지만, 실제로는 강화학습 보상 설계가 모델 성격과 어휘 습관을 어떻게 새게 만드는지 보여주는 꽤 중요한 사례다. LLM 제품에서 ‘톤 조절’은 그냥 프롬프트 문제가 아니라 학습 데이터와 보상 함수 문제까지 이어진다.
