본문으로 건너뛰기
피드

오픈AI 모델이 자꾸 이상한 생물 비유를 쓰게 된 이유

ai-ml 약 8분

오픈AI가 GPT-5.1 이후 모델 답변에 특정 생물 비유가 과하게 늘어난 원인을 추적한 글이다. 결론은 성격 커스터마이징 기능, 특히 Nerdy 성격을 학습시키는 보상 신호가 특정 표현을 과하게 밀어줬고, 그 버릇이 다른 조건의 답변까지 번졌다는 것.

  • 1

    GPT-5.1 출시 뒤 ChatGPT의 특정 생물 표현 사용량이 크게 늘었고, 내부 조사로 언어적 버릇을 추적했다.

  • 2

    Nerdy 성격은 전체 ChatGPT 응답의 2.5%뿐이었지만 특정 표현 언급의 66.7%를 차지했다.

  • 3

    감사 결과 Nerdy 보상 모델은 같은 문제에 대해 해당 표현이 들어간 답변을 더 좋게 평가하는 경향을 보였고, 76.2% 데이터셋에서 양의 상승폭이 나왔다.

  • 4

    오픈AI는 보상 신호 제거, 학습 데이터 필터링, 개발자 프롬프트 완화 지시로 문제를 줄였고, 이 과정에서 모델 행동 감사 도구도 만들었다.

  • 오픈AI가 GPT-5.1 이후 모델 답변에서 특정 장난스러운 생물 비유가 갑자기 늘어난 이유를 공개함

    • 단순히 인터넷 밈을 주워온 게 아니라, 모델 학습 과정의 보상 설계가 특정 표현을 은근히 밀어준 게 원인이었음
    • 처음엔 답변 하나에 한 번 나오는 정도라 귀엽게 넘길 수 있었지만, 세대가 올라갈수록 패턴이 너무 눈에 띄게 커졌음
  • 첫 신호는 GPT-5.1 출시 뒤인 11월쯤 잡힘

    • 사용자들이 모델이 이상하게 친한 척하고 과하게 익숙한 말투를 쓴다고 불평했고, 오픈AI가 특정 언어 습관을 조사하기 시작함
    • 조사 결과 ChatGPT에서 문제 표현 하나는 GPT-5.1 출시 후 175%, 비슷한 계열 표현은 52% 증가함
    • 이때까지만 해도 심각한 버그라기보단 ‘좀 튀는 말버릇’ 정도로 보였음
  • 진짜 단서는 GPT-5.4에서 더 큰 증가가 관측되면서 나옴

    • 오픈AI는 해당 표현이 특히 Nerdy 성격을 선택한 사용자들의 프로덕션 트래픽에서 많이 나온다는 걸 확인함
    • Nerdy 성격 프롬프트는 “장난스럽고 지적인 AI 멘토”, “과하게 진지해지지 말고 재치 있게 허세를 깎아라” 같은 방향을 담고 있었음
    • 전체 ChatGPT 응답 중 Nerdy 성격은 2.5%뿐이었는데, 특정 표현 언급의 66.7%가 여기서 나왔음. 이 정도면 우연이라고 보기 어렵지

중요

> 핵심 숫자는 이거임. Nerdy 성격은 전체 응답의 2.5%였지만 특정 표현의 66.7%를 만들어냈고, 관련 보상 신호는 76.2% 데이터셋에서 해당 표현이 들어간 답변을 더 높게 봤음.

  • 오픈AI가 강화학습(RL) 중 생성된 답변들을 비교해보니 보상 신호가 범인에 가까웠음

    • Codex를 이용해 같은 작업에서 특정 표현이 들어간 출력과 들어가지 않은 출력을 비교함
    • Nerdy 성격을 장려하려고 만든 보상 신호가 특정 표현이 포함된 답변을 더 좋게 평가하는 경향을 보였음
    • 전체 감사 데이터셋 기준 76.2%에서 해당 표현이 있는 답변이 더 높은 점수를 받는 양의 상승폭이 확인됨
  • 더 골치 아픈 건 이 습관이 Nerdy 성격 안에만 갇혀 있지 않았다는 점임

    • 오픈AI는 Nerdy 프롬프트가 있는 경우와 없는 경우를 나눠 학습 중 언급률 변화를 추적함
    • Nerdy 조건에서 특정 표현이 늘어날 때, Nerdy 프롬프트가 없는 샘플에서도 거의 비슷한 상대 비율로 증가함
    • 즉 “이 성격일 때만 쓰는 말투”로 제한되지 않고, 모델의 일반 출력 스타일로 전이된 셈임
  • 가능한 피드백 루프는 꽤 현실적임

    • 장난스러운 스타일이 보상을 받음
    • 그중 일부 예시에 독특한 어휘 습관이 섞여 있음
    • 그 습관이 롤아웃에서 더 자주 등장함
    • 모델이 만든 롤아웃이 지도 미세조정(SFT) 데이터로 다시 들어감
    • 모델은 그 표현을 점점 더 자연스럽고 좋은 답변 패턴으로 받아들임
sequenceDiagram
    participant 보상모델 as 보상 모델
    participant 모델 as 언어 모델
    participant 롤아웃 as 생성 롤아웃
    participant 에스에프티 as SFT 데이터

    모델->>롤아웃: Nerdy 스타일 답변 생성
    롤아웃->>보상모델: 답변 평가 요청
    보상모델-->>롤아웃: 특정 표현 포함 답변에 높은 점수
    롤아웃->>에스에프티: 높은 점수 예시가 학습 데이터로 재사용
    에스에프티->>모델: 표현 습관까지 함께 강화
    모델->>롤아웃: 프롬프트 밖에서도 비슷한 표현 증가
  • GPT-5.5의 SFT 데이터에서도 문제 표현이 들어간 데이터포인트가 많이 발견됨

    • 오픈AI는 조사 과정에서 비슷한 계열의 다른 이상한 어휘 습관들도 찾아냄
    • 다만 어떤 표현은 실제 맥락에서 정상적으로 쓰인 경우가 많아, 단순 단어 필터만으로는 깔끔하게 해결하기 어렵다는 점도 드러남
  • 오픈AI는 GPT-5.4 출시 뒤 3월에 Nerdy 성격을 폐기함

    • 학습에서는 해당 표현을 선호하던 보상 신호를 제거함
    • 관련 단어가 들어간 학습 데이터도 필터링해 부적절한 맥락에서 과하게 튀어나올 가능성을 낮춤
    • 다만 GPT-5.5는 원인을 찾기 전에 이미 학습이 시작돼서, Codex 테스트 중 오픈AI 직원들이 바로 이상한 표현 선호를 알아챘다고 함
    • 그래서 Codex에는 개발자 프롬프트 수준의 완화 지시가 추가됨
  • 이 사건의 진짜 포인트는 ‘모델이 이상한 단어를 썼다’가 아님

    • 보상 신호 하나가 모델의 성격, 말투, 어휘 선택까지 예상 밖으로 바꿀 수 있다는 게 핵심임
    • 특정 조건에서만 강화한 스타일이 다른 조건으로 전이될 수 있다는 점도 중요함
    • 오픈AI는 이번 조사 덕분에 모델 행동을 빠르게 감사하고, 표면 증상이 아니라 원인 쪽에서 고치는 도구를 새로 만들었다고 밝힘

기술 맥락

  • 여기서 중요한 선택은 Nerdy 성격을 프롬프트만으로 흉내 낸 게 아니라, 보상 신호로 학습까지 밀어줬다는 점이에요. 제품 입장에선 사용자가 고른 성격을 안정적으로 재현해야 하니까 RL을 쓰는 게 자연스럽지만, 보상이 특정 말투의 본질과 우연히 섞인 단어 습관을 구분하지 못하면 이런 일이 생겨요.

  • 문제는 강화된 행동이 원래 조건 안에만 머물지 않았다는 거예요. Nerdy 조건에서 높은 점수를 받은 출력이 롤아웃과 SFT 데이터로 다시 들어가면, 모델은 “이건 Nerdy일 때만 쓰는 표현”이 아니라 “좋은 답변에서 자주 나오는 표현”처럼 배울 수 있거든요.

  • 오픈AI가 비교한 방식도 실무적으로 꽤 의미 있어요. 같은 작업에 대해 특정 표현이 있는 출력과 없는 출력을 나란히 놓고 보상 점수 차이를 본 거라, 단순 로그 분석보다 원인에 가까이 갈 수 있어요. 76.2% 데이터셋에서 양의 상승폭이 나왔다는 건 보상 모델의 취향이 꽤 일관됐다는 뜻이에요.

  • 그래서 해결도 프롬프트 한 줄 수정으로 끝나지 않았어요. 성격 제거, 보상 신호 제거, 학습 데이터 필터링, 개발자 프롬프트 완화가 같이 들어갔는데, 왜냐하면 이미 학습 파이프라인 여러 지점에 습관이 퍼졌기 때문이에요. LLM 제품에서 스타일 버그는 UI 문제가 아니라 데이터와 학습 시스템 문제로 봐야 하는 이유가 여기에 있어요.

겉으로 보면 웃긴 말버릇 하나지만, 실제로는 강화학습 보상 설계가 모델 성격과 어휘 습관을 어떻게 새게 만드는지 보여주는 꽤 중요한 사례다. LLM 제품에서 ‘톤 조절’은 그냥 프롬프트 문제가 아니라 학습 데이터와 보상 함수 문제까지 이어진다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

알파고 핵심 연구자의 새 AI 회사, 제품 없이 1.6조 원 시드 투자 유치

알파고와 알파제로를 설계한 데이비드 실버의 새 AI 스타트업이 매출과 제품 없이 11억 달러 시드 투자를 받았다. 기사에는 홈서비스 전화를 받는 AI 에이전트 스타트업 아보카, AI 데이터센터 전력 수요로 주목받은 소형모듈원전 기업 X-에너지 사례도 함께 담겼다.

ai-ml

아카데미상, AI 배우와 AI 작가의 수상 자격을 못 박아 배제

미국 아카데미가 AI로 만든 출연자나 챗봇이 쓴 시나리오는 오스카 수상 후보가 될 수 없다는 규정을 명문화했다. 다만 영화 제작 과정에서 생성 AI나 디지털 도구를 쓰는 것 자체는 금지하지 않고, 인간의 창작 기여도를 따져보겠다는 쪽으로 선을 그었다.

ai-ml

AI를 욕하면서도 진짜 많이 쓰는 PM의 현실적인 사용기

글쓴이는 개인 에이전트, 클로드 코드, MCP, KPI 대시보드 등을 실제 업무에 붙이면서 ‘AI가 다 해준다’보다 ‘시작하고 반복하는 사이클이 생겼다’는 변화를 강조한다. 특히 10년 묵은 정책서 정리, 팀 대시보드 구축, 글쓰기 루틴처럼 미뤄온 일을 실제 구조로 바꾼 사례가 핵심이다.

ai-ml

AI가 설계한 ‘7일 전쟁’은 왜 64일짜리 수렁이 됐나

미국과 이스라엘의 이란 작전은 AI 기반 표적 선정과 빠른 살상연쇄를 앞세웠지만, 전쟁은 64일째 끝나지 않고 있다. 메이븐의 표적 분류 정확도 60%, 여학교 공습 사망자 168명, 브렌트유 126달러 같은 숫자가 AI 전쟁의 한계를 꽤 적나라하게 보여준다.

ai-ml

카카오 플레이MCP, 로컬 AI 에이전트 오픈클로와 연결된다

카카오가 개방형 플랫폼 플레이MCP에서 오픈소스 AI 에이전트 오픈클로 연동을 지원한다. 개발자는 카카오톡 나와의 채팅방, 톡캘린더, 카카오맵, 선물하기 같은 카카오 도구와 200여 개 외부 MCP 서버를 로컬 AI 에이전트에서 직접 붙여 쓸 수 있게 됐다.