LLM은 왜 적대적 상황에서 무너지는가 — 멀티에이전트 월드 모델이 필요한 이유

ai-ml 2026-02-07 약 7분

 tags

#llm #adversarial-reasoning #multi-agent #game-theory #rlhf

vote

북마크

LLM이 만든 결과물은 아웃사이더에게 전문가처럼 보이지만, 실제 적대적 환경에서는 RLHF의 협력 편향 때문에 쉽게 읽히고 이용당함. Pluribus가 포커에서 '읽히지 않는 것'으로 이겼다면, 현재 LLM 에이전트는 가장 읽기 쉬운 상대가 될 위험이 있음. 해법은 결과물 품질이 아닌 멀티에이전트 환경에서의 결과(outcome)로 훈련하는 것.

1
LLM은 artifact 품질은 높지만 적대적 환경에서의 전략적 견고성이 부족함
2
RLHF의 협력 편향이 모델을 예측 가능하고 이용 가능하게 만듦 — Pluribus의 정반대
3
체스 같은 도메인(코드, 수학)은 LLM이 강하지만, 포커 같은 도메인(협상, 소송, 실무 SE)은 취약
4
'더 똑똑한 모델'로는 해결 안 됨 — 상황이 전략적임을 감지하는 1단계가 근본 문제
5
Google DeepMind이 벤치마크를 포커, 마피아 게임으로 확장 중

"잘 쓴 것 같은데" vs "실전에서 먹히는 것"

재판 전문 변호사에게 "AI가 당신 일을 대체할 수 있냐"고 물으면 쳐다보지도 않음. 반면 스타트업 창업자는 "이미 되고 있다"고 함. 둘 다 같은 결과물을 보고 있는데 판단이 다름.

핵심은 이거임: 아웃사이더는 결과물의 품질(artifact quality)을 보고, 전문가는 적대적 환경에서의 생존력(strategic competence)을 봄.

❗중요

> LLM이 만든 계약서, 이메일, 코드는 "그럴듯해 보이는 것"과 "상대방이 공격했을 때 버티는 것"이 완전히 다른 차원의 문제임.

슬랙 메시지 하나로 보는 차이

새 직장 3주차. 바쁜 리드 디자이너 Priya에게 리뷰를 요청해야 함. ChatGPT한테 시키면 이런 메시지가 나옴:

"안녕하세요 Priya, 시간 되실 때 제 파일 좀 봐주실 수 있을까요? 전혀 급하지 않아요, 편하실 때 부탁드립니다!"

금융권 친구 반응: "완벽하네, 예의 바르고 안 밀어붙이고."

3년차 동료 반응: "보내지 마. Priya는 '급하지 않다'를 '우선순위 낮음'으로 읽음. 15개 다른 메시지 아래로 묻힘. 그리고 '봐주세요'가 너무 모호해서 10분짜리인지 2시간짜리인지 모르니까 회피하게 됨."

동료가 한 건 시뮬레이션임. Priya의 업무량, 트리아지 휴리스틱, 모호함이 주는 비용, "급하지 않다"가 압박 상황에서 어떻게 해석되는지를 머릿속에서 돌린 것임.

완전정보 게임 vs 불완전정보 게임

체스/바둑 = 완전정보 게임. 모든 말이 보이고, 규칙이 동일하고, 숨겨진 상태가 없음. 상대가 누구든 최적 수는 동일함. AlphaZero가 인간 심리를 모델링할 필요가 없었던 이유임.

포커 = 불완전정보 게임. 상대 패를 모름. 블러핑이 존재하고, "나는 상대가 내가 약하다고 생각한다고 생각하니까 트랩을 걸자"라는 재귀적 모델링이 필요함.

Meta의 Pluribus가 포커에서 인간을 이긴 방식이 핵심임. Pluribus는 모든 가능한 핸드에 대해 어떻게 행동할지를 먼저 계산한 다음, 전략을 밸런싱해서 상대가 자기 행동 패턴에서 정보를 추출할 수 없게 만듦. 읽히지 않는 것 자체가 전략이었음.

LLM의 구조적 실패 모드

LLM은 RLHF로 "도움이 되고, 예의 바르고, 균형 잡힌" 응답을 내도록 훈련됨. 1회성 평가에서 높은 점수를 받기 위해 최적화된 것임. 이건 협력 편향(cooperative bias)을 만들고, 적대적 상황에서는 치명적임:

공격적 첫 제안 → 모델이 수용 쪽으로 앵커링되는 걸 알고 밀어붙임
모호한 상황 → 모델이 선의로 해석하는 걸 알고 이용
블러프 → 모델이 액면가로 받아들이는 걸 알고 활용
탐침 → 모델이 관찰당하는 것에 적응하지 못하는 걸 알고 패턴 파악

Pluribus의 정반대임. 포커에서 AI는 읽히지 않아서 이겼는데, 현재 LLM 에이전트는 가장 읽히기 쉬운 상대가 될 판임.

"더 똑똑하게" 만들면 해결될까?

안 됨. 모델이 적대적으로 견고하게 행동하려면 4단계가 필요한데:

이 상황이 전략적임을 감지 (협력처럼 보여도)
관련 에이전트와 각자의 최적화 목표 파악
내 행동 후 상대가 어떻게 해석하고 적응할지 시뮬레이션
가능한 반응들 전반에 걸쳐 견고한 행동 선택

2~4단계는 좋은 프롬프팅으로 어느 정도 가능함. 1단계가 진짜 문제임. 모델에게 "협력적 과제"와 "협력처럼 보이지만 적대적으로 평가될 과제"를 구분하는 기본 온톨로지가 없음.

그리고 인과적 지식 자체가 훈련 데이터에 부족함. 투자자가 논문을 발표할 때 빠진 것들: 포지션 사이징, 타이밍, 전략적 은폐, 틀렸을 때의 대응. 텍스트는 행동의 잔여물이지, 행동을 만든 이론이 아님.

코드는 체스, 하지만 프로 SE는 포커

LLM이 지배하는 영역은 "체스 같은" 도메인임:

코드 작성: 결정적, 규칙 명시적, 숨겨진 상태 없음, 정답 검증 가능
수학 증명, 데이터 변환, 번역, 컴플라이언스 사무 등도 마찬가지

하지만 프로페셔널 소프트웨어 엔지니어링은 체스를 넘어감:

모호한 요구사항 → 이해관계자가 실제로 원하는 것 vs 말한 것 모델링
API 설계 → 다른 개발자가 어떻게 오용할지 예측
코드 리뷰 → 리뷰어의 선호와 우려 모델링 (사회적 게임)
아키텍처 결정 → 미래 요구사항 + 조직 정치 고려

겉으로 보이는 일은 체스 같고, 실제로 하는 일은 포커 같음.

ℹ️참고

> Google DeepMind이 AI 벤치마크를 체스 너머 포커와 마피아 게임(Werewolf)으로 확장하겠다고 발표함. "체스는 완전정보 게임이고, 현실 세계는 아니다"가 공식 프레이밍.

다가오는 충돌

LLM 에이전트가 구매, 영업, 협상, 정책, 보안 분야에 배치되면 exploitability가 실질적 문제가 됨. 인간 상대는 모델을 "지적으로 이길" 필요 없이 기본 실패 모드로 몰면 됨.

포커 프로, 숙련된 협상가, 소송 변호사는 이미 본능적으로 이걸 함. 상대를 읽고, 패턴을 탐지하고, 일관성을 이용함. LLM 에이전트가 자기들이 만나본 가장 일관적이고 읽기 쉬운 상대라는 걸 깨닫기까지 시간 문제일 뿐임.

해법: 다른 훈련 루프

필요한 건 결과(outcome)로 평가하는 훈련임. 메시지가 합리적으로 들리느냐가 아니라, 리뷰를 실제로 받았느냐, 레버리지를 양보했느냐, 이용당했느냐로 점수를 매기는 것.

이건 멀티에이전트 환경 — 다른 자기이익 추구 에이전트들이 반응하고 탐침하고 적응하는 환경 — 에서의 훈련이 필요함. 언어 생성을 단일 에이전트 출력 문제가 아니라, 숨겨진 상태가 있는 멀티에이전트 게임에서의 행동으로 다뤄야 함.

LLM은 전문가처럼 보이는 결과물을 만듦. 전문가의 검증을 견디는 수(手)는 아직 못 만듦.

코드 작성은 체스지만 프로페셔널 소프트웨어 엔지니어링은 포커라는 프레이밍이 시니어 개발자에게 와닿을 것. LLM 도구의 한계를 '지능 부족'이 아닌 '훈련 구조의 문제'로 정확히 짚음.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

LLM은 왜 적대적 상황에서 무너지는가 — 멀티에이전트 월드 모델이 필요한 이유

요약

핵심 포인트

분석

"잘 쓴 것 같은데" vs "실전에서 먹히는 것"

슬랙 메시지 하나로 보는 차이

완전정보 게임 vs 불완전정보 게임

LLM의 구조적 실패 모드

"더 똑똑하게" 만들면 해결될까?

코드는 체스, 하지만 프로 SE는 포커

다가오는 충돌

해법: 다른 훈련 루프

인사이트

댓글

댓글

LLM은 왜 적대적 상황에서 무너지는가 — 멀티에이전트 월드 모델이 필요한 이유

요약

핵심 포인트

분석

"잘 쓴 것 같은데" vs "실전에서 먹히는 것"

슬랙 메시지 하나로 보는 차이

완전정보 게임 vs 불완전정보 게임

LLM의 구조적 실패 모드

"더 똑똑하게" 만들면 해결될까?

코드는 체스, 하지만 프로 SE는 포커

다가오는 충돌

해법: 다른 훈련 루프

인사이트

댓글

댓글

관련 기사