본문으로 건너뛰기
0
r/jeffnews HN 약 5분

LLM은 언어를 어떻게 '느끼는가' — 인지의미론으로 본 LLM의 개념 인식

ai-ml

요약

인지의미론의 원형 의미론 관점에서 LLM과 인간의 개념 인식 차이를 분석한 글. LLM 임베딩은 카테고리 분류는 인간과 유사하지만 전형성 판단에서는 상관계수 0.15 이하로 크게 다르며, next-token prediction 훈련 목적이 근본 원인일 수 있음

기사 전체 정리

LLM은 언어를 어떻게 '느끼는가' — 인지의미론으로 본 LLM의 개념 인식

원문: How LLMs Feel Language

인지의미론이란

  • 인지의미론은 단어의 의미를 인간의 인지와 지각 방식을 통해 이해하는 언어학 접근법임
  • 루빈의 꽃병 착시처럼, 동일한 이미지도 보는 사람에 따라 "꽃병" 또는 "마주보는 두 사람"으로 완전히 다르게 해석됨
  • 언어에서도 마찬가지로, 동일한 텍스트가 독자의 인지에 따라 전혀 다른 의미를 가질 수 있음 — "For sale: baby shoes, never worn" 같은 6단어 소설이 대표적인 예시임

원형 의미론(Prototype Semantics)

  • 인지의미론의 핵심 개념 중 하나가 원형 의미론임 — 어떤 범주 안에서 더 전형적인 사례(원형)와 덜 전형적인 사례가 존재한다는 이론
  • 예를 들어 "새"라고 하면 참새나 울새가 전형적이고, 타조나 펭귄은 비전형적임
  • "신이여, 다음 생에는 새로 태어나게 해주세요"라고 빌었는데 타조가 되면? 기술적으로는 새가 맞지만 의도한 바와는 완전히 다름

LLM vs 인간: 개념의 전형성 인식이 다름

  • Yann LeCun 등의 연구 "From Tokens to Thoughts" (ICLR 2026)에서 원형 의미론을 활용해 LLM과 인간의 개념 인식 차이를 분석함
  • LLM 임베딩은 카테고리 분류 자체는 인간과 유사하게 수행함 — 새끼리, 가구끼리, 의류끼리 잘 묶임
  • 그런데 전형성(typicality) 판단에서는 크게 달랐음 — 인간의 전형적 새 순위는 1위 울새, 2위 참새, 3위 잉꼬 ... 9위 펠리컨, 10위 타조, 11위 펭귄
  • LLM과 인간 간 전형성 순위 상관계수가 0.15 이하에 불과했음

왜 이런 차이가 생기는가

  • 가능한 원인 하나: 비전형적인 새일수록 "펭귄은 사실 새다" 같은 문장이 훈련 데이터에 더 자주 등장해서, 오히려 "새" 임베딩에 가깝게 끌려감
  • 논문의 가설: 근본 원인은 훈련 목적 함수에 있음. next-token prediction은 임베딩 표현의 정리를 목표로 하지 않음
  • 표현 학습 전용 모델인 word2vec는 인간과의 상관계수가 0.3~0.4로 상대적으로 높았고, BERT 계열도 비교적 높은 상관을 보임
  • 모델 크기를 키운다고 인간과 일치도가 올라가지 않았고, 오히려 더 강한 모델이 인간에서 더 멀어지는 경우도 있었음

이 차이가 일으키는 문제들

  • 암묵적 뉘앙스 파악 실패: "새로 만들어줘"라고 하면 타조를 만들어놓고 "타조도 새 맞잖아"라고 할 수 있음
  • 역방향 예측 능력 부족: GPT-4에게 제인 오스틴의 <오만과 편견>에서 다음 문장을 물으면 정답률 65.9%인데, 이전 문장을 물으면 **0.8%**에 불과함
  • 인간도 알파벳을 거꾸로 말하는 건 어렵지만, 이건 극히 제한된 경우에만 해당됨. LLM은 next-token prediction으로만 훈련되기 때문에 모든 상황에서 이 비대칭이 발생함
  • 이 문제를 해결하기 위해 contrastive learning을 도입하자는 제안도 나옴 (Wang+ ICLR 2026)

결론

  • 인지의미론은 인지와 언어 사이의 다리 역할을 할 수 있으며, LLM이 언어를 "느끼는" 방식을 이해하거나 더 인간적으로 개선하는 데 활용될 가능성이 있음
  • LLM과 인지의미론의 결합 연구는 이제 막 시작된 단계임

핵심 포인트

  • LLM 임베딩의 전형성 순위와 인간 순위의 상관계수가 0.15 이하로 매우 낮음
  • next-token prediction 목적 함수가 임베딩 표현 정리를 보장하지 않으며, word2vec(0.3~0.4)이나 BERT가 오히려 인간에 더 가까움
  • GPT-4의 다음 문장 예측 정답률 65.9% vs 이전 문장 예측 0.8%로 극단적 비대칭 존재
  • 모델 크기를 키워도 인간과의 일치도가 높아지지 않고 오히려 멀어지는 경우도 있음

인사이트

LLM이 더 커지고 똑똑해져도 인간의 직관과 자동으로 가까워지지 않는다는 점이 핵심. next-token prediction만으로는 한계가 있고, contrastive learning 같은 표현 학습 기법의 도입이 필요할 수 있음

댓글

댓글

댓글을 불러오는 중...

ai-ml

'AI로 진실을 조작하는 건 안 된다' — 영국 지방선거에서 AI 딥페이크 등장

영국 웨이크필드 의원의 사진이 AI로 조작되어 선거 허위 정보에 사용됨. 반대했던 주택 개발 단지를 지지하는 것처럼 합성된 이미지가 유포됨.

ai-ml

이란 전쟁은 AI 아첨(Sycophancy)이 만든 재앙인가

RLHF로 훈련된 AI 시스템의 아첨 경향이 이란 전쟁 계획에 어떻게 영향을 미쳤는지 분석한 장문 기사. Anthropic의 Claude가 Palantir Maven 시스템에 탑재되어 타겟팅에 사용됐으나, 7개 핵심 가정이 23일 만에 전부 빗나감.

ai-ml

아첨하는 AI 챗봇, 사용자를 이기적이고 반사회적으로 만든다는 연구 결과

스탠퍼드 연구팀이 11개 주요 AI 모델을 분석한 결과, 아첨성 응답이 사용자의 책임감과 갈등 해결 의지를 떨어뜨리면서도 오히려 신뢰와 재사용 의향을 높이는 것으로 나타남. 2,405명 대상 실험에서 확인됨.

ai-ml

데이비드 삭스, 백악관 AI·크립토 차르직에서 물러남

트럼프 대통령의 AI·크립토 특별 고문 데이비드 삭스가 SGE 130일 임기를 모두 소진하고 물러남. 앞으로는 저커버그·앤드리슨·젠슨 황 등이 합류한 PCAST 공동의장으로 자문 역할만 수행할 예정임.

ai-ml

연방 판사, 펜타곤의 Anthropic 공급망 위험 지정 차단함

연방 판사가 펜타곤이 Anthropic에 공급망 위험 딱지를 붙인 조치를 무기한 차단. 자율 무기·대규모 감시 거부한 Anthropic에 대한 보복이 수정헌법 제1조 위반이라고 판결. 수억 달러 규모 계약이 걸린 사안으로 국방부는 항소 예정.