---
title: "LLM은 언어를 어떻게 '느끼는가' — 인지의미론으로 본 LLM의 개념 인식"
published: 2026-03-27T21:18:05.000Z
canonical: https://jeff.news/article/1315
---
# LLM은 언어를 어떻게 '느끼는가' — 인지의미론으로 본 LLM의 개념 인식

인지의미론의 원형 의미론 관점에서 LLM과 인간의 개념 인식 차이를 분석한 글. LLM 임베딩은 카테고리 분류는 인간과 유사하지만 전형성 판단에서는 상관계수 0.15 이하로 크게 다르며, next-token prediction 훈련 목적이 근본 원인일 수 있음

## 인지의미론이란

- 인지의미론은 단어의 의미를 인간의 인지와 지각 방식을 통해 이해하는 언어학 접근법임
- 루빈의 꽃병 착시처럼, 동일한 이미지도 보는 사람에 따라 "꽃병" 또는 "마주보는 두 사람"으로 완전히 다르게 해석됨
- 언어에서도 마찬가지로, 동일한 텍스트가 독자의 인지에 따라 전혀 다른 의미를 가질 수 있음 — "For sale: baby shoes, never worn" 같은 6단어 소설이 대표적인 예시임

## 원형 의미론(Prototype Semantics)

- 인지의미론의 핵심 개념 중 하나가 원형 의미론임 — 어떤 범주 안에서 더 전형적인 사례(원형)와 덜 전형적인 사례가 존재한다는 이론
- 예를 들어 "새"라고 하면 참새나 울새가 전형적이고, 타조나 펭귄은 비전형적임
- "신이여, 다음 생에는 새로 태어나게 해주세요"라고 빌었는데 타조가 되면? 기술적으로는 새가 맞지만 의도한 바와는 완전히 다름

## LLM vs 인간: 개념의 전형성 인식이 다름

- Yann LeCun 등의 연구 "From Tokens to Thoughts" (ICLR 2026)에서 원형 의미론을 활용해 LLM과 인간의 개념 인식 차이를 분석함
- LLM 임베딩은 카테고리 분류 자체는 인간과 유사하게 수행함 — 새끼리, 가구끼리, 의류끼리 잘 묶임
- 그런데 **전형성(typicality) 판단에서는 크게 달랐음** — 인간의 전형적 새 순위는 1위 울새, 2위 참새, 3위 잉꼬 ... 9위 펠리컨, 10위 타조, 11위 펭귄
- LLM과 인간 간 전형성 순위 상관계수가 **0.15 이하**에 불과했음

## 왜 이런 차이가 생기는가

- 가능한 원인 하나: 비전형적인 새일수록 "펭귄은 사실 새다" 같은 문장이 훈련 데이터에 더 자주 등장해서, 오히려 "새" 임베딩에 가깝게 끌려감
- 논문의 가설: 근본 원인은 훈련 목적 함수에 있음. next-token prediction은 임베딩 표현의 정리를 목표로 하지 않음
- 표현 학습 전용 모델인 word2vec는 인간과의 상관계수가 0.3~0.4로 상대적으로 높았고, BERT 계열도 비교적 높은 상관을 보임
- 모델 크기를 키운다고 인간과 일치도가 올라가지 않았고, 오히려 **더 강한 모델이 인간에서 더 멀어지는** 경우도 있었음

## 이 차이가 일으키는 문제들

- **암묵적 뉘앙스 파악 실패**: "새로 만들어줘"라고 하면 타조를 만들어놓고 "타조도 새 맞잖아"라고 할 수 있음
- **역방향 예측 능력 부족**: GPT-4에게 제인 오스틴의 <오만과 편견>에서 다음 문장을 물으면 정답률 65.9%인데, 이전 문장을 물으면 **0.8%**에 불과함
- 인간도 알파벳을 거꾸로 말하는 건 어렵지만, 이건 극히 제한된 경우에만 해당됨. LLM은 next-token prediction으로만 훈련되기 때문에 **모든 상황에서** 이 비대칭이 발생함
- 이 문제를 해결하기 위해 contrastive learning을 도입하자는 제안도 나옴 (Wang+ ICLR 2026)

## 결론

- 인지의미론은 인지와 언어 사이의 다리 역할을 할 수 있으며, LLM이 언어를 "느끼는" 방식을 이해하거나 더 인간적으로 개선하는 데 활용될 가능성이 있음
- LLM과 인지의미론의 결합 연구는 이제 막 시작된 단계임

## 핵심 포인트

- LLM 임베딩의 전형성 순위와 인간 순위의 상관계수가 0.15 이하로 매우 낮음
- next-token prediction 목적 함수가 임베딩 표현 정리를 보장하지 않으며, word2vec(0.3~0.4)이나 BERT가 오히려 인간에 더 가까움
- GPT-4의 다음 문장 예측 정답률 65.9% vs 이전 문장 예측 0.8%로 극단적 비대칭 존재
- 모델 크기를 키워도 인간과의 일치도가 높아지지 않고 오히려 멀어지는 경우도 있음

## 인사이트

LLM이 더 커지고 똑똑해져도 인간의 직관과 자동으로 가까워지지 않는다는 점이 핵심. next-token prediction만으로는 한계가 있고, contrastive learning 같은 표현 학습 기법의 도입이 필요할 수 있음
