---
title: "AI가 많이 말하는 사람의 세계관을 ‘진실’로 굳힐 수 있다는 경고"
published: 2026-05-31T20:50:01.804Z
canonical: https://jeff.news/article/3527
---
# AI가 많이 말하는 사람의 세계관을 ‘진실’로 굳힐 수 있다는 경고

아세모글루 연구팀의 논문을 바탕으로, AI가 인터넷의 지식을 모으고 다시 인터넷에 퍼뜨리는 과정에서 사회적 편향이 강화될 수 있다는 내용을 다룬 기사다. 빠른 업데이트, 데이터 불균형, 단일 거대 AI의 구조적 한계를 짚고 전문화된 로컬 AI가 더 나은 대안이 될 수 있다고 설명한다.

## AI는 세상을 비추는 거울이 아니라, 세상이 뭘 믿을지 다시 만드는 장치일 수 있음

- 요즘 정보 탐색의 출발점이 검색창에서 AI로 옮겨가고 있음
  - 뉴스 맥락, 의료 정보, 법률 상식, 투자 판단까지 사람들이 챗GPT 같은 AI에게 먼저 물어봄
  - 한국지능정보사회진흥원(NIA)은 2025년 보고서에서 AI가 특정 정치 성향이나 세계관을 반복 강화하는 에코챔버 현상을 사회적 갈등 요인으로 봤음
  - 기사에서 다루는 핵심 질문은 “왜 AI가 이런 식으로 사회의 지식을 왜곡할 수 있나”임

- 아세모글루 연구팀은 이 문제를 수학 모델로 다뤘음
  - 2026년 4월 미국 국립경제연구소(NBER)에 발표된 논문 제목은 “How AI Aggregation Affects Knowledge”임
  - 연구팀에는 2024년 노벨 경제학상 수상자인 MIT 다론 아세모글루 교수가 포함됐음
  - 메시지는 꽤 불편함. AI가 지식을 잘 모으는 시스템처럼 보이지만, 그 집합 방식 자체가 사회적 진실을 왜곡할 수 있다는 것임

## AI가 뱉은 말이 다시 AI의 밥이 된다

- 현재 AI는 대체로 두 단계를 거침
  - 먼저 사람들이 인터넷에 올린 글, 댓글, 기사, 리뷰를 학습함
  - 그다음 그 지식을 바탕으로 사람들의 질문에 답함
  - 여기까지만 보면 거대한 정보 종합 시스템처럼 보임

- 문제는 AI의 답변이 다시 인터넷으로 돌아간다는 점임
  - 사람들은 AI 답변을 인용하고, 블로그에 붙이고, SNS에 퍼뜨림
  - 이 콘텐츠는 다시 다음 세대 AI의 학습 데이터가 됨
  - 연구팀은 이런 순환을 피드백 루프라고 부름

- 이 순환이 반복되면 인간 의견의 다양성이 줄어들 수 있음
  - 처음에는 AI가 사람들의 다양한 목소리를 배운 것처럼 보여도, 시간이 지날수록 AI가 한 번 강조한 관점이 더 많이 재생산됨
  - 에든버러대 슈마일로프 교수팀이 2023년에 말한 모델 붕괴(model collapse)와 맞닿아 있음
  - 쉽게 말해 AI가 만든 콘텐츠가 많아질수록, 모델은 점점 사람의 세계가 아니라 이전 모델의 세계를 배우게 될 수 있음

> [!IMPORTANT]
> “AI가 최신 데이터를 빨리 배우면 더 좋아진다”는 직관이 항상 맞지 않을 수 있음. 데이터 자체가 이미 편향돼 있다면 빠른 업데이트는 개선이 아니라 왜곡 가속기가 됨.

## 빨리 배우는 AI가 오히려 더 위험할 수 있음

- 연구팀의 흥미로운 결론은 업데이트 속도에 관한 것임
  - 최신 인터넷 여론을 빠르게 반영하는 AI가 더 좋은 AI처럼 보이지만, 여론이 이미 편향돼 있다면 이야기가 달라짐
  - AI는 그 편향을 빠르게 흡수하고, 답변으로 다시 배포함
  - 그 답변은 다시 인터넷에 쌓이고 다음 학습에 들어감

- 속도가 임계값을 넘으면 되돌리기 어려워질 수 있음
  - 연구팀은 이 피드백 속도가 일정 임계값을 넘으면 학습 데이터 비율을 조정해도 지식 왜곡을 회복하기 어렵다고 분석함
  - 빅테크가 “더 빠른 업데이트”를 경쟁력으로 내세우는 흐름이 정보 생태계 관점에서는 위험할 수 있다는 뜻임
  - 최신성 자체가 품질 보증이 아니라는 얘기라 꽤 뼈아픔

## 많이 말하는 사람의 관점이 AI 안에서 ‘진실’처럼 굳어진다

- AI는 모든 목소리를 똑같이 반영하지 않음
  - 인터넷에 콘텐츠를 많이 올리는 집단의 데이터가 더 많이 들어감
  - 교육 수준이 높거나, 특정 언어를 쓰거나, 온라인 활동이 활발한 집단의 관점이 AI 안에서 더 큰 비중을 차지함
  - 이건 단순 대표성 문제가 아니라 자기강화 문제로 이어짐

- 다수 관점은 AI를 통해 더 강해질 수 있음
  - AI가 다수 집단 관점을 더 무겁게 처리하면, 그 답변이 모든 사용자에게 돌아감
  - 소수 집단은 자기 관점보다 다수 관점이 정답처럼 보이는 AI 답변에 더 자주 노출됨
  - 집단 간 교류가 적고 데이터 불균형이 클수록 이 효과는 더 강해짐

- 한국 맥락으로 보면 꽤 현실적인 걱정임
  - 수도권 중심, 특정 세대 중심, 주류 언론 중심의 관점이 AI 안에서 반복적으로 사실처럼 굳어질 수 있음
  - 지역 언론, 고령층, 농어촌 주민, 비주류 직종, 소수 언어 사용자의 경험은 AI가 말하는 ‘일반 상식’에서 밀릴 수 있음
  - 글로벌 AI를 그대로 가져다 쓰면 영어권·미국 중심 데이터의 세계관도 같이 들어옴

## 소수 데이터를 더 넣는다고 항상 해결되진 않음

- 소수 집단 데이터에 가중치를 주는 방식은 조건부로만 효과가 있음
  - 집단 간 교류가 중간 정도라면 소수 집단 데이터 비중을 높이는 보정이 다수 쏠림을 줄일 수 있음
  - 그런데 사회적 분리가 너무 심하면 역효과가 날 수 있음
  - 교류가 거의 없는 상태에서 특정 소수 관점을 강하게 넣으면, AI가 그 관점을 과도하게 증폭할 수 있음

- 공정성 보정도 사회 구조를 알아야 함
  - 단순히 “부족한 데이터를 더 넣자”는 처방만으로는 안 됨
  - 어떤 집단이 어떤 방식으로 연결돼 있고, 데이터가 어떻게 다시 순환하는지를 같이 봐야 함
  - 좋은 의도가 좋은 결과를 자동으로 보장하지 않는다는 게 이 논문의 불편한 지점임

## 대안은 하나의 거대 AI보다 전문화된 여러 AI

- 연구팀은 하나의 전지전능한 AI보다 분야별 AI가 낫다고 봄
  - 의료 AI는 의사와 환자 데이터 중심으로, 지역 문화 AI는 해당 지역 커뮤니티 데이터 중심으로 학습하는 식임
  - 이렇게 하면 한 영역의 피드백 왜곡이 다른 영역으로 번지는 걸 줄일 수 있음
  - 연구팀은 이런 전문화 구조가 어떤 조건에서도 AI 없는 상태보다 지식 품질을 안정적으로 높인다고 분석함

- 반대로 하나의 거대 AI는 구조적 딜레마가 있음
  - 의료를 잘 반영하려고 하면 지역 문화가 희생될 수 있음
  - 지역 문화를 잘 반영하려고 하면 의료 지식의 품질이 흔들릴 수 있음
  - “크고 빠른 AI 하나”가 실리콘밸리식 경쟁 공식이라면, 사회적 지식 관점에서는 “작고 전문적인 AI 여럿”이 더 건강할 수 있다는 얘기임

> [!NOTE]
> 이 논문이 말하는 로컬 AI는 단순한 지역 홍보용 챗봇이 아님. 어떤 데이터와 피드백을 한 모델 안에 섞을지 정하는 지식 인프라 설계 문제에 가까움.

## 한국 AI 정책에도 꽤 직접적인 질문을 던짐

- 2026년 한국은 AI 기본법 시행 이후의 설계를 고민해야 하는 시점임
  - 지금까지 규제 논의는 개인정보, 저작권, 허위정보 차단 같은 결과물 관리에 많이 쏠렸음
  - 그런데 이 연구는 AI가 어떤 데이터를, 얼마나 빠르게, 얼마나 넓게 모으는지 자체가 사회의 지식 편향을 결정한다고 봄
  - 즉 출력 필터링만으로는 부족하고 학습·업데이트·피드백 구조까지 봐야 함

- 디지털 포용 정책과도 연결됨
  - 의료 AI는 지역 의료 데이터를, 농업 AI는 농촌 현장 데이터를, 복지 AI는 수혜자 경험 데이터를 중심으로 설계하는 방식이 필요할 수 있음
  - 이건 단순히 다양성을 배려하는 차원이 아니라 지식 품질을 높이는 기술적 선택이기도 함
  - 빠른 업데이트가 항상 좋은 AI라는 등식이 깨진다면, 학습 주기와 피드백 설계 기준도 논의해야 함

- 결론은 꽤 선명함
  - AI는 중립적인 거울이 아니라 누가 많이 말했는지, 누구의 말이 빠르게 순환했는지에 따라 공식 진실을 만드는 권력 구조가 될 수 있음
  - 그래서 AI 거버넌스는 모델 성능, 개인정보, 저작권만 볼 게 아니라 지식이 어떻게 모이고 다시 퍼지는지까지 다뤄야 함
  - 개발자 입장에서도 데이터 파이프라인과 업데이트 정책이 곧 사회적 설계라는 감각이 필요해짐

---

## 기술 맥락

- 이 기사에서 중요한 기술적 선택은 AI를 하나의 범용 모델로 크게 키울지, 분야별로 전문화된 모델을 운영할지예요. 범용 모델은 편리하지만 서로 다른 도메인의 피드백이 한 모델 안에서 섞이기 때문에 특정 영역의 편향이 다른 영역으로 번질 수 있어요.

- 업데이트 속도도 단순한 운영 파라미터가 아니에요. 최신 데이터를 빨리 반영하면 신선해 보이지만, 그 데이터가 이미 AI 생성물과 편향된 여론으로 오염돼 있다면 왜곡이 더 빨리 고착될 수 있거든요. 그래서 학습 주기와 데이터 검증은 제품 품질뿐 아니라 지식 생태계의 안정성 문제예요.

- RAG나 파인튜닝을 설계할 때도 같은 고민이 필요해요. 데이터를 더 많이 넣는 것보다 어떤 집단의 데이터가 과대표집됐는지, AI 출력이 다시 데이터 저장소로 들어오는지, 인간 원본과 모델 생성물을 구분할 수 있는지가 더 중요해질 수 있어요.

- 로컬 AI가 의미 있는 이유는 맥락을 좁혀 피드백 루프를 관리하기 쉬워지기 때문이에요. 의료, 농업, 복지처럼 데이터의 출처와 책임 주체가 비교적 분명한 영역에서는 전문화된 모델이 범용 모델보다 더 안정적인 지식 품질을 만들 가능성이 있어요.

## 핵심 포인트

- AI 답변이 다시 인터넷에 퍼지고 다음 AI 학습 데이터가 되는 피드백 루프가 지식 왜곡을 키울 수 있다
- 최신 정보를 빨리 반영하는 AI가 오히려 편향을 더 빠르게 증폭할 수 있다는 수학적 분석이 제시됐다
- 콘텐츠를 많이 생산하는 집단의 관점이 AI 안에서 더 큰 비중을 차지하고 자기강화될 수 있다
- 하나의 거대 AI보다 분야별로 전문화된 여러 AI가 지식 품질을 더 안정적으로 높일 수 있다는 대안이 제시됐다

## 인사이트

한국 개발자에게도 꽤 직접적인 주제다. RAG든 파인튜닝이든 ‘데이터를 더 넣으면 좋아진다’는 단순한 감각에서 벗어나, 어떤 데이터가 어떤 속도로 다시 모델 생태계에 들어오는지까지 설계 문제로 봐야 한다.