LLM은 실제로 어떻게 돌아가나: 토큰부터 다음 토큰 예측까지
현대 대규모 언어 모델(LLM)의 핵심 구조인 Transformer를 토큰화, 임베딩, 위치 인코딩, 어텐션, 피드포워드 네트워크, 잔차 스트림, 다음 토큰 예측 순서로 풀어낸 글임. 수식보다 구조와 직관에 집중해서, 모델 카드나 논문에서 나오는 RoPE, GQA, MoE, KV cache 같은 용어가 어디에 붙는지 이해하게 해줌.
- 1
LLM은 텍스트를 직접 읽지 않고 토큰 ID를 벡터로 바꿔 처리함
- 2
Transformer의 핵심은 토큰들이 어텐션으로 서로 필요한 정보를 가져오고, 피드포워드 네트워크에서 개별 토큰 표현을 더 깊게 가공하는 구조임
- 3
RoPE, RMSNorm, SwiGLU, GQA, MoE 같은 최신 구성요소는 2017년 Transformer 위에 쌓인 실전 최적화임
- 4
모델이 문장을 만드는 과정은 결국 마지막 토큰의 벡터로 다음 토큰 확률을 만들고, 그걸 반복하는 루프임
LLM을 ‘마법 같은 챗봇’으로 보지 않고 실제 시스템 구성요소로 이해하려면 이런 글이 제일 효율적임. 특히 긴 컨텍스트 비용, KV cache 메모리, MoE의 추론비 절감 같은 내용은 모델을 고르거나 서비스에 붙일 때 바로 체감되는 지점임.
관련 기사
토지 개발 인허가, AI가 미리 판정한다…국토부가 107억 원 투입
국토교통부가 토지 개발 인허가 가능성을 AI로 사전 진단하는 서비스를 만든다. 200여 개 법률과 지자체 조례, 공간정보를 분석해 민원 준비와 인허가 처리 기간을 30% 이상 줄이는 게 목표다.
스페이스X가 구글에 GPU 11만 개를 빌려준다, AI 인프라가 IPO 스토리가 됨
스페이스X가 구글과 월 9억2000만 달러 규모의 AI 연산 인프라 임대 계약을 맺었다. 엔비디아 GPU 11만 개가 포함된 계약으로, IPO를 앞둔 스페이스X가 AI 인프라 자산 가치를 부각하려는 전략으로 해석된다.
네이버가 군 AI 시장에 들어가는 이유, 포털보다 ‘전장 운영체제’에 가까움
네이버클라우드가 김유원 대표 직속 국방 AX 전담 조직을 만들고, 하이퍼클로바X·클라우드·디지털 트윈·로봇 관제 기술을 군 AI 사업에 연결하려 한다. 유비파이 투자로 드론 군집 비행까지 확보하면서 네이버의 피지컬 AI 전략이 로봇에서 하늘로 확장되는 그림이다.
코어위브 vs 네비우스, AI 클라우드 주식은 이제 ‘GPU 몇 장’만 보면 안 됨
BNP 파리바는 AI 클라우드 업체 코어위브가 네비우스보다 상승 여력이 크다고 봤다. 핵심은 누가 더 멋진 스토리를 갖고 있느냐가 아니라, 장기 계약·GPU 수명·단위 경제성까지 감안했을 때 돈을 얼마나 남길 수 있느냐다.
팔란티어, 구글 클라우드 붙이고 상업용 AI 운영체제로 체질 바꾸는 중
팔란티어가 AIPCon 10에서 구글 클라우드와의 연동, 법률·건설·보험 분야 신규 파트너십을 공개했다. 정부 고객 중심 데이터 플랫폼 이미지에서 벗어나 규제가 강한 산업의 상업용 AI 운영 플랫폼으로 확장하려는 흐름이다. 투자 뉴스 성격이 섞여 있지만, 엔터프라이즈 AI가 실제 워크플로에 들어가는 방식이 드러나는 기사다.
댓글
댓글
댓글을 불러오는 중...