---
title: "KISTI, AI 추론을 8개 조각으로 쪼개 평가하는 ‘트레이스’ 공개"
published: 2026-06-12T09:02:02.396Z
canonical: https://jeff.news/article/4053
---
# KISTI, AI 추론을 8개 조각으로 쪼개 평가하는 ‘트레이스’ 공개

KISTI 연구팀이 AI 추론 문장을 8개 논리 요소로 분해해 평가하는 기술 ‘트레이스’를 개발했고, 연구가 국제 머신러닝학회에 채택됐음. 10만 개 추론 문장으로 학습한 모델을 7개 언어모델과 2만 6천여 개 추론 사례에 적용한 결과, 실제 정답률과 꽤 강한 상관관계를 보였고 강화학습 보상으로 쓰면 추론 성능도 3~10%포인트 올랐다고 함.

- KISTI가 AI 추론 과정을 평가하는 새 기술 ‘트레이스’를 개발함
  - 연구는 국제 머신러닝학회에 채택됐고, 국내 연구팀이 AI 추론 평가 쪽에서 꽤 의미 있는 성과를 낸 케이스임
  - 핵심은 모델의 답만 보는 게 아니라, 답까지 가는 논리 흐름을 뜯어본다는 점임

- 트레이스는 AI가 만든 추론 문장을 8개 요소로 분해함
  - 주장, 근거, 논거, 보강근거, 평가, 한정, 반박, 모니터링으로 나눠서 봄
  - 쉽게 말하면 “얘가 그럴듯하게 말했나?”가 아니라 “어떤 근거로 주장했고, 반박 가능성은 다뤘고, 자기모순은 없나?”를 체크하는 구조임

- 연구팀은 10만 개 추론 문장으로 트레이스 모델을 학습시킴
  - 모델 기반은 DeBERTa임
  - 이후 7개 주요 언어모델과 2만 6천여 개 추론 사례를 분석함

> [!IMPORTANT]
> 트레이스 점수와 실제 벤치마크 정답률의 상관계수는 0.741로 나왔음. 추론 품질을 재는 지표로 꽤 강한 신호라는 얘기임.

- 더 흥미로운 건 평가에서 끝나지 않았다는 점임
  - 연구팀은 기존 검증가능보상 강화학습에 트레이스를 추가 적용함
  - 그 결과 언어모델 추론 성능이 3~10%포인트 더 올라갔다고 밝힘
  - 평가기가 단순 채점 도구가 아니라 학습 보상 신호로도 쓸 수 있다는 뜻이라 꽤 맛있는 포인트임

- 기존 AI 평가는 블랙박스 문제와 정답지 의존성이 컸음
  - 답이 맞아도 중간 논리가 엉망일 수 있고, 답이 틀려도 어느 단계에서 틀렸는지 보기 어려웠음
  - 트레이스는 모델이 어느 단계에서 논리적으로 추론했고, 어디서 불확실성이나 자기모순이 생겼는지 설명할 수 있다고 함

---

## 기술 맥락

- 이번 선택의 핵심은 추론 결과를 하나의 점수로 뭉개지 않고, 논증 구조로 쪼갠다는 데 있어요. 언어모델은 정답을 맞혀도 중간 과정이 그럴듯한 헛소리일 수 있거든요. 그래서 주장과 근거, 반박 같은 단위로 나누면 어디서 논리가 무너졌는지 더 잘 보여요.

- 강화학습 보상으로 쓸 수 있다는 점도 중요해요. 정답 여부만 보상으로 주면 모델이 “맞히기”에는 강해져도 설명 품질이 안정적으로 좋아진다고 보기 어렵거든요. TRACE 같은 평가 신호를 넣으면 추론 과정 자체를 더 나은 방향으로 밀어줄 수 있어요.

- 연구팀이 7개 언어모델과 2만 6천여 개 추론 사례를 본 것도 의미가 있어요. 단일 모델에서만 잘 맞는 평가 지표라면 실무 활용성이 약한데, 여러 모델을 대상으로 실제 정답률과 상관관계를 봤기 때문이에요.

- 개발자 입장에서는 이 흐름이 평가 자동화와 모델 튜닝 쪽으로 이어질 가능성을 봐야 해요. 특히 사내 업무용 모델이나 에이전트를 만들 때, 최종 답만 채점하는 방식으로는 품질 관리가 부족할 수 있거든요.

## 핵심 포인트

- 트레이스는 AI 추론 문장을 주장, 근거, 논거, 반박 등 8개 요소로 분해해 논리 구조를 평가함
- 트레이스 점수와 실제 벤치마크 정답률 사이의 상관계수는 0.741로 보고됨
- 기존 검증가능보상 강화학습에 트레이스를 추가하자 언어모델 추론 성능이 3~10%포인트 개선됨

## 인사이트

정답만 맞혔는지 보는 평가에서 ‘왜 그렇게 생각했는지’까지 보려는 흐름이 더 강해지는 중임. 특히 보상 신호로 쓸 수 있다는 점이 꽤 큼. 추론형 모델 경쟁에서 평가기가 곧 훈련 재료가 되기 때문임.
