KISTI, AI 추론을 8개 조각으로 쪼개 평가하는 ‘트레이스’ 공개

ai-ml 2026-06-12 약 4분

 tags

#llm #reasoning #evaluation #rlvr #deberta

vote

북마크

KISTI 연구팀이 AI 추론 문장을 8개 논리 요소로 분해해 평가하는 기술 ‘트레이스’를 개발했고, 연구가 국제 머신러닝학회에 채택됐음. 10만 개 추론 문장으로 학습한 모델을 7개 언어모델과 2만 6천여 개 추론 사례에 적용한 결과, 실제 정답률과 꽤 강한 상관관계를 보였고 강화학습 보상으로 쓰면 추론 성능도 3~10%포인트 올랐다고 함.

1
트레이스는 AI 추론 문장을 주장, 근거, 논거, 반박 등 8개 요소로 분해해 논리 구조를 평가함
2
트레이스 점수와 실제 벤치마크 정답률 사이의 상관계수는 0.741로 보고됨
3
기존 검증가능보상 강화학습에 트레이스를 추가하자 언어모델 추론 성능이 3~10%포인트 개선됨

KISTI가 AI 추론 과정을 평가하는 새 기술 ‘트레이스’를 개발함
- 연구는 국제 머신러닝학회에 채택됐고, 국내 연구팀이 AI 추론 평가 쪽에서 꽤 의미 있는 성과를 낸 케이스임
- 핵심은 모델의 답만 보는 게 아니라, 답까지 가는 논리 흐름을 뜯어본다는 점임
트레이스는 AI가 만든 추론 문장을 8개 요소로 분해함
- 주장, 근거, 논거, 보강근거, 평가, 한정, 반박, 모니터링으로 나눠서 봄
- 쉽게 말하면 “얘가 그럴듯하게 말했나?”가 아니라 “어떤 근거로 주장했고, 반박 가능성은 다뤘고, 자기모순은 없나?”를 체크하는 구조임
연구팀은 10만 개 추론 문장으로 트레이스 모델을 학습시킴
- 모델 기반은 DeBERTa임
- 이후 7개 주요 언어모델과 2만 6천여 개 추론 사례를 분석함

❗중요

> 트레이스 점수와 실제 벤치마크 정답률의 상관계수는 0.741로 나왔음. 추론 품질을 재는 지표로 꽤 강한 신호라는 얘기임.

더 흥미로운 건 평가에서 끝나지 않았다는 점임
- 연구팀은 기존 검증가능보상 강화학습에 트레이스를 추가 적용함
- 그 결과 언어모델 추론 성능이 3~10%포인트 더 올라갔다고 밝힘
- 평가기가 단순 채점 도구가 아니라 학습 보상 신호로도 쓸 수 있다는 뜻이라 꽤 맛있는 포인트임
기존 AI 평가는 블랙박스 문제와 정답지 의존성이 컸음
- 답이 맞아도 중간 논리가 엉망일 수 있고, 답이 틀려도 어느 단계에서 틀렸는지 보기 어려웠음
- 트레이스는 모델이 어느 단계에서 논리적으로 추론했고, 어디서 불확실성이나 자기모순이 생겼는지 설명할 수 있다고 함

기술 맥락

이번 선택의 핵심은 추론 결과를 하나의 점수로 뭉개지 않고, 논증 구조로 쪼갠다는 데 있어요. 언어모델은 정답을 맞혀도 중간 과정이 그럴듯한 헛소리일 수 있거든요. 그래서 주장과 근거, 반박 같은 단위로 나누면 어디서 논리가 무너졌는지 더 잘 보여요.
강화학습 보상으로 쓸 수 있다는 점도 중요해요. 정답 여부만 보상으로 주면 모델이 “맞히기”에는 강해져도 설명 품질이 안정적으로 좋아진다고 보기 어렵거든요. TRACE 같은 평가 신호를 넣으면 추론 과정 자체를 더 나은 방향으로 밀어줄 수 있어요.
연구팀이 7개 언어모델과 2만 6천여 개 추론 사례를 본 것도 의미가 있어요. 단일 모델에서만 잘 맞는 평가 지표라면 실무 활용성이 약한데, 여러 모델을 대상으로 실제 정답률과 상관관계를 봤기 때문이에요.
개발자 입장에서는 이 흐름이 평가 자동화와 모델 튜닝 쪽으로 이어질 가능성을 봐야 해요. 특히 사내 업무용 모델이나 에이전트를 만들 때, 최종 답만 채점하는 방식으로는 품질 관리가 부족할 수 있거든요.

정답만 맞혔는지 보는 평가에서 ‘왜 그렇게 생각했는지’까지 보려는 흐름이 더 강해지는 중임. 특히 보상 신호로 쓸 수 있다는 점이 꽤 큼. 추론형 모델 경쟁에서 평가기가 곧 훈련 재료가 되기 때문임.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-23

알파벳, 클라우드 82% 성장했지만 AI 인프라 투자로 현금흐름 첫 적자

알파벳이 2분기 매출 1198억 달러를 기록하며 시장 전망을 넘겼고, 클라우드 매출은 82% 급증한 248억 달러까지 뛰었다. 하지만 AI 인프라에 분기 449억 달러를 투입하면서 잉여현금흐름은 2004년 상장 이후 처음으로 분기 적자를 냈다.

ai-ml 2026-07-23

알파벳 클라우드 매출 82% 폭증했는데, 클라우드 ETF는 왜 빠졌나

알파벳의 2분기 클라우드 매출이 전년 대비 82% 늘며 월가 예상치를 크게 넘었지만, 클라우드 관련 ETF는 오히려 하락했다. 시장은 이제 클라우드 매출 성장률만 보는 게 아니라, 그 매출을 만들기 위해 데이터센터와 칩에 얼마나 많은 자본지출이 들어갔는지를 따지고 있다.

ai-ml 2026-07-23

젠슨 황 “중국산 오픈소스 AI, 좋으면 써야 한다”

젠슨 황 엔비디아 CEO가 미국 정부의 중국산 오픈소스 AI 모델 규제 움직임에 반대했다. 딥시크, 알리바바, 문샷 AI 같은 중국 모델이 백도어라는 우려는 오해에 가깝고, 좋은 오픈소스 모델은 기업들이 활용할 수 있어야 한다는 주장이다.

ai-ml 2026-07-23

업스테이지 ‘솔라 오픈 2’ 공개, 한국어·에이전트 성능으로 독파모 2라운드 승부

업스테이지가 오픈웨이트 LLM ‘솔라 오픈 2’를 공개했다. 2500억 매개변수 중 150억 개만 활성화하는 MoE 구조, 100만 토큰 컨텍스트, H200 2장 구동 가능성을 앞세워 한국어·에이전트·기업 도입성을 동시에 노린 모델이다.

ai-ml 2026-07-23

아이벡스, 오픈소스 로봇·비전으로 볼트 검사 투입 자동화한다

아이벡스가 정보통신산업진흥원의 오픈소스 사업화 과제에 선정돼 케이피에프의 자분탐상 검사라인 자동화에 들어간다. 벌크 상태로 쏟아지는 볼트류를 AI 비전으로 인식하고, 6D 자세 추정과 로봇 제어로 집어서 검사장비에 넣는 흐름까지 구현하는 게 핵심이다.

KISTI, AI 추론을 8개 조각으로 쪼개 평가하는 ‘트레이스’ 공개

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

KISTI, AI 추론을 8개 조각으로 쪼개 평가하는 ‘트레이스’ 공개

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사