본문으로 건너뛰기
피드

KISTI, AI 추론을 8개 조각으로 쪼개 평가하는 ‘트레이스’ 공개

ai-ml 약 4분
vote
0
댓글
북마크

KISTI 연구팀이 AI 추론 문장을 8개 논리 요소로 분해해 평가하는 기술 ‘트레이스’를 개발했고, 연구가 국제 머신러닝학회에 채택됐음. 10만 개 추론 문장으로 학습한 모델을 7개 언어모델과 2만 6천여 개 추론 사례에 적용한 결과, 실제 정답률과 꽤 강한 상관관계를 보였고 강화학습 보상으로 쓰면 추론 성능도 3~10%포인트 올랐다고 함.

  • 1

    트레이스는 AI 추론 문장을 주장, 근거, 논거, 반박 등 8개 요소로 분해해 논리 구조를 평가함

  • 2

    트레이스 점수와 실제 벤치마크 정답률 사이의 상관계수는 0.741로 보고됨

  • 3

    기존 검증가능보상 강화학습에 트레이스를 추가하자 언어모델 추론 성능이 3~10%포인트 개선됨

  • KISTI가 AI 추론 과정을 평가하는 새 기술 ‘트레이스’를 개발함

    • 연구는 국제 머신러닝학회에 채택됐고, 국내 연구팀이 AI 추론 평가 쪽에서 꽤 의미 있는 성과를 낸 케이스임
    • 핵심은 모델의 답만 보는 게 아니라, 답까지 가는 논리 흐름을 뜯어본다는 점임
  • 트레이스는 AI가 만든 추론 문장을 8개 요소로 분해함

    • 주장, 근거, 논거, 보강근거, 평가, 한정, 반박, 모니터링으로 나눠서 봄
    • 쉽게 말하면 “얘가 그럴듯하게 말했나?”가 아니라 “어떤 근거로 주장했고, 반박 가능성은 다뤘고, 자기모순은 없나?”를 체크하는 구조임
  • 연구팀은 10만 개 추론 문장으로 트레이스 모델을 학습시킴

    • 모델 기반은 DeBERTa임
    • 이후 7개 주요 언어모델과 2만 6천여 개 추론 사례를 분석함

중요

> 트레이스 점수와 실제 벤치마크 정답률의 상관계수는 0.741로 나왔음. 추론 품질을 재는 지표로 꽤 강한 신호라는 얘기임.

  • 더 흥미로운 건 평가에서 끝나지 않았다는 점임

    • 연구팀은 기존 검증가능보상 강화학습에 트레이스를 추가 적용함
    • 그 결과 언어모델 추론 성능이 3~10%포인트 더 올라갔다고 밝힘
    • 평가기가 단순 채점 도구가 아니라 학습 보상 신호로도 쓸 수 있다는 뜻이라 꽤 맛있는 포인트임
  • 기존 AI 평가는 블랙박스 문제와 정답지 의존성이 컸음

    • 답이 맞아도 중간 논리가 엉망일 수 있고, 답이 틀려도 어느 단계에서 틀렸는지 보기 어려웠음
    • 트레이스는 모델이 어느 단계에서 논리적으로 추론했고, 어디서 불확실성이나 자기모순이 생겼는지 설명할 수 있다고 함

기술 맥락

  • 이번 선택의 핵심은 추론 결과를 하나의 점수로 뭉개지 않고, 논증 구조로 쪼갠다는 데 있어요. 언어모델은 정답을 맞혀도 중간 과정이 그럴듯한 헛소리일 수 있거든요. 그래서 주장과 근거, 반박 같은 단위로 나누면 어디서 논리가 무너졌는지 더 잘 보여요.

  • 강화학습 보상으로 쓸 수 있다는 점도 중요해요. 정답 여부만 보상으로 주면 모델이 “맞히기”에는 강해져도 설명 품질이 안정적으로 좋아진다고 보기 어렵거든요. TRACE 같은 평가 신호를 넣으면 추론 과정 자체를 더 나은 방향으로 밀어줄 수 있어요.

  • 연구팀이 7개 언어모델과 2만 6천여 개 추론 사례를 본 것도 의미가 있어요. 단일 모델에서만 잘 맞는 평가 지표라면 실무 활용성이 약한데, 여러 모델을 대상으로 실제 정답률과 상관관계를 봤기 때문이에요.

  • 개발자 입장에서는 이 흐름이 평가 자동화와 모델 튜닝 쪽으로 이어질 가능성을 봐야 해요. 특히 사내 업무용 모델이나 에이전트를 만들 때, 최종 답만 채점하는 방식으로는 품질 관리가 부족할 수 있거든요.

정답만 맞혔는지 보는 평가에서 ‘왜 그렇게 생각했는지’까지 보려는 흐름이 더 강해지는 중임. 특히 보상 신호로 쓸 수 있다는 점이 꽤 큼. 추론형 모델 경쟁에서 평가기가 곧 훈련 재료가 되기 때문임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

네이버클라우드, 전장에 바로 쓰는 국방 AI 전략 공개

네이버클라우드가 국방 분야 AX 전략으로 소버린 AI 기반 전력화 모델을 공개했다. 핵심은 텍스트·이미지·음성·영상을 하나의 모델에서 학습하는 옴니모달 AI와, 개발 이후 실제 작전 현장 적용까지 이어지는 FDE 중심 운영 체계다.

ai-ml

NHN, 5년 만에 CTO 부활…AI 클라우드 투자 회수전 시작

NHN이 2021년 이후 비어 있던 그룹 CTO 자리를 다시 만들고 양철웅 신임 CTO를 선임했다. 클라우드·보안·AI 인프라 투자를 그룹 AX와 외부 클라우드 매출로 연결해야 하는 게 핵심 과제다. 특히 B200 GPU 7656장, 연구개발비 비중 6.77%, 1분기 현금성 자산 감소 같은 숫자가 이번 인사의 무게를 보여준다.

ai-ml

GMI 클라우드와 마그나 AI, 소버린 AI 팩토리 글로벌 확장 추진

GMI 클라우드와 마그나 AI가 글로벌 소버린 AI 팩토리 네트워크를 공동 설계·배포·확장하는 전략적 파트너십을 맺었다. 초기 프로젝트는 말레이시아, 벨기에, 루마니아에 집중하고, 중동과 아프리카 배포도 개발 중이다.

ai-ml

대구·울산·경북 5개 SW중심대, 구글 클라우드 AI 에이전트 챌린지 마무리

경북대, 대구대, 영남대, 울산대, 한동대가 공동으로 구글 클라우드 AI 에이전트 챌린지를 진행하고 본선과 시상식을 마쳤다. 학생들은 5주간 교육을 받고 산업 현장 문제를 해결하는 AI 에이전트 프로젝트를 기획·개발했다.

ai-ml

정부는 GPU 9,704장, 엔비디아는 국내 대기업과 AI 팩토리 판 키운다

과기정통부가 네이버클라우드, 삼성SDS, 엘리스그룹과 2조 800억 원 규모로 엔비디아 베라루빈 2,016장과 B300 7,688장을 확보한다. 동시에 엔비디아는 삼성, SK, 네이버, LG와 제조·로봇·데이터센터까지 묶는 AI 팩토리 연합을 만들고 있고, 아마존의 물 사용량 공개는 AI 인프라 경쟁이 전력과 냉각 효율 싸움으로 넘어갔다는 신호다.