본문으로 건너뛰기
피드

20B 오픈소스 검색 에이전트 하네스-1, GPT-5.4급 검색 성능을 넘봤다

ai-ml 약 9분
vote
0
댓글
북마크

하네스-1은 검색 에이전트가 기억, 정리, 검증까지 혼자 떠안는 구조를 바꾸고, 상태 관리와 증거 정리를 외부 하네스에 맡긴 검색 전용 AI다. 200억 매개변수 오픈소스 모델 기반인데도 8개 벤치마크에서 강한 성능을 보였고, 일부 평가에서는 대형 상용 모델까지 앞섰다.

  • 1

    하네스-1은 gpt-oss-20b 기반 200억 매개변수 검색 전용 AI다

  • 2

    SFT 899개 경로와 강화학습 3453개 질의, 총 약 4400개 데이터만으로 학습됐다

  • 3

    큐레이션 리콜 평균 0.730을 기록했고 기존 최고 오픈소스 모델보다 11.4%포인트 높았다

  • 4

    학습에 쓰이지 않은 벤치마크에서 기존 오픈소스 모델 대비 17%포인트 성능 향상을 보였다

  • 5

    모델 가중치와 하네스 코드는 아파치 2.0 라이선스로 공개됐다

검색 에이전트가 너무 많은 일을 떠안고 있었다는 문제 제기

  • 하네스-1은 검색 AI가 ‘검색, 기억, 정리, 검증’을 혼자 다 하려는 구조를 바꾼 오픈소스 에이전트임

    • 미국 일리노이대 어바나-샴페인, UC 버클리, 크로마 연구진이 공개함
    • 기반 모델은 오픈소스 gpt-oss-20b이고, 규모는 200억 매개변수임
  • 연구진의 문제의식은 꽤 단순함

    • 기존 검색 에이전트는 어떤 문서를 봤는지, 어떤 정보가 중요했는지, 무엇을 검증했는지까지 모델이 전부 기억해야 함
    • 그러다 보니 모델의 컨텍스트와 추론 능력이 검색 자체가 아니라 관리 업무에 많이 소모됨
  • 하네스-1은 이 부담을 외부 시스템으로 빼냄

    • 모델은 무엇을 검색하고 무엇을 검증할지 판단하는 데 집중함
    • 하네스는 작업 기록, 후보 문서, 핵심 문서, 증거, 검증 내역을 관리함
    • 연구진은 이 접근을 상태 기반 인지 오프로딩이라고 설명함

중요

> 포인트는 모델을 무작정 키운 게 아니라, 모델이 일하는 환경을 바꿔서 검색 성능을 끌어올렸다는 점임.

하네스가 기억장치와 서류함 역할을 한다

  • 하네스는 검색 과정에서 수집한 정보를 구조적으로 정리함

    • 검색된 문서는 후보 문서 저장소에 보관됨
    • 중요도에 따라 핵심 문서 집합도 별도로 유지됨
    • 어떤 정보가 어떤 문서에서 나왔는지 연결하는 증거 정보와 검증 기록도 저장함
  • 중복되거나 불필요한 내용은 자동으로 압축하고 정리함

    • 검색 에이전트가 같은 내용을 반복해서 읽거나 헷갈리는 일을 줄이는 구조임
    • 긴 문서 검색에서 ‘봤던 문서 다시 보기’ 같은 낭비를 줄일 수 있음
  • 증거 그래프 기능도 들어감

    • 사람 이름, 날짜, 연도 같은 핵심 정보를 자동 추출함
    • 문서들 사이의 연관성을 시각적으로 보여주는 Evidence Graph를 제공함
    • 방대한 문서를 일일이 외우는 대신, 정리된 증거를 바탕으로 필요한 문서와 사실관계를 추적하게 만드는 방식임
  • 도구도 검색 전용으로 꽤 잘게 나뉘어 있음

    • fan_out_search, search_corpus, grep_corpus, read_document, review_docs, curate, verify, end_search 등 8개 도구를 씀
    • 문서 검색, 내용 읽기, 중요 정보 선별, 검증, 종료까지 단계적으로 처리하는 구조임

학습 데이터는 작게, 환경 설계는 똑똑하게

  • 학습 규모가 특히 눈에 띔

    • GPT-5.4를 교사 모델로 활용해 하네스 환경에서 생성한 899개 검색 경로로 감독 미세조정(SFT)을 수행함
    • 이후 미국 증권거래위원회 공시 문서 검색 과제를 중심으로 3453개 질의로 CISPO 강화학습을 진행함
    • 전체 학습 데이터는 약 4400개 수준임
  • 기존 오픈소스 검색 모델과 비교하면 데이터가 훨씬 적음

    • 컨텍스트-1은 1만7000건 이상의 학습 데이터를 사용함
    • 서치-R1은 22만 건이 넘는 데이터를 사용함
    • 하네스-1은 약 4400개 데이터만으로 더 높은 성능을 냈다고 함
  • 연구진이 말하고 싶은 건 ‘데이터 더 넣자’가 아님

    • 검색 에이전트가 일하는 환경과 정보 관리 구조를 바꾸면 데이터 효율이 크게 좋아질 수 있다는 주장임
    • 모델이 검색 전략을 외우는 게 아니라, 검색 과정을 더 잘 수행하도록 학습했다는 해석임

벤치마크 결과가 꽤 세다

  • 하네스-1은 8개 벤치마크에서 평가됨

    • 웹 검색, 금융 문서, 특허 데이터베이스, 멀티홉 질의응답 등이 포함됨
    • 핵심 지표인 큐레이션 리콜에서 평균 0.730을 기록함
  • 오픈소스 검색 에이전트 중 최고 성능이라고 연구진은 주장함

    • 기존 최고 수준 오픈소스 모델인 퉁이 딥리서치 30B보다 11.4%포인트 높았음
    • 일부 평가에서는 GPT-5.4, 클로드 소네트 4.6, 키미-K2.5 같은 대형 상용 모델도 앞섬
    • 평가 대상 중에서는 클로드 오퍼스 4.6만 근소하게 앞섰다고 함

중요

> 20B급 오픈소스 모델이 검색 환경 설계 덕분에 일부 상용 대형 모델을 이겼다는 점이 이 뉴스의 공유 포인트임.

  • 일반화 성능도 흥미로움
    • 강화학습은 SEC 공시 문서 검색 과제에만 적용됨
    • 그런데 학습에 쓰이지 않은 벤치마크에서 기존 오픈소스 모델 대비 17%포인트 향상이 나옴
    • 학습에 포함된 계열에서는 7.9%포인트 향상이었으니, 오히려 미학습 영역에서 개선 폭이 더 컸음

어디에 쓸 수 있나

  • 하네스-1은 질문에 직접 답하는 범용 챗봇이 아님

    • 답을 만들기보다, 답을 만드는 데 필요한 신뢰도 높은 문서와 증거를 선별하는 검색 전용 에이전트임
    • 후속 생성형 AI가 활용할 수 있는 근거 묶음을 만들어주는 역할에 가깝음
  • 대량 문서 검토 업무에 잘 맞는 구조임

    • 학술 논문 조사, 특허 조사, 기업 재무제표 분석, SEC 공시 분석에 쓸 수 있음
    • 다단계 팩트체크나 기업용 지식 검색 시스템에도 적용 가능성이 있음
  • RAG 시스템을 만드는 팀 입장에서는 꽤 실용적인 힌트가 있음

    • 답변 모델을 바꾸기 전에 검색 계층이 근거 문서를 제대로 선별하고 있는지 봐야 함
    • 검색 상태, 증거 기록, 검증 루프가 없으면 모델이 좋아도 답변 품질이 흔들릴 수 있음
  • 공개 조건도 좋음

    • 모델 가중치와 하네스 코드는 허깅페이스와 깃허브에 공개됨
    • 라이선스는 아파치 2.0이라 기업이 상업용 서비스나 사내 검색 시스템에 통합하기 좋음

기술 맥락

  • 하네스-1의 선택은 모델에게 모든 걸 맡기지 않는 거예요. 검색 에이전트가 문서를 찾고, 읽고, 기억하고, 검증까지 전부 하면 컨텍스트가 쉽게 지저분해지거든요. 그래서 상태 관리를 하네스로 빼고, 모델은 다음 행동을 고르는 쪽에 집중하게 만든 거예요.

  • 이 구조가 RAG에서 중요한 이유는 답변 품질이 생성 모델만으로 결정되지 않기 때문이에요. 근거 문서를 잘못 고르면 아무리 큰 모델도 그럴듯한 헛소리를 만들 수 있어요. 하네스-1은 답을 직접 만들기보다, 답을 만들 재료를 더 믿을 만하게 고르는 레이어에 가까워요.

  • Evidence Graph가 들어간 이유도 검증 때문이에요. 긴 문서 묶음에서는 이름, 날짜, 연도, 출처가 서로 엉키기 쉬워요. 그래프로 증거 관계를 잡아두면 모델이 어디서 나온 주장인지 추적하기 쉬워지고, 다단계 팩트체크에서도 근거를 잃어버릴 가능성이 줄어요.

  • 학습 데이터가 약 4400개뿐인데 성능이 나온 것도 이 맥락에서 봐야 해요. 연구진은 더 많은 예시를 때려 넣는 대신, 에이전트가 일하는 작업 환경을 바꿨어요. 그래서 검색 전략을 암기하기보다 상태를 보고 다음 행동을 고르는 습관을 학습한 셈이에요.

  • 사내 검색 시스템을 만든다면 이 접근은 꽤 현실적이에요. 모델을 더 큰 걸로 바꾸기 전에 후보 문서 저장소, 핵심 문서 큐레이션, 증거 기록, 검증 도구를 분리해보는 게 먼저일 수 있어요. 특히 금융, 특허, 법무, 기술 문서처럼 근거 추적이 중요한 영역에서는 이 차이가 크게 나요.

이건 ‘작은 모델도 잘하면 된다’ 수준의 얘기가 아니라, 에이전트 성능을 모델 크기보다 작업 환경 설계로 끌어올릴 수 있다는 사례다. 사내 검색이나 RAG를 만드는 팀이라면 모델 교체보다 상태 관리, 증거 관리, 검증 루프를 먼저 의심해볼 만하다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

AI 비용 폭탄, 답은 더 큰 클라우드가 아니라 ‘로컬 우선 추론’일 수 있다

기업 생성형 AI 시범사업의 95%가 측정 가능한 손익 효과를 내지 못했다는 MIT 분석을 바탕으로, 기사에서는 비용 문제의 핵심이 모델 성능보다 업무 흐름과 추론 비용에 있다고 짚는다. 대안으로는 쉬운 작업을 기기나 자체 서버에서 먼저 처리하고, 어려운 작업만 클라우드로 보내는 로컬 우선 추론 전략이 제시된다. 실제 사례에서는 문서 4,700건 처리 중 70~80%를 로컬에서 걸러 클라우드 호출 비용 75%, 처리 시간 55%를 줄였다.

ai-ml

구글-스페이스X 초대형 클라우드 계약이 애저 가격 상승 신호로 읽히는 이유

구글이 스페이스X에 클라우드 컴퓨팅 용량 비용으로 월 9억 2천만 달러를 받기로 한 계약이 AI 인프라 수요와 가격 강세의 신호로 해석되고 있다. BNP 파리바는 이런 흐름이 마이크로소프트 애저의 계약 갱신 가격에도 반영되면 애저 성장률이 40% 중반까지 올라갈 수 있다고 봤다. 코파일럿 피드백 개선도 언급됐지만, 기업 고객 확산은 점진적으로 나타날 가능성이 크다.

ai-ml

리얼월드·엔비디아, 휴머노이드 손 성능 재는 ‘덱스벤치’ 만든다

피지컬 AI 스타트업 리얼월드가 엔비디아와 함께 휴머노이드 로봇 손의 성능 벤치마크인 덱스벤치를 출범했다. 5지 손 조작을 5개 도메인과 18개 태스크로 나눠 측정하고, 엔비디아 아이작 랩 생태계와 통합하는 것이 핵심이다. 로봇 경쟁이 하드웨어와 모델 성능을 넘어 표준 경쟁으로 넘어가고 있다는 신호다.

ai-ml

엔비디아 생태계에 올라탄 한국 의료 AI, 소버린 AI와 스마트 병원을 노린다

젠슨 황 방한과 엔비디아 간담회를 계기로 국내 의료 AI 기업들이 글로벌 AI 생태계의 파트너로 부각됐다는 내용이다. 루닛은 의료 특화 파운데이션 모델, 메디컬아이피는 의료 디지털 트윈, 메디아나는 병원 데이터와 피지컬 AI를 연결한 스마트 병원 모델을 내세우고 있다.

ai-ml

AI 로봇이 습도까지 보고 나사 조인다, 제조업 일자리 변화가 이미 시작됐다

창원의 가전부품 제조업체 신성델타테크는 AI 로봇과 비전 AI를 도입해 과거 100명이 하던 일을 60명이 처리할 수 있게 됐다고 밝혔다. 제조 현장뿐 아니라 전문·과학·기술서비스업에서도 취업자 감소가 나타나며 AI 자동화가 지식노동까지 흔들고 있다. 전문가들은 산업별 직무 재설계와 숙련 전수 체계가 필요하다고 지적한다.