본문으로 건너뛰기
피드

글로벌 제약사 75%가 생성형 인공지능을 우선순위로 둔 지금, 진짜 병목은 데이터

ai-ml 약 5분
vote
0
댓글
북마크

바이오비아 웨비나에서 인공지능 신약개발의 핵심 병목으로 모델 성능보다 연구 데이터 품질과 연결성이 지목됐어. 글로벌 제약사의 75%가 생성형 인공지능을 전략 우선순위로 두고, 인공지능으로 설계된 의약품 173개 이상이 임상 단계에 들어갔지만, 현장 데이터가 엉망이면 결과도 엉망이라는 얘기야.

  • 1

    글로벌 제약사 75%가 생성형 인공지능을 전략 우선순위로 설정

  • 2

    인공지능 기반 설계 의약품 173개 이상이 임상 개발 단계 진입

  • 3

    실패 데이터, 실험 조건 메타데이터, 명명법 통일이 신약개발 인공지능의 핵심 과제로 부상

  • 4

    FAIR 원칙과 전자연구노트, 실험정보관리시스템 기반 데이터 연결성이 중요해짐

  • 신약개발 인공지능 경쟁이 꽤 본격화됐는데, 업계가 다시 보는 건 모델보다 데이터임

    • 바이오비아 웨비나에서 나온 핵심 메시지는 “인공지능 모델 성능보다 연구 현장의 데이터 품질과 연결성이 먼저”라는 쪽이었음
    • 실험실별로 데이터가 흩어져 있고 기록 체계가 제각각이면, 아무리 좋은 모델을 붙여도 의미 있는 결과를 뽑기 어렵다는 얘기임
  • 숫자로 보면 분위기는 이미 꽤 뜨거움

    • 발표 자료 기준으로 올해 글로벌 제약사의 75%가 생성형 인공지능을 전략적 우선순위로 두고 있음
    • 인공지능을 활용해 설계된 의약품도 173개 이상이 임상 개발 단계에 들어갔다고 함
    • 그러니까 “인공지능 신약개발이 올까?”가 아니라 “현장 데이터가 이 속도를 따라가나?”가 더 현실적인 질문이 된 셈임

중요

> 이번 기사에서 제일 중요한 숫자는 75%와 173개임. 글로벌 제약사 대부분이 생성형 인공지능을 전략 과제로 올렸고, 인공지능 설계 의약품이 이미 임상 단계에 쌓이고 있다는 뜻이라서임.

  • 그런데 현장에서는 여전히 GIGO 문제가 반복되고 있음

    • GIGO는 Garbage In, Garbage Out, 즉 쓰레기 데이터를 넣으면 쓰레기 결과가 나온다는 말임
    • 같은 화합물을 연구자마다 다른 이름으로 기록하는 명명법 불일치가 대표 사례로 나왔음
    • 실패한 실험 데이터가 충분히 남지 않거나, pH와 배양시간 같은 핵심 조건 메타데이터가 빠지는 경우도 많다고 함
  • 특히 “실패 데이터”가 중요하다는 지적이 꽤 현실적임

    • 인공지능이 성공 사례만 보면 어떤 조건에서 결과가 틀어지는지 배우기 어렵기 때문임
    • 신약개발은 성공 케이스만큼 실패 케이스가 많은 분야라, 실패 기록을 안 남기면 모델 입장에서는 맥락이 통째로 사라지는 셈임
    • 개발자 관점으로 치면 장애 로그 없이 성공 응답만 보고 시스템을 튜닝하겠다는 얘기랑 비슷함
  • 또 하나의 병목은 데이터 사일로임

    • 연구 데이터가 실험실, 조직, 프로젝트별로 분절돼 저장되면 필요한 데이터를 찾거나 재사용하기 어려워짐
    • 단순히 데이터를 많이 쌓는 게 아니라, 인공지능이 학습 가능한 고품질 데이터로 바꾸는 게 핵심이라고 강조됐음
  • 그래서 제시된 원칙이 FAIR임

    • Findable은 쉽게 찾을 수 있어야 한다는 뜻이고, Accessible은 권한 안에서 접근 가능해야 한다는 뜻임
    • Interoperable은 서로 다른 시스템 사이에서 호환돼야 한다는 의미고, Reusable은 다시 쓸 수 있는 형태여야 한다는 의미임
    • 연구 프로젝트 일정, 산출물, 비용, 후보물질 시뮬레이션 데이터, 실험 기록, 샘플, 분석 결과가 연결돼야 인공지능도 데이터의 맥락을 이해할 수 있음
  • 디지털전환과 인공지능전환의 순서도 질문으로 나왔음

    • 답은 “반드시 순차 진행은 아니다”에 가까웠음
    • 다만 현실적으로는 데이터 기반이 잘 잡힌 기업일수록 인공지능전환 성공 가능성이 높다는 설명이 붙었음
    • 최근에는 전자연구노트와 실험정보관리시스템을 구축하면서 동시에 인공지능 활용 가능성을 검증하는 사례도 늘고 있다고 함

기술 맥락

  • 이 기사에서 말하는 핵심 선택은 “더 큰 모델을 먼저 붙이자”가 아니라 “연구 데이터를 인공지능이 읽을 수 있게 정리하자”예요. 신약개발은 실험 조건이 조금만 달라도 결과가 달라지기 때문에, pH나 배양시간 같은 메타데이터가 빠지면 모델이 배울 근거가 무너져요.

  • 실패 데이터를 남겨야 하는 이유도 여기에 있어요. 성공 사례만 있으면 모델은 어떤 조건에서 후보물질이 안 되는지 구분하기 어렵거든요. 실제 연구에서는 실패가 훨씬 많기 때문에, 실패 기록이 빠진 데이터셋은 보기엔 깔끔해도 학습 가치가 낮을 수 있어요.

  • FAIR 원칙은 단순한 문서 관리 규칙이 아니에요. 실험 기록, 샘플, 분석 결과, 시뮬레이션 데이터를 서로 연결해야 나중에 인공지능이 “이 결과가 왜 나왔는지”까지 추적할 수 있어요. 그래서 전자연구노트와 실험정보관리시스템 같은 기반 시스템이 인공지능 프로젝트의 선행 작업처럼 다뤄지는 거예요.

신약개발 인공지능 얘기에서 흔히 모델만 보는데, 실제 현장은 데이터 엔지니어링 싸움에 더 가까워지고 있어. 성공한 실험만 모은 예쁜 데이터셋으로는 왜 실패했는지 못 배우니, 연구 조직의 기록 문화가 곧 모델 성능이 되는 흐름이야.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.