---
title: "글로벌 제약사 75%가 생성형 인공지능을 우선순위로 둔 지금, 진짜 병목은 데이터"
published: 2026-05-19T21:04:02.383Z
canonical: https://jeff.news/article/3034
---
# 글로벌 제약사 75%가 생성형 인공지능을 우선순위로 둔 지금, 진짜 병목은 데이터

바이오비아 웨비나에서 인공지능 신약개발의 핵심 병목으로 모델 성능보다 연구 데이터 품질과 연결성이 지목됐어. 글로벌 제약사의 75%가 생성형 인공지능을 전략 우선순위로 두고, 인공지능으로 설계된 의약품 173개 이상이 임상 단계에 들어갔지만, 현장 데이터가 엉망이면 결과도 엉망이라는 얘기야.

- 신약개발 인공지능 경쟁이 꽤 본격화됐는데, 업계가 다시 보는 건 모델보다 데이터임
  - 바이오비아 웨비나에서 나온 핵심 메시지는 “인공지능 모델 성능보다 연구 현장의 데이터 품질과 연결성이 먼저”라는 쪽이었음
  - 실험실별로 데이터가 흩어져 있고 기록 체계가 제각각이면, 아무리 좋은 모델을 붙여도 의미 있는 결과를 뽑기 어렵다는 얘기임

- 숫자로 보면 분위기는 이미 꽤 뜨거움
  - 발표 자료 기준으로 올해 글로벌 제약사의 75%가 생성형 인공지능을 전략적 우선순위로 두고 있음
  - 인공지능을 활용해 설계된 의약품도 173개 이상이 임상 개발 단계에 들어갔다고 함
  - 그러니까 “인공지능 신약개발이 올까?”가 아니라 “현장 데이터가 이 속도를 따라가나?”가 더 현실적인 질문이 된 셈임

> [!IMPORTANT]
> 이번 기사에서 제일 중요한 숫자는 75%와 173개임. 글로벌 제약사 대부분이 생성형 인공지능을 전략 과제로 올렸고, 인공지능 설계 의약품이 이미 임상 단계에 쌓이고 있다는 뜻이라서임.

- 그런데 현장에서는 여전히 GIGO 문제가 반복되고 있음
  - GIGO는 Garbage In, Garbage Out, 즉 쓰레기 데이터를 넣으면 쓰레기 결과가 나온다는 말임
  - 같은 화합물을 연구자마다 다른 이름으로 기록하는 명명법 불일치가 대표 사례로 나왔음
  - 실패한 실험 데이터가 충분히 남지 않거나, pH와 배양시간 같은 핵심 조건 메타데이터가 빠지는 경우도 많다고 함

- 특히 “실패 데이터”가 중요하다는 지적이 꽤 현실적임
  - 인공지능이 성공 사례만 보면 어떤 조건에서 결과가 틀어지는지 배우기 어렵기 때문임
  - 신약개발은 성공 케이스만큼 실패 케이스가 많은 분야라, 실패 기록을 안 남기면 모델 입장에서는 맥락이 통째로 사라지는 셈임
  - 개발자 관점으로 치면 장애 로그 없이 성공 응답만 보고 시스템을 튜닝하겠다는 얘기랑 비슷함

- 또 하나의 병목은 데이터 사일로임
  - 연구 데이터가 실험실, 조직, 프로젝트별로 분절돼 저장되면 필요한 데이터를 찾거나 재사용하기 어려워짐
  - 단순히 데이터를 많이 쌓는 게 아니라, 인공지능이 학습 가능한 고품질 데이터로 바꾸는 게 핵심이라고 강조됐음

- 그래서 제시된 원칙이 FAIR임
  - Findable은 쉽게 찾을 수 있어야 한다는 뜻이고, Accessible은 권한 안에서 접근 가능해야 한다는 뜻임
  - Interoperable은 서로 다른 시스템 사이에서 호환돼야 한다는 의미고, Reusable은 다시 쓸 수 있는 형태여야 한다는 의미임
  - 연구 프로젝트 일정, 산출물, 비용, 후보물질 시뮬레이션 데이터, 실험 기록, 샘플, 분석 결과가 연결돼야 인공지능도 데이터의 맥락을 이해할 수 있음

- 디지털전환과 인공지능전환의 순서도 질문으로 나왔음
  - 답은 “반드시 순차 진행은 아니다”에 가까웠음
  - 다만 현실적으로는 데이터 기반이 잘 잡힌 기업일수록 인공지능전환 성공 가능성이 높다는 설명이 붙었음
  - 최근에는 전자연구노트와 실험정보관리시스템을 구축하면서 동시에 인공지능 활용 가능성을 검증하는 사례도 늘고 있다고 함

---

## 기술 맥락

- 이 기사에서 말하는 핵심 선택은 “더 큰 모델을 먼저 붙이자”가 아니라 “연구 데이터를 인공지능이 읽을 수 있게 정리하자”예요. 신약개발은 실험 조건이 조금만 달라도 결과가 달라지기 때문에, pH나 배양시간 같은 메타데이터가 빠지면 모델이 배울 근거가 무너져요.

- 실패 데이터를 남겨야 하는 이유도 여기에 있어요. 성공 사례만 있으면 모델은 어떤 조건에서 후보물질이 안 되는지 구분하기 어렵거든요. 실제 연구에서는 실패가 훨씬 많기 때문에, 실패 기록이 빠진 데이터셋은 보기엔 깔끔해도 학습 가치가 낮을 수 있어요.

- FAIR 원칙은 단순한 문서 관리 규칙이 아니에요. 실험 기록, 샘플, 분석 결과, 시뮬레이션 데이터를 서로 연결해야 나중에 인공지능이 “이 결과가 왜 나왔는지”까지 추적할 수 있어요. 그래서 전자연구노트와 실험정보관리시스템 같은 기반 시스템이 인공지능 프로젝트의 선행 작업처럼 다뤄지는 거예요.

## 핵심 포인트

- 글로벌 제약사 75%가 생성형 인공지능을 전략 우선순위로 설정
- 인공지능 기반 설계 의약품 173개 이상이 임상 개발 단계 진입
- 실패 데이터, 실험 조건 메타데이터, 명명법 통일이 신약개발 인공지능의 핵심 과제로 부상
- FAIR 원칙과 전자연구노트, 실험정보관리시스템 기반 데이터 연결성이 중요해짐

## 인사이트

신약개발 인공지능 얘기에서 흔히 모델만 보는데, 실제 현장은 데이터 엔지니어링 싸움에 더 가까워지고 있어. 성공한 실험만 모은 예쁜 데이터셋으로는 왜 실패했는지 못 배우니, 연구 조직의 기록 문화가 곧 모델 성능이 되는 흐름이야.