글로벌 제약사 75%가 생성형 인공지능을 우선순위로 둔 지금, 진짜 병목은 데이터

ai-ml 2026-05-19 약 5분

 tags

#drug-discovery #data-management #fair #eln #lims

vote

북마크

바이오비아 웨비나에서 인공지능 신약개발의 핵심 병목으로 모델 성능보다 연구 데이터 품질과 연결성이 지목됐어. 글로벌 제약사의 75%가 생성형 인공지능을 전략 우선순위로 두고, 인공지능으로 설계된 의약품 173개 이상이 임상 단계에 들어갔지만, 현장 데이터가 엉망이면 결과도 엉망이라는 얘기야.

1
글로벌 제약사 75%가 생성형 인공지능을 전략 우선순위로 설정
2
인공지능 기반 설계 의약품 173개 이상이 임상 개발 단계 진입
3
실패 데이터, 실험 조건 메타데이터, 명명법 통일이 신약개발 인공지능의 핵심 과제로 부상
4
FAIR 원칙과 전자연구노트, 실험정보관리시스템 기반 데이터 연결성이 중요해짐

신약개발 인공지능 경쟁이 꽤 본격화됐는데, 업계가 다시 보는 건 모델보다 데이터임
- 바이오비아 웨비나에서 나온 핵심 메시지는 “인공지능 모델 성능보다 연구 현장의 데이터 품질과 연결성이 먼저”라는 쪽이었음
- 실험실별로 데이터가 흩어져 있고 기록 체계가 제각각이면, 아무리 좋은 모델을 붙여도 의미 있는 결과를 뽑기 어렵다는 얘기임
숫자로 보면 분위기는 이미 꽤 뜨거움
- 발표 자료 기준으로 올해 글로벌 제약사의 75%가 생성형 인공지능을 전략적 우선순위로 두고 있음
- 인공지능을 활용해 설계된 의약품도 173개 이상이 임상 개발 단계에 들어갔다고 함
- 그러니까 “인공지능 신약개발이 올까?”가 아니라 “현장 데이터가 이 속도를 따라가나?”가 더 현실적인 질문이 된 셈임

❗중요

> 이번 기사에서 제일 중요한 숫자는 75%와 173개임. 글로벌 제약사 대부분이 생성형 인공지능을 전략 과제로 올렸고, 인공지능 설계 의약품이 이미 임상 단계에 쌓이고 있다는 뜻이라서임.

그런데 현장에서는 여전히 GIGO 문제가 반복되고 있음
- GIGO는 Garbage In, Garbage Out, 즉 쓰레기 데이터를 넣으면 쓰레기 결과가 나온다는 말임
- 같은 화합물을 연구자마다 다른 이름으로 기록하는 명명법 불일치가 대표 사례로 나왔음
- 실패한 실험 데이터가 충분히 남지 않거나, pH와 배양시간 같은 핵심 조건 메타데이터가 빠지는 경우도 많다고 함
특히 “실패 데이터”가 중요하다는 지적이 꽤 현실적임
- 인공지능이 성공 사례만 보면 어떤 조건에서 결과가 틀어지는지 배우기 어렵기 때문임
- 신약개발은 성공 케이스만큼 실패 케이스가 많은 분야라, 실패 기록을 안 남기면 모델 입장에서는 맥락이 통째로 사라지는 셈임
- 개발자 관점으로 치면 장애 로그 없이 성공 응답만 보고 시스템을 튜닝하겠다는 얘기랑 비슷함
또 하나의 병목은 데이터 사일로임
- 연구 데이터가 실험실, 조직, 프로젝트별로 분절돼 저장되면 필요한 데이터를 찾거나 재사용하기 어려워짐
- 단순히 데이터를 많이 쌓는 게 아니라, 인공지능이 학습 가능한 고품질 데이터로 바꾸는 게 핵심이라고 강조됐음
그래서 제시된 원칙이 FAIR임
- Findable은 쉽게 찾을 수 있어야 한다는 뜻이고, Accessible은 권한 안에서 접근 가능해야 한다는 뜻임
- Interoperable은 서로 다른 시스템 사이에서 호환돼야 한다는 의미고, Reusable은 다시 쓸 수 있는 형태여야 한다는 의미임
- 연구 프로젝트 일정, 산출물, 비용, 후보물질 시뮬레이션 데이터, 실험 기록, 샘플, 분석 결과가 연결돼야 인공지능도 데이터의 맥락을 이해할 수 있음
디지털전환과 인공지능전환의 순서도 질문으로 나왔음
- 답은 “반드시 순차 진행은 아니다”에 가까웠음
- 다만 현실적으로는 데이터 기반이 잘 잡힌 기업일수록 인공지능전환 성공 가능성이 높다는 설명이 붙었음
- 최근에는 전자연구노트와 실험정보관리시스템을 구축하면서 동시에 인공지능 활용 가능성을 검증하는 사례도 늘고 있다고 함

기술 맥락

이 기사에서 말하는 핵심 선택은 “더 큰 모델을 먼저 붙이자”가 아니라 “연구 데이터를 인공지능이 읽을 수 있게 정리하자”예요. 신약개발은 실험 조건이 조금만 달라도 결과가 달라지기 때문에, pH나 배양시간 같은 메타데이터가 빠지면 모델이 배울 근거가 무너져요.
실패 데이터를 남겨야 하는 이유도 여기에 있어요. 성공 사례만 있으면 모델은 어떤 조건에서 후보물질이 안 되는지 구분하기 어렵거든요. 실제 연구에서는 실패가 훨씬 많기 때문에, 실패 기록이 빠진 데이터셋은 보기엔 깔끔해도 학습 가치가 낮을 수 있어요.
FAIR 원칙은 단순한 문서 관리 규칙이 아니에요. 실험 기록, 샘플, 분석 결과, 시뮬레이션 데이터를 서로 연결해야 나중에 인공지능이 “이 결과가 왜 나왔는지”까지 추적할 수 있어요. 그래서 전자연구노트와 실험정보관리시스템 같은 기반 시스템이 인공지능 프로젝트의 선행 작업처럼 다뤄지는 거예요.

신약개발 인공지능 얘기에서 흔히 모델만 보는데, 실제 현장은 데이터 엔지니어링 싸움에 더 가까워지고 있어. 성공한 실험만 모은 예쁜 데이터셋으로는 왜 실패했는지 못 배우니, 연구 조직의 기록 문화가 곧 모델 성능이 되는 흐름이야.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

글로벌 제약사 75%가 생성형 인공지능을 우선순위로 둔 지금, 진짜 병목은 데이터

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

글로벌 제약사 75%가 생성형 인공지능을 우선순위로 둔 지금, 진짜 병목은 데이터

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사