본문으로 건너뛰기

빅파마의 엔터프라이즈 지식 그래프

📍 현재 위치: 7부 · 오늘날 산업 현장의 온톨로지 — 27장. 지난 장은 벤더 지형 — 살 수 있는 엔진들 — 을 훑었습니다. 이 장은 더 까다로운 질문을 던집니다. 그 엔진들을 손에 쥔 채, 최대 제약사들은 실제로 무엇을 지었고, 그것을 어디에 놓았는가?

벤더 데모와 상용 시스템은 전혀 다른 짐승입니다. 지난 장의 트리플 스토어, 추론기, SHACL 검증기는 모두 작동합니다 — 그러나 작동하는 엔진은 한 회사가 그것을 어디에 박아 넣기로 결정했는지에 대해서는 아무것도 알려주지 않습니다. 이 장은 빅파마가 상용화한 엔터프라이즈 지식 그래프(enterprise knowledge graph) — 공유된 시맨틱 모델 아래 회사의 데이터를 통합하는, 크고 도메인 횡단적인 그래프 — 를 목록으로 정리합니다. 사례들은 실재하고, 동료 심사를 거쳤거나 벤더가 문서화했으며, 페타바이트 규모에서 인상적입니다. 또한 이들은 너무도 일관된 하나의 패턴을 공유하는데, 그 일관성이야말로 이 장의 진짜 발견입니다. 그래프들은 거의 전적으로 연구, FAIR 데이터 카탈로그, 규제 마스터 데이터에 몰려 있으며 — 공개된 근거상으로는 — 이 책의 러닝 배치가 실제로 만들어지는 GMP 제조 현장에는 아직 도달하지 않았습니다.

쉽게 말하면

한 글로벌 기업이 마침내 자신이 아는 모든 것 — 모든 실험, 모든 데이터셋, 모든 제품 기록 — 을 담은 거대하고 검색 가능한 색인 하나를 지었고, 그것이 아름답게 작동한다고 상상해 보십시오. 그런데 그 색인이 연구실과 본사 서류 캐비닛은 덮으면서 공장 문 앞에서 멈춘다는 걸 알아챕니다. 약을 물리적으로 만드는 기계들은 여전히 자기들만의 사적인 노트를 따로 쓰고 있습니다. 그 간극이지, 색인이 아니라, 이 이야기의 핵심입니다.

이 장에서 다루는 내용

우리는 이름이 알려진 제약사들의 상용 6건, 파일럿 2건의 엔터프라이즈 지식 그래프를 하나의 비교 표로 펼친 뒤 자세히 읽습니다. 우리는 진정한 형식 온톨로지(formal ontology) — 추론기가 작동할 수 있는 RDF/OWL 모델 — 와 컨텍스트화 프로그램(contextualization program) — 논리를 담은 모델에 구속되지 않은 채 데이터를 매핑하고 연결하는 것 — 를 구분합니다. 그 차이는 현학이 아닙니다. 이 책의 앞 부들이 전달하려고 지어 올린 보증을 짊어지는 것은 오직 전자뿐이기 때문입니다. 우리는 이 그래프들이 어디에 사는지를 추적합니다. R&D 발견 그래프, FAIR 데이터 카탈로그, 규제 마스터 데이터(master data). 그런 뒤 우리는 그 패턴 — 제조 현장의 GMP 상용 배포가 조사된 공개 근거에서 보이지 않는다는 것 — 과 그 근거의 커버리지 공백(coverage gap), 주로 위탁생산업체와 아시아 생산자들의 부재를 짚습니다. 전반에 걸쳐 각 주장의 성숙도는 굵은 괄호로 표시하는데, "출시됨"과 "발표됨" 사이의 거리야말로 이 책이 과대 포장을 거부하는 바로 그 지점이기 때문입니다.

빅파마 엔터프라이즈 지식 그래프의 두 구역 조사 지도. 'R&D, FAIR 카탈로깅, 규제 마스터 데이터'라는 큰 왼쪽 구역에는 6개의 초록 상용 카드(Roche EDIS, Novartis data42, AstraZeneca BIKG, Boehringer Ingelheim EKG, Novo Nordisk OBDM, Johnson & Johnson IDMP-O)와 그 아래 2개의 호박색 파일럿 카드(Sanofi Modulus, Merck(MSD)·GSK Methods Hub)가 있고, 각 카드는 시스템·규모·기술을 적는다. 점선 분홍 경계가 더 작은 오른쪽 구역 'GMP 제조 현장'을 가르는데, 거기에는 점선 배치 카드(BATCH-2026-001, bp가 규격을 벗어남)와 '아직 그래프 없음' 표시, 그리고 과소대표·미완 작업에 대한 분홍 주석만 있다. 범례는 초록을 상용, 호박색을 파일럿, 분홍을 공개 증거 없음으로 매핑한다. 이 조사에서 실제로 배포된 모든 파마 지식 그래프는 R&D, FAIR 카탈로그, 마스터 데이터에 몰려 있는 반면, 그 배치가 만들어지는 GMP 제조 현장은 그래프가 닿지 않은 분홍빛 변경으로 남아 있다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

인벤토리

아래 표는 이 장의 축소판입니다. 상태 열과 기술 열을 함께 읽으십시오. 기술이 RDF/OWL인 곳에서 회사는 형식 온톨로지를 지었고, 그것이 매핑이나 "컨텍스트화" 계층인 곳에서는 짓지 않았습니다.

회사시스템상태기술무엇을 하는가
RocheEDIS / Dataset Portal(상용 단계)DCAT, Dublin Core, PROV-O, SKOS, FOAF, PAV, JSON-LD, 그 아래 Ontotext GraphDB약 20,000개 데이터셋의 FAIR 카탈로그
Boehringer IngelheimEnterprise Knowledge Graph(상용 단계)metaphactory 위의 RDF/OWL/SPARQL; 별도 Stardog R&D 계층도 운영오믹스·IT·문서·임상시험 데이터를 페더레이션
AstraZenecaBIKG(R&D 한정 상용 단계)프로퍼티 그래프, 약 14M 노드 / 136M 엣지, 55개 소스Mantis-ML 2.0 타깃 식별을 구동
Novartisdata42(상용 단계)Palantir Foundry Ontology (이전엔 AWS Neptune)약 20 PB의 R&D 데이터를 통합
Novo NordiskOBDM(R&D 한정 상용 단계)AFO, OBI, ChEBI, BFO를 재사용한 RDF/OWL; SKOS/SSSOM/ROBOT연구 데이터 위에서 추론하는 KG
Johnson & JohnsonIDMP-O product master(마스터 데이터로서 상용 단계)Pistoia IDMP Ontology + AccuridsEMA PMS용 규제 제품 마스터
SanofiModulus / Connected Smart Factories(파일럿 단계)MES/LIMS/SAP를 가로지르는 컨텍스트화 데이터 매핑공장 데이터를 연결 — 형식 온톨로지는 아님
Merck (MSD) & GSKPistoia Methods Hub(파일럿 단계)ADF/AFO + 새로운 RDF 그래프 모델기계 판독 가능한 HPLC-UV 방법 이전

FAIR 카탈로그: Roche와 Novartis

Roche의 EDIS / Roche Dataset PortalFAIR — 데이터가 검색 가능(Findable)·접근 가능(Accessible)·상호운용 가능(Interoperable)·재사용 가능(Reusable)해야 한다는 원칙 — 를 위해 지어진 지식 그래프의 가장 깔끔한 예입니다. 이는 공개 어휘들의 스택 — DCAT, Dublin Core, PROV-O, SKOS, FOAF, PAV가 FAIR Data Point를 통해 JSON-LD로 제공 — 위에 얹혀 있고, 그 밑에는 Ontotext GraphDB가 있으며, 약 20,000개의 데이터셋을 카탈로그합니다 (상용 단계) [1]. Roche는 내부 FAIR 성숙도 점수 5점 만점에 4.75점과 100개가 넘는 애플리케이션에서의 기반 용어 스택 재사용을 보고합니다 [1]. 둘 다 자가보고 수치입니다 — 독립 감사가 아니라 회사 자체 평가로 읽으십시오. 명확한 것은 아키텍처입니다. 이는 카탈로그를 위해 봉사하는 온톨로지로서, 5부가 옹호한 바로 그 FAIR 패턴이 글로벌 연구 조직 규모에서 돌아가고 있는 것입니다.

Novartis의 data42는 같은 발상을 무지막지한 규모로 구현한 것입니다. 약 20 페타바이트의 R&D 데이터와 약 200만 환자-년(patient-years)을 Palantir Foundry Ontology를 통해 통합하며, 이전 버전은 AWS Neptune과 SageMaker 위에 있었고, FAIR는 공언된 "만트라(mantra)"로 묘사됩니다 (상용 단계) [4]. 시사적이게도 Novartis는 객체·액션 타입과 그것들 사이의 "시맨틱 계약(semantic contracts)"을 정의할 온톨로지 디자이너(Ontology Designer)를 채용하고 있었습니다 [4] — 이 책이 가르치는 그 규율이 연구상의 호기심이 아니라 봉급 받는 직무가 되었다는 신호입니다. 명사 하나에 대해서는 주의가 필요합니다. Foundry의 "Ontology"는 구조화된 객체 모델이며 — 앞의 플랫폼과 벤더 장이 바로 이 구별을 자세히 풀어냅니다 — 그것이 BFO적 의미에서 형식 OWL 온톨로지를 구성하는지는 공개 기록이 결론짓지 않은 질문입니다. 페타바이트 수치는 실재합니다 — 다만 "온톨로지"라는 단어는 이 표의 다른 행에서만큼 엄밀한 뜻을 담고 있지 않고, 훨씬 느슨한 의미로 쓰이고 있습니다.

발견 그래프: AstraZeneca와 Boehringer Ingelheim

AstraZeneca의 BIKG(Biological Insights Knowledge Graph)는 55개 데이터 소스에서 끌어온 약 1,400만 노드와 1억 3,600만 엣지로 이루어진 발견 측 그래프이며, 질병-유전자 타깃 식별을 위한 Mantis-ML 2.0을 구동합니다 (R&D 한정 상용 단계) [3]. 숫자에 대한 주의 하나. 1억 3,600만 엣지라는 수치는 그 2024년 논문 시점의 집계이며, 엣지 수는 AstraZeneca의 출판물마다 흔들립니다 — 널리 반복되는 "1억 4,600만"이라는 수치는 이 출처의 값이 아닙니다. 136M은 정전(正典)적 상수가 아니라 논문 시점 기준값으로 다루십시오. 또한 BIKG는 RDF/OWL 배포가 아니라 프로퍼티 그래프입니다. 이는 기술 공학적 의미에서의 지식 그래프로, 기술 논리(description logic) 추론보다는 순회와 기계 학습에 최적화되어 있습니다.

Boehringer Ingelheim은 metaphactory 위에서 Enterprise Knowledge Graph Platform을 가동하며, RDF/OWL과 SPARQL 페더레이션을 써서 오믹스 데이터, IT 시스템, 문서, 임상시험 데이터의 2차 활용을 가로지릅니다 (상용 단계) [2]. 또한 R&D를 위한 별도의 Stardog 기반 시맨틱 계층도 운영합니다. 이는 진정한 형식 온톨로지 배포이며, 발견 그래프 가운데 이 책이 권하는 아키텍처에 가장 가깝습니다. 그러나 자주 인용되는 신약 발견과 공급망 사용 사례는 출시된 역량이라기보다는 지향하는 방향으로 읽는 편이 가장 정확합니다 — 플랫폼은 실재하지만, 그것이 겨누고 있는 목적지 중 일부는 아직 도착이 아닙니다.

제대로 한 연구 온톨로지: Novo Nordisk

Novo Nordisk의 OBDM(ontology-based data management, 온톨로지 기반 데이터 관리)은 산업 제약 지식 그래프에 대한 가장 깔끔한 동료 심사 보고로, 2025년에 출판되었습니다 (R&D 한정 상용 단계) [5]. 이는 공개 온톨로지 — AFO, OBI, ChEBI, 그리고 이 책이 그 위에 지어 올린 상위 온톨로지인 BFO — 를 의도적으로 재사용하는 RDF/OWL 그래프이며, SKOS, SSSOM, ROBOT으로 도구화되어 있습니다. 그 세 구성요소는 앞 부들이 묘사한 아키텍처에 거의 정확히 대응합니다. 데이터 모델, 통제 어휘 세트, 그리고 추론하는 지식 그래프. 이 책을 따라온 독자에게 OBDM은 새 소식이라기보다 확인으로 읽힙니다 — 권장된 패턴이 교과서 안에만 사는 것이 아니라 실재하고 규제받는 기업과의 접촉을 견뎌낸다는 증거입니다.

규제 마스터: Johnson & Johnson

Johnson & Johnson의 제품 마스터는 Pistoia IDMP Ontology와 Accurids 플랫폼 위에 지어졌으며, EMA의 Product Management Service 의무를 겨냥합니다 (마스터 데이터로서 상용 단계) [6]. 정직성에 관한 메모 둘. 첫째, 이것은 규제 마스터 데이터 — 제품이 무엇인지에 대한 정전적이고 거버넌스된 기록 — 이지 공정 실행이 아닙니다. 이는 우리의 bp:DS-001 원료의약품 식별자 같은 것 뒤에 있는 형식적 기층이지, 그것을 생산한 배치의 모델이 아닙니다. 둘째, 이것이 봉사하는 EMA 마감이 2026년 중반에 떨어지므로, 여기서 "production"은 완전히 출시된 것이라기보다 부분적으로는 마감을 향해 구축·롤아웃 중입니다 — 수년의 가동 이력을 뒤에 둔 시스템이 아니라 마감을 향해 가동에 들어가는 시스템으로 읽으십시오.

현장을 건드리는 둘 — 가까스로

두 시도가 제조에 가장 가깝게 다가가는데, 둘 다 어떻게 멈춰 서는가 때문에 정확히 교훈적입니다. Sanofi의 Modulus는 그 Connected Smart Factories 프로그램 안의 "컨텍스트화 데이터" 노력으로, MES, LIMS, SAP, 종이 기록을 가로질러 데이터를 매핑하고 연결하며, 프랑스와 싱가포르의 사이트가 2026년 즈음 롤아웃됩니다 (파일럿 단계) [7]. 그것이 무엇인지에 대해 정확합시다. 데이터 매핑·컨텍스트화 프로그램이지 형식 RDF/OWL 온톨로지가 아니며, 때때로 거기 붙는 깔끔한 "ISA-95식" 틀짓기는 외부의 추론이지 Sanofi 자신의 주장이 아닙니다.

Pistoia Methods Hub 파일럿은 Merck(MSD), GSK와 함께 진행되었으며, ADF/AFO와 새로운 RDF 그래프 모델을 써서 HPLC-UV 분석 방법을 사이트 간에 기계 판독 가능하게 이전하는 것을 검증했습니다 — 표준화된 매개변수 55개, 이전 전반에 걸쳐 약 1.35%의 머무름 시간(retention-time) 분산, 2025년 동료 심사 (파일럿 단계) [8]. 이것이 규제받는 QC 벤치에 가장 가까이 내려앉는 유일한 사례이며, 여전히 파일럿이지 공장 전체 시스템이 아닙니다. 여기서 "Merck"를 무관한 Merck KGaA가 아니라 MSD로 식별한 것은 부분적으로 학회 프로그램 추론에 기댄 것이므로, 그 단서를 붙여 제시합니다.

그 패턴: 현장만 빼고 어디에나

인벤토리를 펼치면 한 형상이 명백합니다. 상용 그래프들은 두 곳에 몰려 있습니다. R&D와 FAIR 데이터 카탈로그 — Roche, Novartis, AstraZeneca, Boehringer Ingelheim, Novo Nordisk — 그리고 규제 마스터 데이터, Johnson & Johnson. 제조 쪽으로 손을 뻗는 두 노력 — Sanofi의 Modulus와 Methods Hub — 는 각각 컨텍스트화 프로그램과 파일럿이며, 둘 다 아직 롤아웃 중입니다. 이 규율은 발견에서, 그리고 규제 기록에서 스스로를 입증했습니다. 그것은, 공개적으로는, GMP 라인에서는 아직 스스로를 입증하지 못했습니다.

조심스러운 주장은 이렇습니다. 이름이 명시된, GxP 상용 온톨로지 배포가 제조 현장에 있다는 것은 조사된 공개 근거에서 발견되지 않는다. 이것은 의도적으로 "그것들이 존재하지 않는다"와는 다른 말입니다. 제조 IT는 으레 기밀이고 경쟁상 민감합니다. 조용히 OWL 기반 배치 계보(batch-genealogy) 그래프를 돌리는 공장이라면 그것을 공표하지 않을 모든 이유가 있습니다. 공개 기록에서의 부재는 실제 부재에 대한 약한 근거입니다 — 그러나 그것이 우리가 정직하게 가진 유일한 근거이고, 그 공백의 일관성 자체가 인상적입니다.

미해결 과제: R&D 그래프를 검증된 라인까지 잇기

근거에는 두 번째 침묵이 있고, 그것은 첫 번째만큼이나 분명하게 이름 붙일 가치가 있습니다. 출판된 사례 연구들은 서구 빅파마 혁신가들 쪽으로 심하게 치우쳐 있으며, 두 집단이 눈에 띄게 과소대표되어 있습니다. 위탁생산업체(CDMO) — 다수 고객 데이터 상호운용성 고통이 가장 날카로운 바로 그곳, 이 책의 유통 장이 짚었던 그 고통 — 는 거의 등장하지 않습니다. 그리고 아시아 제조사들은 공개 근거 기반에서 거의 부재합니다. Samsung Biologics가 디지털 트윈과 관련해 한 번 떠오를 뿐, Celltrion, Lotte Biologics, WuXi, 그리고 NMPA 권역 플레이어들은 조사된 문헌에서 대체로 누락되어 있습니다. 이 책은 그들에 대해 어떤 세부도 지어내지 않습니다 — 다만 그 구멍을 짚을 뿐입니다. 따라서 미완의 과업은 두 갈래입니다. 입증된 R&D 지식 그래프를 GMP 검증 경계 너머 생산 현장까지 잇는 것, 그리고 CDMO와 파트너 네트워크 전반에 걸쳐 그래프를 페더레이션하여 한 배치의 온전한 디지털 스레드(digital thread)가 회사 간 인계를 견뎌내게 하는 것입니다.

왜 중요한가

이 여덟 시스템은 이 책이 줄곧 향해 온 디지털 스레드의 실세계 인스턴스 — 그 엔진이 업계에서 가장 까다로운 회사들 내부에서 페타바이트 규모로 돌아간다는 살아있는 증거 — 입니다. 또한 이들은 더 까다로운 사실의 증거이기도 합니다. 여정에서 가장 규제받고 가장 판돈이 큰 1마일 — BATCH-2026-001이 물리적으로 만들어지고 bp:DP-004가 규격을 벗어나는 GMP 제조 현장 — 이야말로 그래프가 아직 도달하지 못한 바로 그곳입니다. 이 패턴은 기술의 실패가 아닙니다 — 그것은 변경(frontier)의 지도입니다. 배포된 기예가 정확히 어디서 멈추는지를 아는 것이, 다음 독자로 하여금 아직 열려 있는 부분을 겨누게 합니다.

핵심 용어

  • 엔터프라이즈 지식 그래프(enterprise knowledge graph) — 공유된 시맨틱 모델 아래 회사의 데이터를 통합하여 하나의 연결된 전체로서 질의할 수 있게 하는, 크고 도메인 횡단적인 그래프.
  • FAIR 카탈로그(FAIR catalog) — 주된 임무가 데이터셋을 검색 가능·접근 가능·상호운용 가능·재사용 가능하게 만드는 것인 지식 그래프로, 보통 DCAT, PROV-O 같은 공개 메타데이터 어휘를 통해 구현됨.
  • 컨텍스트화 프로그램(contextualization program) — 형식적이고 논리를 담은 RDF/OWL 모델에 구속되지 않은 채 시스템 전반의 기록을 매핑하고 연결하는 데이터 노력. 온톨로지와 같지 않음.
  • 규제 마스터 데이터(regulatory master data) — 어떤 배치가 어떻게 만들어졌는지의 기록이 아니라, 제품이 무엇인지(식별자, 성분, 함량)에 대한 정전적이고 거버넌스된 기록.
  • BIKG — AstraZeneca의 Biological Insights Knowledge Graph로, 전산 타깃 식별을 구동하는 발견 측 프로퍼티 그래프.
  • OBDM — Novo Nordisk의 온톨로지 기반 데이터 관리 접근법. 데이터 모델, 통제 어휘, 그리고 공개 온톨로지를 재사용하는 추론형 RDF/OWL 지식 그래프로 구성됨.
  • IDMP Ontology — Pistoia Alliance가 ISO IDMP 제품 식별 표준을 OWL로 렌더링한 것으로, 규제 제품 마스터를 짓는 데 쓰임.
  • 부재로부터의 논증(argument from absence) — 어떤 것이 "조사된 공개 근거에서 발견되지 않는다"는 조심스러운 주장으로, "존재하지 않는다"보다 약하며 그렇게 진술되어서는 안 됨.

다음 이야기

Johnson & Johnson의 제품 마스터는 이 책이 지금까지 곁눈질만 해온 표적을 가리켰습니다. 규제 당국입니다. 다음 장 규제 시맨틱: IDMP, SPL, KASA, 그리고 구조화된 제출은 데이터가 기관까지 가는 길 전체를 따라갑니다 — 보건 당국이 의무화하는 식별자, 구조화된 제품 라벨, 제출 형식이 그 자체로 어떻게 시맨틱해지고 있는지, 그리고 한 회사가 제출하는 기록이 심사자만큼이나 기계에 의해 읽히도록 의도되었을 때 그것이 무엇을 의미하는지를.