빅파마의 엔터프라이즈 지식 그래프

📍 현재 위치: 제8부 · 오늘날 산업 현장의 온톨로지. 지난 장은 벤더 지형 — 살 수 있는 엔진들 — 을 훑었습니다. 이 장은 더 까다로운 질문을 던집니다. 그 엔진들을 손에 쥔 채, 최대 제약사들은 실제로 무엇을 지었고, 그것을 어디에 놓았는가?

벤더 데모와 상용 시스템은 전혀 다른 짐승입니다. 지난 장의 트리플 스토어, 추론기, SHACL 검증기는 모두 작동합니다 — 그러나 작동하는 엔진은 한 회사가 그것을 어디에 박아 넣기로 결정했는지에 대해서는 아무것도 알려주지 않습니다. 이 장은 빅파마가 상용화한 엔터프라이즈 지식 그래프(enterprise knowledge graph) — 공유된 시맨틱 모델 아래 회사의 데이터를 통합하는, 크고 도메인 횡단적인 그래프 — 를 목록으로 정리합니다. 사례들은 실재하고, 동료 심사를 거쳤거나 벤더가 문서화했으며, 페타바이트 규모에서 인상적입니다. 또한 이들은 너무도 일관된 하나의 패턴을 공유하는데, 그 일관성이야말로 이 장의 진짜 발견입니다. 그래프들은 거의 전적으로 연구, FAIR 데이터 카탈로그, 규제 마스터 데이터에 몰려 있으며 — 공개된 근거상으로는 — 이 책의 러닝 배치가 실제로 만들어지는 GMP(Good Manufacturing Practice — 허가받은 모든 의약품이 반드시 그 아래에서 만들어져야 하는, 규제받고 사찰받는 생산 환경) 제조 현장에는 아직 도달하지 않았습니다.

쉽게 말하면

한 글로벌 기업이 마침내 자신이 아는 모든 것 — 모든 실험, 모든 데이터셋, 모든 제품 기록 — 을 담은 거대하고 검색 가능한 색인 하나를 지었고, 그것이 아름답게 작동한다고 상상해 보십시오. 그런데 그 색인이 연구실과 본사 서류 캐비닛은 덮으면서 공장 문 앞에서 멈춘다는 걸 알아챕니다. 약을 물리적으로 만드는 기계들은 여전히 자기들만의 사적인 노트를 따로 쓰고 있습니다. 그 간극이지, 색인이 아니라, 이 이야기의 핵심입니다.

이 장에서 다루는 내용

우리는 이름이 알려진 9개 제약사에 걸친 엔터프라이즈 지식 그래프 여덟 건 — 상용 6건, 파일럿 2건 — 을(Methods Hub 파일럿은 Merck와 GSK 두 회사의 노력입니다) 하나의 비교 표로 펼친 뒤 자세히 읽습니다. 우리는 진정한 형식 온톨로지(formal ontology) — 추론기(모델로부터 논리적 결론을 끌어내는 소프트웨어)가 작동할 수 있는 RDF/OWL(RDF는 Resource Description Framework 그래프 데이터 형식, OWL은 그 위에 얹히는 Web Ontology Language 논리 계층) 모델 — 와 컨텍스트화 프로그램(contextualization program) — 논리를 담은 모델에 구속되지 않은 채 데이터를 매핑하고 연결하는 것 — 를 구분합니다. 그 차이는 현학이 아닙니다. 이 책의 앞 부들이 전달하려고 지어 올린 보증을 짊어지는 것은 오직 전자뿐이기 때문입니다. 우리는 이 그래프들이 어디에 사는지를 추적합니다. R&D 발견 그래프, FAIR 데이터 카탈로그, 규제 마스터 데이터(master data). 그런 뒤 우리는 그 패턴 — 제조 현장의 GMP 상용 배포가 조사된 공개 근거에서 보이지 않는다는 것 — 과 그 근거의 커버리지 공백(coverage gap), 주로 위탁생산업체와 아시아 생산자들의 부재를 짚습니다. 전반에 걸쳐 각 주장의 성숙도는 굵은 괄호로 표시하는데, "출시됨"과 "발표됨" 사이의 거리야말로 이 책이 과대 포장을 거부하는 바로 그 지점이기 때문입니다.

이 조사에서 실제로 배포된 모든 파마 지식 그래프는 R&D, FAIR 카탈로그, 마스터 데이터에 몰려 있는 반면, 그 배치가 만들어지는 GMP 제조 현장은 그래프가 닿지 않은 분홍빛 변경으로 남아 있다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

인벤토리

아래 표는 이 장의 축소판입니다. 상태 열과 기술 열을 함께 읽으십시오. 기술이 RDF/OWL인 곳에서 회사는 형식 온톨로지를 지었고, 그것이 매핑이나 "컨텍스트화" 계층인 곳에서는 짓지 않았습니다. 한 가지 읽기 규칙이 표 전체를 떠받칩니다. 기술 열을 죽 훑어 내려가며, RDF/OWL/SPARQL이 보이는 곳에서 그 회사는 추론기가 작동할 수 있는 논리를 담은 모델에 헌신한 것이고, 프로퍼티 그래프, Foundry Ontology, 또는 컨텍스트화 매핑이 보이는 곳에서는 공학적 의미의 지식 그래프를 지은 것입니다 — 강력하지만, 이 책 제3–6부가 전달하려고 쓰인 기술 논리 보증은 없는. (플랫폼과 벤더 장이 이 도구 용어들 — 트리플스토어, 프로퍼티 그래프 데이터베이스, 추론기 — 과 추론기가 모델에 작동한다는 것이 무슨 뜻인지를 정의합니다.)

회사	시스템	상태	기술	무엇을 하는가
Roche	EDIS / Dataset Portal	(상용 단계)	DCAT, Dublin Core, PROV-O, SKOS, FOAF, PAV, JSON-LD, 그 아래 Ontotext GraphDB	약 20,000개 데이터셋의 FAIR 카탈로그
Boehringer Ingelheim	Enterprise Knowledge Graph	(상용 단계)	metaphactory 위의 RDF/OWL/SPARQL; 별도 Stardog R&D 계층도 운영	오믹스·IT·문서·임상시험 데이터를 페더레이션
AstraZeneca	BIKG	(R&D 한정 상용 단계)	프로퍼티 그래프, 약 14M 노드 / 136M 엣지, 55개 소스	Mantis-ML 2.0 타깃 식별을 구동
Novartis	data42	(상용 단계)	Palantir Foundry Ontology (이전엔 AWS Neptune)	약 20 PB의 R&D 데이터를 통합
Novo Nordisk	OBDM	(R&D 한정 상용 단계)	AFO, OBI, ChEBI, BFO를 재사용한 RDF/OWL; SKOS/SSSOM/ROBOT	연구 데이터 위에서 추론하는 KG
Johnson & Johnson	IDMP-O product master	(마스터 데이터로서 상용 단계)	Pistoia IDMP Ontology + Accurids	EMA PMS용 규제 제품 마스터
Sanofi	Modulus / Connected Smart Factories	(파일럿 단계)	MES/LIMS/SAP를 가로지르는 컨텍스트화 데이터 매핑	공장 데이터를 연결 — 형식 온톨로지는 아님
Merck (MSD) & GSK	Pistoia Methods Hub	(파일럿 단계)	ADF/AFO + 새로운 RDF 그래프 모델	기계 판독 가능한 HPLC-UV 방법 이전

FAIR 카탈로그: Roche와 Novartis

Roche의 EDIS / Roche Dataset Portal은 FAIR — 데이터가 검색 가능(Findable)·접근 가능(Accessible)·상호운용 가능(Interoperable)·재사용 가능(Reusable)해야 한다는 원칙 — 를 위해 지어진 지식 그래프의 가장 깔끔한 예입니다. 이는 공개 어휘들의 스택 — DCAT, Dublin Core, PROV-O, SKOS, FOAF, PAV가 FAIR Data Point를 통해 JSON-LD로 제공 — 위에 얹혀 있고, 그 밑에는 Ontotext GraphDB가 있으며, 약 20,000개의 데이터셋을 카탈로그합니다 (상용 단계) [1]. Roche는 내부 FAIR 성숙도 점수 5점 만점에 4.75점과 100개가 넘는 애플리케이션에서의 기반 용어 스택 재사용을 보고합니다 [1]. 둘 다 자가보고 수치입니다 — 독립 감사가 아니라 회사 자체 평가로 읽으십시오. 명확한 것은 아키텍처입니다. 이는 카탈로그를 위해 봉사하는 온톨로지로서, 제7부가 옹호한 바로 그 FAIR 패턴이 글로벌 연구 조직 규모에서 돌아가고 있는 것입니다. 모델러를 위해 이름 붙일 가치가 있는 것이 하나 있습니다. Roche 스택의 모든 어휘는 정보 산물에 관한 메타데이터 어휘입니다 — 과학 그 자체가 아니라 과학에 관한 기록과 라벨이며, 정체성을 잃지 않고 복제될 수 있는 종류의 개체입니다. DCAT은 데이터셋을, PROV-O는 그것을 생산한 활동을, PAV는 저작·버전 출처를, SKOS는 그것에 라벨을 붙이는 개념 체계를 기술합니다. 그 어느 것도 컴패니언 bioproc.ttl이 하는 방식으로 도메인 개체 — 분자, 배치, 바이오리액터 — 안으로 손을 뻗지 않습니다. 그것이 FAIR 카탈로그의 특징입니다. 그것은 과학의 온톨로지가 아니라 기록의 온톨로지이며 — 바로 그렇기에 데이터셋에서 깔끔하게 멈추고 그 아래의 GMP 공정을 결코 모델링할 필요가 없는 것입니다.

Novartis의 data42는 같은 발상을 무지막지한 규모로 구현한 것입니다. 약 20 페타바이트의 R&D 데이터와 약 200만 환자-년(patient-years)을 Palantir Foundry Ontology를 통해 통합하며, 이전 버전은 AWS Neptune과 SageMaker 위에 있었고, FAIR는 공언된 "만트라(mantra)"로 묘사됩니다 (상용 단계) [4]. 시사적이게도 Novartis는 객체·액션 타입과 그것들 사이의 "시맨틱 계약(semantic contracts)"을 정의할 온톨로지 디자이너(Ontology Designer)를 채용하고 있었습니다 [4] — 이 책이 가르치는 그 규율이 연구상의 호기심이 아니라 봉급 받는 직무가 되었다는 신호입니다. 명사 하나에 대해서는 주의가 필요합니다. Foundry의 "Ontology"는 구조화된 객체 모델이며 — 앞의 플랫폼과 벤더 장이 바로 이 구별을 자세히 풀어냅니다 — 그것이 BFO적 의미에서 형식 OWL 온톨로지를 구성하는지는 공개 기록이 결론짓지 않은 질문입니다. 페타바이트 수치는 실재합니다 — 다만 "온톨로지"라는 단어는 이 표의 다른 행에서만큼 엄밀한 뜻을 담고 있지 않고, 훨씬 느슨한 의미로 쓰이고 있습니다.

기술 열에는 따로 읽을 가치가 있는 개방 대 사유(open-versus-proprietary) 축이 숨어 있습니다. Roche의 GraphDB, Boehringer의 metaphactory·Stardog, Novo Nordisk의 표준 기반 스택은 개방된 W3C 표준 표면 — RDF, SPARQL, SHACL, OWL — 에 얹혀 있어, 그래프가 구성상 이식 가능합니다. SPARQL 질의와 Turtle 덤프는 다시 쓸 필요 없이 Apache Jena Fuseki나 다른 어떤 호환 스토어로도 옮겨가며, 이는 Book 3의 오픈소스 지식 그래프 장이 RDFLib과 Jena로 딛고 서는 바로 그 이식성입니다. Novartis의 Foundry Ontology와 AstraZeneca의 프로퍼티 그래프는 반대편 끝에 있습니다 — 그 객체 모델, 질의 방언, "시맨틱 계약"이 벤더 고유여서 데이터에는 닿을 수 있어도 모델은 손쉽게 내보낼 수 없습니다 — 개방 표준이 피하려고 존재하는 고전적 락인(lock-in)입니다. 거래는 양쪽 다 실재하며 도덕극이 아닙니다. 사유 플랫폼은 통합 속도와, 날 트리플스토어라면 직접 조립해야 할 관리형 런타임을 사 주고, 개방 스택은 출구 권리와 도구 독립성을 사 줍니다. 이 책 자신의 선택을 따라온 독자에게 요점은, 권장된 아키텍처가 이식 가능한 쪽이며, 그 이식성이야말로 — 개방 도구로 지어진 — 소박한 컴패니언 그래프가 위의 페타바이트 배포의 다른 종류의 객체가 아니라 충실한 소규모 표본이 되게 하는 바로 그것이라는 점입니다.

발견 그래프: AstraZeneca와 Boehringer Ingelheim

AstraZeneca의 BIKG(Biological Insights Knowledge Graph)는 55개 데이터 소스에서 끌어온 약 1,400만 노드와 1억 3,600만 엣지로 이루어진 발견 측 그래프이며, 질병-유전자 타깃 식별을 위한 Mantis-ML 2.0을 구동합니다 (R&D 한정 상용 단계) [3]. 숫자에 대한 주의 하나. 1억 3,600만 엣지라는 수치는 그 2024년 논문 시점의 집계이며, 엣지 수는 AstraZeneca의 출판물마다 흔들립니다 — 널리 반복되는 "1억 4,600만"이라는 수치는 이 출처의 값이 아닙니다. 136M은 정전(正典)적 상수가 아니라 논문 시점 기준값으로 다루십시오. 또한 BIKG는 RDF/OWL 배포가 아니라 프로퍼티 그래프입니다. 이는 기술 공학적 의미에서의 지식 그래프로, 기술 논리(description logic) 추론보다는 순회와 기계 학습에 최적화되어 있습니다. 라벨 프로퍼티 그래프(LPG)에는 표준화된 모델 이론이 없습니다 — 그 엣지는 IRI가 아니고 T-Box나 함의 체계(entailment regime)를 짊어지지 않습니다 — 그러므로 그 구별은 단지 성능 튜닝이 아닙니다. 추론기가 작동할 논리 계층 자체가 없는 것이며, 반면 RDF/OWL 그래프는 구성상 개방세계 DL 시맨틱을 짊어집니다.

Boehringer Ingelheim은 metaphactory 위에서 Enterprise Knowledge Graph Platform을 가동하며, RDF/OWL과 SPARQL 페더레이션을 써서 오믹스 데이터, IT 시스템, 문서, 임상시험 데이터의 2차 활용을 가로지릅니다 (상용 단계) [2]. 또한 R&D를 위한 별도의 Stardog 기반 시맨틱 계층도 운영합니다. 이는 진정한 형식 온톨로지 배포이며, 발견 그래프 가운데 이 책이 권하는 아키텍처에 가장 가깝습니다. 그러나 자주 인용되는 신약 발견과 공급망 사용 사례는 출시된 역량이라기보다는 지향하는 방향으로 읽는 편이 가장 정확합니다 — 플랫폼은 실재하지만, 그것이 겨누고 있는 목적지 중 일부는 아직 도착이 아닙니다.

그래프가 무엇을 위한 것인가: 그것은 모델이 딛고 서는 그라운드 트루스

BIKG는 표 안에서 모델을 먹이기 위해 지어진 지식 그래프의 가장 명확한 사례이며, 그 역할은 조심스럽게 읽을 가치가 있습니다. 이 조사가 컴패니언 ML 책에 닿는 지점이기 때문입니다. Mantis-ML 2.0은 날 테이블에서 학습하지 않습니다 — 그래프의 타입 부여 엣지(유전자-질병, 유전자-경로, 표적-약물성)에서 학습하며, 그 타입 부여야말로 그래프를 특징 더미가 아니라 방어 가능한 기층으로 만드는 것입니다. 라벨 프로퍼티 그래프는 한 노드의 차수, 알려진 약물 표적까지의 최단 경로, 이웃의 임베딩 같은 그래프 특징(graph feature)을 제공하고, 그것을 하류 분류기가 소비합니다. 온톨로지가 있는 곳에서는, "연관됨(associated-with)"이라 라벨된 엣지가 어디에 나타나든 같은 것을 의미하도록 보장하는 것이 온톨로지이며, 그래서 학습된 특징이 서로 다른 두 관계를 조용히 평균 내지 않습니다. 이것은 AI 장이 그리는 구조 대 실체(structure-versus-substance) 구분을 기업 측에서 본 것입니다. 그래프는 검증된 실체를 공급하고, 모델은 그 위에 유창한 구조를 공급합니다.

ML 책이 정밀하게 만든 두 가지 주의가 여기에 직접 적용되며, 그것이 그래프가 데이터를 단지 보관하는 것이 아니라 ML 팀을 돕는 이유입니다. 첫째, 검증의 역설(validation paradox)입니다. 추론기가 함의(entail)한 그래프 — 모든 owl:TransitiveProperty 계보 엣지가 닫히고 모든 owl:disjointWith 모순이 잡힌 — 는 어떤 의미에서 어떤 학습된 모델보다도 신뢰할 만한데, 그 결론이 추정된 것이 아니라 증명된 것이기 때문이며, SHACL 게이트가 단 한 에포크가 돌기 전에 학습 세트가 완전하고 타입이 잘 부여되었음을 인증할 수 있기 때문입니다. 이 책 자신의 SHACL 출시 게이트가 바로 그 인증자입니다 — 부적합 그래프를 거부하는 셰이프는, 용도를 바꾸면, 비어 있거나 잘못 라벨된 학습 그래프를 거부하는 검사입니다 — 모든 로트가 그 bp:derivedFrom 부모를, 모든 결과가 그 값과 단위를 — 모델이 그 공백을 신호인 양 학습하기 전에. 둘째, 그래프 인스턴스 위에서의 학습은 ML 책이 이름 붙인 누수 함정(leakage trap)을 다시 엽니다. 한 배치, 한 세포주, 또는 촘촘히 연결된 한 이웃에서 끌어온 행은 독립적이지 않으므로, 정직한 홀드아웃 점수에는 가까운 쌍둥이를 학습/시험 선 너머로 흩뿌리는 행 단위 셔플이 아니라 그룹화된, 배치 단위 제외(leave-one-batch-out) 분할(배치 또는 계보 노드를 키로 삼는 GroupKFold)이 필요합니다. 1억 3,600만 엣지 그래프는 그 함정에 빠지기도 쉽고 고치기도 쉽게 만듭니다 — 그룹 키가 이미 그래프 안의 한 노드이기 때문입니다. 이 책이 가르치는 규율 — 동일성, 타입 부여 관계, 검증된 완전성 — 은, 이 관점에서 읽으면, 그래프 위 신뢰할 만한 ML의 전제 조건이지 병렬적인 관심사가 아닙니다. AstraZeneca가 BIKG를 Mantis-ML과 짝지은 것은 둘이 함께 간다는 상용 증거입니다.

제대로 한 연구 온톨로지: Novo Nordisk

Novo Nordisk의 OBDM(ontology-based data management, 온톨로지 기반 데이터 관리)은 산업 제약 지식 그래프에 대한 가장 깔끔한 동료 심사 보고로, 2025년에 출판되었습니다 (R&D 한정 상용 단계) [5]. 이는 공개 온톨로지 — AFO, OBI, ChEBI, 그리고 이 책이 그 위에 지어 올린 상위 온톨로지인 BFO — 를 의도적으로 재사용하는 RDF/OWL 그래프이며, SKOS, SSSOM, ROBOT으로 도구화되어 있습니다. 그 세 구성요소는 앞 부들이 묘사한 아키텍처에 거의 정확히 대응합니다. 데이터 모델, 통제 어휘 세트, 그리고 추론하는 지식 그래프. 이 책을 따라온 독자에게 OBDM은 새 소식이라기보다 확인으로 읽힙니다 — 권장된 패턴이 교과서 안에만 사는 것이 아니라 실재하고 규제받는 기업과의 접촉을 견뎌낸다는 증거입니다.

규제 마스터: Johnson & Johnson

Johnson & Johnson의 제품 마스터는 Pistoia IDMP Ontology와 Accurids 플랫폼 위에 지어졌으며, EMA의 Product Management Service 의무를 겨냥합니다 (마스터 데이터로서 상용 단계) [6]. 정직성에 관한 메모 둘. 첫째, 이것은 규제 마스터 데이터 — 제품이 무엇인지에 대한 정전적이고 거버넌스된 기록 — 이지 공정 실행이 아닙니다. 이는 ISO IDMP 물질 동일성(우리의 bp:IDMP-DS-001, 즉 bp:SubstanceIdentifier) — 그래프가 bp:hasSubstanceIdentifier로 원료의약품 로트 bp:DS-001(하나의 bp:DrugSubstance 물질 개체)에 붙이는 것 — 뒤에 있는 형식적 기층이지, 그것을 생산한 배치의 모델이 아닙니다. 우리 러닝 예제에서 이것은 하나가 아니라 두 노드의 차이입니다. 물질인 원료의약품 로트 bp:DS-001(하나의 BFO 독립적 지속체 — 일어나는 사건이 아니라 그저 존재하는 것)과, 규제 당국을 위해 그것에 이름을 붙이는 정보 산물인 bp:IDMP-DS-001 — align.ttl이 iof:InformationContentEntity(FDA UNII / GSRS 코드를 짊어지는 BFO 일반의존적 지속체)로 매핑하는 것. 둘은 bp:hasSubstanceIdentifier로 묶이며, 식별자는 IAO의 is about(obo:IAO_0000136)의 하위 속성인 bp:isAbout으로 물질을 가리켜 돌아옵니다. J&J의 것 같은 규제 마스터는 전적으로 그 엣지의 정보 산물 쪽에 삽니다 — 그것은 제품이 무엇인지를 거버넌스하면서, 주어진 로트를 생산한 발생체 — 배치 런 — 는 결코 모델링하지 않습니다. 둘째, 이것이 봉사하는 EMA 마감이 2026년 중반에 떨어지므로, 여기서 "production"은 완전히 출시된 것이라기보다 부분적으로는 마감을 향해 구축·롤아웃 중입니다 — 수년의 가동 이력을 뒤에 둔 시스템이 아니라 마감을 향해 가동에 들어가는 시스템으로 읽으십시오.

이 책은 그 패턴을 조사만 하는 것이 아니라 — 시험합니다. 경쟁 질문 CQ-16은 출판 장에서 실행되어, IDMP 물질 동일성이 복제본이 아니라 출시 게이트가 검증한 바로 그 bp:DS-001 노드에 붙는지를 확인합니다 — 제조사의 관점과 규제 당국의 관점을 복제본의 복제본으로 조용히 융합해 버릴 owl:sameAs 과잉 병합에 대한 명시적 방어와 함께. J&J 마스터는 러닝 예제가 기계 검증 가능하게 만드는 보증의 산업적 인스턴스입니다.

현장을 건드리는 둘 — 가까스로

두 시도가 제조에 가장 가깝게 다가가는데, 둘 다 어떻게 멈춰 서는가 때문에 정확히 교훈적입니다. Sanofi의 Modulus는 그 Connected Smart Factories 프로그램 안의 "컨텍스트화 데이터" 노력으로, MES(제조 실행 시스템(Manufacturing Execution System), 배치를 운영·기록하는 현장 소프트웨어), LIMS(QC 결과를 담는 실험실 정보 관리 시스템(Laboratory Information Management System)), SAP(기록상의 전사적 자원 관리 시스템), 종이 기록을 가로질러 데이터를 매핑하고 연결하며, 프랑스와 싱가포르의 사이트가 2026년 즈음 롤아웃됩니다 (파일럿 단계) [7]. 그것이 무엇인지에 대해 정확합시다. 데이터 매핑·컨텍스트화 프로그램이지 형식 RDF/OWL 온톨로지가 아니며, 때때로 거기 붙는 깔끔한 "ISA-95식" 틀짓기는 외부의 추론이지 Sanofi 자신의 주장이 아닙니다.

Pistoia Methods Hub 파일럿은 Merck(MSD), GSK와 함께 진행되었으며, ADF/AFO와 새로운 RDF 그래프 모델을 써서 HPLC-UV 분석 방법을 사이트 간에 기계 판독 가능하게 이전하는 것을 검증했습니다 — 표준화된 매개변수 55개, 이전 전반에 걸쳐 약 1.35%의 상대 머무름 시간(retention-time) 재현성, 2025년 동료 심사 (파일럿 단계) [8]. 이것이 규제받는 QC 벤치에 가장 가까이 내려앉는 유일한 사례이며, 여전히 파일럿이지 공장 전체 시스템이 아닙니다. 여기서 "Merck"를 무관한 Merck KGaA가 아니라 MSD로 식별한 것은 부분적으로 학회 프로그램 추론에 기댄 것이므로, 그 단서를 붙여 제시합니다.

이 사례가 왜 중요한지 보려면, 같은 기계 장치를 우리 자신의 출시 패널 위에 올려 그려 보십시오. 모노클로날 항체 로트는 고정된 방법 묶음으로 처분됩니다 — 단량체와 HMW 응집체를 위한 SEC, 전하 변이체를 위한 양이온 교환(CEX), HCP ELISA, 잔류 DNA qPCR, 박테리아 엔도톡신(LAL), 무균성, 그리고 역가 바이오어세이 — 모두 컴패니언 모델에 클래스로 존재하며(이들 각 방법이 실제로 무엇을 측정하는지는 Book 1의 분석 장에 있습니다) — 이들 하나하나가 두 번째 사이트가 제품을 출시할 수 있기 전에 문서화된 사이트 간 동등성과 함께 이전되어야 합니다. 기계 판독 가능한 방법(여기 표준화된 55개 HPLC-UV 매개변수)은 그 동등성을 종이 SOP를 다시 타이핑하는 대신 질의로 확인하게 해주고, 추세를 벗어난 머무름 시간 이동을 조사로 번지기 전에 플래그하게 해줍니다. 그것이 시맨틱이 규제받는 벤치에 닿는 좁고 가치 높은 쐐기입니다 — 한 번에 현장 전체가 아니라 한 번에 한 방법씩 — 이며, 이 책의 CQ별 PASS/FAIL 수용 시험이 그 방법 이전 수용 기준의 유비입니다.

그 패턴: 현장만 빼고 어디에나

인벤토리를 펼치면 한 형상이 명백합니다. 상용 그래프들은 두 곳에 몰려 있습니다. R&D와 FAIR 데이터 카탈로그 — Roche, Novartis, AstraZeneca, Boehringer Ingelheim, Novo Nordisk — 그리고 규제 마스터 데이터, Johnson & Johnson. 제조 쪽으로 손을 뻗는 두 노력 — Sanofi의 Modulus와 Methods Hub — 는 각각 컨텍스트화 프로그램과 파일럿이며, 둘 다 아직 롤아웃 중입니다. 이 규율은 발견에서, 그리고 규제 기록에서 스스로를 입증했습니다. 그것은, 공개적으로는, GMP 라인에서는 아직 스스로를 입증하지 못했습니다.

조심스러운 주장은 이렇습니다. 이름이 명시된, GxP 상용 온톨로지 배포가 제조 현장에 있다는 것은 조사된 공개 근거에서 발견되지 않는다 (GxP란 규제받는 의약품 작업을 다스리는 "Good Practice" 규정들 — 그중 제조에 대한 것이 GMP — 의 우산이며, 출시 관련 시스템은 그 아래에서 검증되어야 합니다). 이것은 의도적으로 "그것들이 존재하지 않는다"와는 다른 말입니다. 제조 IT는 으레 기밀이고 경쟁상 민감합니다. 조용히 OWL 기반 배치 계보(batch-genealogy) 그래프를 돌리는 공장이라면 그것을 공표하지 않을 모든 이유가 있습니다. 공개 기록에서의 부재는 실제 부재에 대한 약한 근거입니다 — 그러나 그것이 우리가 정직하게 가진 유일한 근거이고, 그 공백의 일관성 자체가 인상적입니다.

이 공백이 이토록 깔끔한 데에는 구조적인 이유도 있으며, 그것은 비밀주의만이 아닙니다. 그래프가 출시 관련 사실 — CPP(중요 공정 매개변수(critical process parameter) — 제품을 규격 안에 유지하기 위해 반드시 통제해야 하는 설정값) 궤적, 공정 중 결과, 처분(disposition) — 을 건드리는 순간, 그것은 GxP 전산화 시스템 검증(GAMP 5, 21 CFR Part 11, EU GMP Annex 11)과 ALCOA+ 데이터 무결성 기대 — 모든 값이 귀속 가능(attributable)·판독 가능·동시기록(contemporaneous)·원본(original)·정확(accurate)하고, 더해 완전(complete)·일관(consistent)·항구(enduring)·이용 가능(available)하며 완전한 감사 추적을 동반해야 한다는 것 — 의 적용을 받습니다 [9]. 과학자가 데이터셋을 찾도록 돕는 발견·FAIR 카탈로그 그래프는 그 무게를 전혀 지지 않습니다. 그러나 bp:DP-004가 HMW 응집체에서 규격을 벗어난다고 조용히 추론하는 추론기는 규제 관점에서 배치 결정에 기여하는 시스템이며 — 그렇게 하기에 앞서 검증·변경관리·감사 가능해야 합니다. 그 비대칭이, 기밀성만큼이나, 같은 회사들이 연구에서는 그래프를 자유로이 배포하면서 검증된 선에서 멈추는 이유입니다. 이 논점은 반대 방향으로도 작용합니다. 와이어에서 그래프로 잇는 로더들은 현장이 OPC UA, 히스토리안, B2MML로부터 실제로 그래프화 가능함을 보여줍니다 — 장애물은 규제적인 것이지 기술적인 것이 아닙니다 — 그리고 SHACL 출시 게이트는 규제 당국이 그런 그래프를 규격에 붙들어 두기 위해 발견하리라 기대하는 바로 그 검증·감사 가능한 메커니즘입니다.

경계가 어려운 데에는 상업적 이유만이 아니라 온톨로지적 이유도 있습니다. 출시된 그래프들 — FAIR 카탈로그, 발견 그래프, 규제 마스터 — 은 압도적으로 지속체(continuant)와 정보 산물(information artifact)의 그래프입니다. 데이터셋, 물질, 타깃, 제품 기록 등, 그저 존재하는 것들. GMP 현장은 정반대 형상입니다. 그 핵심 개체는 발생체(occurrent) — 시간 속에서 일어나는 사건들: 배치 런, 크로마토그래피 단계, bp:DP-004가 규격을 벗어나는 순간 — 와 공정에 묶인 실현체(realizable) — 컬럼이 결합해야 하는 처분, QP(인증담당자(Qualified Person) — 각 배치의 출시를 인증할 법적 책임을 지는, 이름이 명시된 개인) 서명이 출시에서 수행하는 역할 — 입니다. DCAT 카탈로그는 BFO의 발생체나 실현체 기구를 거의 전혀 필요로 하지 않지만, 배치 계보 그래프는 바로 그것으로 지어집니다. 따라서 검증 경계를 넘는 것은 같은 모델을 새 서버로 이식하는 일이 아니라 — 배포된 그래프들이 한 번도 쓸 필요가 없었던 BFO의 절반을 더하는 일입니다.

그러니 세 구역입니다. 붐비는 R&D / FAIR 사분면(Roche, Novartis, AstraZeneca, Boehringer Ingelheim, Novo Nordisk), 거버넌스된 규제 마스터 데이터 사분면 하나(Johnson & Johnson), 그리고 두 노력만이 스칠 뿐인 거의 비어 있는 GMP 현장 사분면. 히어로 그림은 바로 이 지도를 그리고, 이 장의 나머지는 그것을 읽는 일입니다.

미해결 과제: R&D 그래프를 검증된 라인까지 잇기

근거에는 두 번째 침묵이 있고, 그것은 첫 번째만큼이나 분명하게 이름 붙일 가치가 있습니다. 출판된 사례 연구들은 서구 빅파마 혁신가들 쪽으로 심하게 치우쳐 있으며, 두 집단이 눈에 띄게 과소대표되어 있습니다. 위탁생산업체(CDMO) — 다수 고객 데이터 상호운용성 고통이 가장 날카로운 바로 그곳 — 는 거의 등장하지 않습니다. 그 고통의 가장 날카로운 부분은 마지막 콜드체인 1마일이 아니라 기술 이전(tech-transfer) 패키지 그 자체입니다. 공정이 혁신가에서 CDMO로 옮겨갈 때, 그 인계는 공정 기술서, CPP와 수용 기준을 갖춘 관리 전략, 공정 중·출시 방법 이전, 그리고 동등성 프로토콜 — 그 뒤를 잇는, 위탁 사이트가 만드는 모든 로트에 대한 배치별 분석성적서(CofA)와 처분 — 입니다. 그 각각은 두 회사의 식별자, 단위, 방법 정의가 화해해야 하는 지점이며, 각각은 오늘날 대체로 문서와 이메일로 화해됩니다. bp:DS-001의 온전한 계보와 그 수용 기준이 그 기업 경계를 가로질러 손상 없이 이동하게 해주는 페더레이션 그래프야말로 아직 짓지 않은 다리이며 — 바로 그렇기에 혁신가가 아니라 CDMO가 그것으로부터 가장 많이 얻을 것입니다. 그리고 아시아 제조사들은 공개 근거 기반에서 거의 부재합니다. Samsung Biologics가 디지털 트윈과 관련해 한 번 떠오를 뿐, Celltrion, Lotte Biologics, WuXi, 그리고 NMPA 권역 플레이어들은 조사된 문헌에서 대체로 누락되어 있습니다. 이 책은 그들에 대해 어떤 세부도 지어내지 않습니다 — 다만 그 구멍을 짚을 뿐입니다. 따라서 미완의 과업은 두 갈래입니다. 입증된 R&D 지식 그래프를 GMP 검증 경계 너머 생산 현장까지 잇는 것, 그리고 CDMO와 파트너 네트워크 전반에 걸쳐 그래프를 페더레이션하여 한 배치의 온전한 디지털 스레드(digital thread)가 회사 간 인계를 견뎌내게 하는 것입니다. 디지털 스레드란 한 제품에 관한 모든 사실 — 발견 표적, 세포은행, 공정 파라미터, 공정 중 결과, 출시 처분 — 이 여러 시스템에 흩어진 것이 아니라 하나의 그래프로 연결된, 끊기지 않고 질의 가능한 사슬을 뜻합니다. 그것은 정확히 러닝 예제가 조립하는 단일하게 연결된 그래프로서 WCB-CHO-001 → DS-001 → DP-001을 잇는 것이며, 오늘날 회사 내부 그래프들은 저마다 그중 한 조각씩만 쥐고 있을 뿐입니다.

왜 중요한가

이 여덟 시스템은 이 책이 줄곧 향해 온 디지털 스레드의 실세계 인스턴스 — 그 엔진이 업계에서 가장 까다로운 회사들 내부에서 페타바이트 규모로 돌아간다는 살아있는 증거 — 입니다. 또한 이들은 더 까다로운 사실의 증거이기도 합니다. 여정에서 가장 규제받고 가장 판돈이 큰 1마일 — BATCH-2026-001이 물리적으로 만들어지고 bp:DP-004가 단량체는 규격 안에 있으면서도 HMW 응집체에서 출시 규격(2.41% 대 2.0% 한계)을 벗어나는 GMP 제조 현장 — 이야말로 그래프가 아직 도달하지 못한 바로 그곳입니다. 그것이 이 조사의 조용한 아이러니입니다. 공개 기록에 빠져 있는 바로 그것 — GMP 배치, 그 출시 로트들, 그 CQA(중요 품질 속성(critical quality attribute)) 패널, 그리고 그것들을 규격에 붙드는 SHACL 게이트의 OWL 기반 그래프 — 이야말로 앞선 장들이 BATCH-2026-001을 중심으로 지은 것입니다. 이 책은 사실상, 업계가 아직 공표하지 않은 그 배포의 완성된 표본입니다. 이 패턴은 기술의 실패가 아닙니다 — 그것은 변경(frontier)의 지도입니다. 배포된 기예가 정확히 어디서 멈추는지를 아는 것이, 다음 독자로 하여금 아직 열려 있는 부분을 겨누게 합니다.

핵심 용어

GMP — Good Manufacturing Practice, 시판 의약품을 만들기 위해 시설이 반드시 따라야 하는, 법적 구속력이 있고 사찰받는 품질 체제.
GxP — "Good x Practice" 규정들(제조에 대한 GMP 등)의 우산으로, 그 아래에서 출시 관련 전산화 시스템이 검증되어야 함.
엔터프라이즈 지식 그래프(enterprise knowledge graph) — 공유된 시맨틱 모델 아래 회사의 데이터를 통합하여 하나의 연결된 전체로서 질의할 수 있게 하는, 크고 도메인 횡단적인 그래프.
FAIR 카탈로그(FAIR catalog) — 주된 임무가 데이터셋을 검색 가능·접근 가능·상호운용 가능·재사용 가능하게 만드는 것인 지식 그래프로, 보통 DCAT, PROV-O 같은 공개 메타데이터 어휘를 통해 구현됨.
컨텍스트화 프로그램(contextualization program) — 형식적이고 논리를 담은 RDF/OWL 모델에 구속되지 않은 채 시스템 전반의 기록을 매핑하고 연결하는 데이터 노력. 온톨로지와 같지 않음.
규제 마스터 데이터(regulatory master data) — 어떤 배치가 어떻게 만들어졌는지의 기록이 아니라, 제품이 무엇인지(식별자, 성분, 함량)에 대한 정전적이고 거버넌스된 기록.
BIKG — AstraZeneca의 Biological Insights Knowledge Graph로, 전산 타깃 식별을 구동하는 발견 측 프로퍼티 그래프.
OBDM — Novo Nordisk의 온톨로지 기반 데이터 관리 접근법. 데이터 모델, 통제 어휘, 그리고 공개 온톨로지를 재사용하는 추론형 RDF/OWL 지식 그래프로 구성됨.
IDMP Ontology — Pistoia Alliance가 의약품과 그 물질을 식별하는 ISO IDMP 표준군(ISO 11238/11239/11240/11615/11616)을 OWL로 렌더링한 것으로, 규제 제품 마스터를 짓는 데 쓰임. 컴패니언의 bp:SubstanceIdentifier는 그중 물질 표준인 ISO 11238에 키를 둠.
부재로부터의 논증(argument from absence) — 어떤 것이 "조사된 공개 근거에서 발견되지 않는다"는 조심스러운 주장으로, "존재하지 않는다"보다 약하며 그렇게 진술되어서는 안 됨.
그래프 특징(graph feature) — 그래프 안 노드의 위치에서 도출되는 양(차수, 최단 경로, 이웃 임베딩)으로, 기계 학습 모델이 입력으로 소비함. 지식 그래프를 단지 질의 대상이 아니라 ML의 기층으로 만드는 것.
검증의 역설(validation paradox) — 온톨로지로 추론되고 SHACL로 검증된 그래프는 증명된 결론을 내는 반면 학습된 모델은 추정된 결론을 내므로, 그래프가 모델을 대조해 검사하는 신뢰할 만한 그라운드 트루스이지 그 반대가 아니라는 것.
그룹화된 / 배치 단위 제외 교차검증(grouped / leave-one-batch-out cross-validation) — 그래프 인스턴스 위 학습을 위한 정직한 홀드아웃 평가로, 한 배치나 계보의 모든 행을 학습 또는 시험 한쪽에만 통째로 두어 상관된 가까운 중복 행이 점수를 부풀리지 않게 함.
벤더 락인(vendor lock-in) — 모델이 개방된 W3C 표면(RDF, SPARQL, SHACL, OWL)이 아니라 사유 플랫폼의 객체 타입과 질의 방언으로 표현되는 데서 오는 비용으로, 데이터에는 닿을 수 있어도 모델은 자유로이 이식할 수 없게 함.

다음 이야기

Johnson & Johnson의 제품 마스터는 이 책이 지금까지 곁눈질만 해온 표적을 가리켰습니다. 규제 당국입니다. 다음 장 규제 시맨틱: IDMP, SPL, KASA, 그리고 구조화된 제출은 데이터가 기관까지 가는 길 전체를 따라갑니다 — 보건 당국이 의무화하는 식별자, 구조화된 제품 라벨, 제출 형식이 그 자체로 어떻게 시맨틱해지고 있는지, 그리고 한 회사가 제출하는 기록이 심사자만큼이나 기계에 의해 읽히도록 의도되었을 때 그것이 무엇을 의미하는지를.

이 장에서 다루는 내용​

인벤토리​

FAIR 카탈로그: Roche와 Novartis​

발견 그래프: AstraZeneca와 Boehringer Ingelheim​

그래프가 무엇을 위한 것인가: 그것은 모델이 딛고 서는 그라운드 트루스​

제대로 한 연구 온톨로지: Novo Nordisk​

규제 마스터: Johnson & Johnson​

현장을 건드리는 둘 — 가까스로​

그 패턴: 현장만 빼고 어디에나​

미해결 과제: R&D 그래프를 검증된 라인까지 잇기​

왜 중요한가​

핵심 용어​

다음 이야기​