플랫폼: 벤더는 시맨틱을 어떻게 파는가
📍 현재 위치: 7부 · 오늘날 산업 현장의 온톨로지 — 26장. 표준과 어휘는 실재하며, 우리는 그것들을 처음부터 끝까지 두루 살펴보았습니다. 이제 공장이 실제로 마주하는 현실적인 질문을 던집니다. 소프트웨어를 살 때, 당신이 손에 넣는 것은 무엇인가?
앞선 장들은 어휘가 존재한다는 사실을 확립했습니다 — 맨 위의 BFO, 중간의 IOF Core, 그 아래 물질과 공정을 위한 도메인 용어들. 그러나 표준은 제품이 아닙니다. 공장은 온톨로지를 내려받아 그 위에서 돌아가지 않습니다. 공장은 플랫폼을 구매하며, 그 플랫폼들은 상자에 시맨틱(semantics)이라는 단어를 찍은 채 도착합니다. 영업 자료에 등장하는 모든 벤더는 "지식 그래프(knowledge graph)"가 잘 팔린다는 사실을 발견했고, 그래서 이 단어는 이제 서로 전혀 다른 것을 의미하는 제품들마다 장식처럼 붙어 있습니다.
이 장이 풀어내는 질문은, 상자 안에 든 것이 당신이 가져와 추론할 수 있는 형식적이고 거버넌스된 온톨로지인지, 아니면 뚜껑에 그래프 하나를 그려 넣은 독점 데이터 모델인지입니다. 이 구분은 현학적인 트집이 아닙니다.
두 제품이 같은 슬라이드에서 똑같이 지식 그래프(knowledge graph)를 표방하면서도 전혀 다른 것을 뜻할 수 있습니다 — 하나는 당신이 내보내고(export) 정렬하고(align) 추론할 수 있는 OWL/RDF 그래프이고, 다른 하나는 그 "그래프"가 질의 편의에 불과한 닫힌 객체 모델입니다. 서명하기 전에 둘을 구별하는 것은, 당신이 소유하는 모델과 통합 예산을 이미 다 쓴 뒤에 나중에 역설계하게 될 모델 사이의 차이입니다. 뒤따르는 조사는 이 단 하나의 구별을 축으로 삼아, 그것을 자신이 거명하는 모든 제품에 정직하게 적용합니다.
가구를 사러 갔다고 상상해 봅시다. 어떤 가게는 목재와 표준화된 접합 부품을 팝니다. 집에 가져가 다른 어느 가게의 나무와도 결합해 원하는 것을 무엇이든 만들 수 있습니다. 다른 가게는 자기네 열쇠로만 열리고 자기네 다른 장식장에만 맞는 아름다운 장식장을 팝니다. 두 가게 모두 "모듈식"이라고 말합니다. 그러나 어디서든 작동하는 부품을 들고 나갈 수 있게 해 주는 곳은 한 곳뿐입니다. 바이오공정 소프트웨어를 사는 일도 마찬가지입니다 — 어떤 벤더는 개방적이고 이식 가능한 모델을 건네주고, 다른 벤더는 화려하게 닫힌 상자를 건넵니다. 그 장식장이 정확히 당신에게 필요한 물건일 수도 있습니다. 다만 당신은 자신이 어느 쪽을 사고 있는지 알아야 합니다.
이 장에서 다루는 내용
우리는 네 개의 층에 걸쳐 상업 지형을 조사하며, 그 전반에 하나의 시험을 적용합니다. 이것이 형식적 OWL/RDF 온톨로지(OWL/RDF ontology) — 내보내고 정렬할 수 있는, 명시적이고 기계 검증 가능한 시맨틱을 갖춘 모델 — 인가, 아니면 지식 그래프(knowledge graph) 라벨을 브랜딩으로 두른 독점 구조화 데이터 모델(proprietary structured data model)인가?
우리는 실험실 정보학 플랫폼 — 여기서는 시맨틱이 진정으로 형식적입니다 — 을 살펴보고, 제조 실행(MES)과 히스토리안 시스템 — 여기서는 시맨틱이 풍부하지만 닫혀 있습니다 — 을 살펴보며, "조직의 디지털 트윈(digital twin of the organization)"이라는 틀과 엔터프라이즈 시맨틱 계층 아래의 그래프 데이터베이스 — 여기서는 범주가 한가운데서 둘로 갈립니다 — 를 살펴봅니다. 마지막으로 누구도 광고하지 않는 화려하지 않은 다리 — 관계형 및 히스토리안 데이터를 트리플로 바꾸는 매핑 기계 — 를 살펴봅니다.
전반에 걸쳐 우리는 각 주장을 성숙도별로 (상용 단계/파일럿 단계/제안 단계/학술 단계)로 표시하고, 벤더 마케팅은 정확히 그것으로서 표시합니다. 특히 우리는 형식적 OWL/RDF 온톨로지를 구조화 데이터 모델 또는 독점 데이터 모델과 혼동하지 않도록 주의합니다. 바로 그 혼동이야말로 마케팅이 부추기는 것이며, 이 장 전체가 존재하는 이유가 그것을 바로잡기 위함이기 때문입니다.
색 = 상자 안에 든 것: 초록은 정식 온톨로지, 호박색과 청록은 독점 모델, 보라는 혼합 계층 — 닫힌 MES와 히스토리안 계층만이 그래프에 닿기 위해 R2RML/RML 매핑 다리를 필요로 한다.
저자가 AI의 도움을 받아 직접 제작한 그림입니다.
실험실 정보학: 시맨틱이 실재하는 곳
과학 데이터와 실험실 정보학 계층은 진정으로 시맨틱한 도구가 가장 단단히 발을 디딘 곳입니다 — 이 계층이 R&D에 가장 가깝게 자리하기 때문입니다. R&D에서는 이질적인 기기 데이터와 외부 어휘가 늘 문제였습니다.
크로마토그래피 시스템, 플레이트 리더, 질량분석기는 저마다 자기만의 방언을 씁니다. 이 셋 모두에 걸쳐 하나의 질문을 던지는 유일한 방법은 그것들을 공유 모델 위에 매핑하는 것입니다. 표준 위원회를 기다릴 수 없는 과학자들이 매일같이 느끼는 그 압력이, 이 계층에서 라벨만이 아닌 진짜 온톨로지 통합을 만들어 냈습니다.
TetraScience는 Tetra Scientific Data Cloud를 운영합니다. 이 클라우드는 원시 기기 출력을 개방형 중간 데이터 스키마(Intermediate Data Schema, IDS)로 변환하고, 그 스키마를 Allotrope Simple Model(ASM)에 매핑하며, SciBite의 CENtree 온톨로지 관리자를 통합해 통제 어휘를 공급합니다. 그 아키텍처는 표준 장들이 묘사한 바로 그 계층 구조입니다 — 밑에 정규화 스키마, 그 위에 교환 모델, 그 곁에 거버넌스된 어휘.
보고된 한 FAIR화(FAIRification) 작업은 약 2년 반에 걸쳐 6,000대가 넘는 기기의 데이터를 ASM으로 변환한 뒤 지식 그래프를 통해 색인하고 제공하는 것을 목표로 삼았습니다 (상용 단계) [1]. 고객은 벤더 자료에서 "상위 25개 제약사(top 25 pharma)"로 익명 처리되어 있습니다. 특정한 정체는 학회 프로그램을 통해서만 떠돌았으므로, 여기서 거명되는 도입 기업은 무엇이든 단정이 아니라 추정으로 다루십시오.
Benchling은 사후가 아니라 데이터를 포착하는 시점에 시맨틱에 접근합니다. 그 Registry는 온톨로지로 뒷받침되는 데이터 포착을 지원하며, SciBite Ontology Entity Registry 앱은 과학자가 기록을 입력하는 순간에 포착된 레코드를 CENtree에 보관된 엔터프라이즈 온톨로지에 정렬합니다 — BioAssay Ontology가 그 실제 예시입니다. 나중의 정리 작업에서 의미를 끼워 맞추는 대신 키보드 앞에서 의미를 포착하는 것이 더 오래 가는 설계입니다.
Benchling은 또한 기기 출력을 ASM으로 변환하는 오픈소스 allotropy Python 라이브러리를 유지합니다 (상용 단계) [2]. 자주 인용되는 "상위 50개 바이오파마의 절반 이상(more than half of the top 50 biopharma)"이라는 수치는 벤더 마케팅이며 그것으로서 읽어야 합니다 — 거버넌스된 온톨로지 배포의 감사된 집계가 아니라, 자가보고된 도달 범위 주장입니다.
나머지 실험실 플랫폼들도 비슷하게 무리를 이룹니다. Revvity Signals One은 공개 또는 맞춤 온톨로지를 끼워 넣는 기능에 더해 시맨틱 검색을 제공합니다 (상용 단계) [3]. Sapio는 Elsevier와 SciBite 콘텐츠를 AI 코사이언티스트(co-scientist)에 통합하지만, 그 "살아 있는 지식 그래프(living knowledge graph)"라는 표현은 형식적 거버넌스에 관한 주장이라기보다 마케팅입니다. Scitara DLX는 ASM-JSON, AnIML, SiLA와 호환되는 벤더 중립적 실험실 데이터 통합 플랫폼입니다.
이 모든 플랫폼에 걸쳐 거명된 제약 최종 고객은 대체로 공개되지 않습니다 — 그 자체가 주목할 만한데, 이는 이 계층의 도입 근거 대부분이 자가보고이며, 자가보고된 도달 범위는 거버넌스된 온톨로지의 깊이와 같지 않다는 뜻이기 때문입니다.
이 계층의 신뢰할 만한 쪽을 하나로 묶는 것은 진정으로 개방된 소수의 닻에 대한 의존입니다 — 기기 데이터 교환 모델로서의 ASM, 어휘 관리자로서의 CENtree, 변환 경로로서 공개된 allotropy 라이브러리. 벤더가 이것들에 기댈 때, "시맨틱" 도구라는 주장은 그 뒤에 검증 가능한 무언가를 갖춥니다. 유일한 근거가 슬라이드 위의 문구뿐이라면, 그것은 그렇지 않습니다.
구매자에게 실질적인 시험은 통제 용어와 스키마 매핑을 플랫폼 바깥에서 내보내고 재사용할 수 있는가입니다 — 다음 도구가 도착할 때 데이터를 이식 가능하게 만드는 것은 마케팅이 아니라 바로 그것이기 때문입니다. 그 시험으로 보면 실험실 계층은 네 계층 가운데 가장 안심되는 곳이며, 이는 적절한 일입니다. 상호운용해야 한다는 가장 진정한 압력을 받는 계층이기도 하기 때문입니다.
제조와 히스토리안: 온톨로지가 아닌 구조화 모델
실험실에서 공장 바닥으로 내려가면 그림이 급격히 바뀝니다. 지배적인 실행 및 히스토리안 플랫폼은 풍부한 시맨틱을 부호화하지만 — OWL/RDF 온톨로지가 아니라 독점 구조화 데이터 모델(proprietary structured data model)로서 그렇게 합니다.
이것이 이 장에서 가장 중요한 단 하나의 구분입니다. 가장 자주 흐려지는 구분이며, 그 흐려짐이 곧 조달 결정이 어긋나는 지점이기 때문입니다. 어떤 모델은 상세하고, 버전 관리되고, 표준에 정렬되어 있으며 전적으로 정확하면서도 여전히 닫혀 있을 수 있습니다 — 그리고 "닫혀 있지만 정확함"은 제조 계층에서 설명을 요하는 예외가 아니라 기본 상태입니다.
Körber Werum PAS-X와 Siemens Opcenter Execution Pharma는 마스터 배치 레코드(Master Batch Record, MBR) 레시피 모델, 재사용 가능한 빌딩 블록, 버전 관리되는 장비 관리를 통해 배치 의미를 전달하며, ISA-95 및 ISA-88 표준을 통해 통합됩니다 (상용 단계) [4]. 이것들은 강력하고 깊이 배포되어 있습니다. PAS-X MBR 안의 레시피는 어떤 OWL 클래스만큼이나 확실하게 파라미터와 결과의 차이를 압니다. 그러나 그 지식은 당신이 가져와 당신 자신의 것과 정렬할 수 있는 형식적 온톨로지가 아니라, 닫힌 구조화 모델 안에 삽니다.
이 구분은 실무에서 날카로운 모서리를 갖습니다. 흔히 떠도는 한 전언은 형식적 "장비 상태 다이어그램(Equipment State Diagram)" 온톨로지 산출물을 PAS-X에 귀속시킵니다. 그러나 그 산출물은 조사된 벤더 출처에서 발견되지 않았으며, 그 출처들은 대신 버전 관리되는 장비 상태 및 수명주기 관리를 문서화합니다.
교훈은 그 틀이 악의적이라는 것이 아니라, 그것이 슬라이드에서는 쉽게, 계약서에서는 나쁘게 일어나는 종류의 격상 — "구조화 장비 모델"에서 "온톨로지"로의 격상 — 이라는 것입니다. 의미는 실재하지만, 형식적이고 내보낼 수 있는 온톨로지는 단지 그 의미가 취하는 형태가 아닐 뿐입니다.
AVEVA PI System(이전 OSIsoft)은 PI Asset Framework(AF)를 통해 공장 시계열 위의 사실상 표준 맥락화 계층을 공급합니다 — 장비 및 공정 계층 구조, 재사용 가능한 템플릿, Asset Analytics, 그리고 배치·교대·정지 구간을 포착하는 시간 한정 이벤트인 Event Frame (상용 단계) [5]. AF는 객체/템플릿에 이벤트 프레임을 더한 모델로, 규제 제약 분야에 널리 배포되어 있으며, 결단코 형식적 시맨틱 웹 온톨로지가 아닙니다.
우리의 진행 중인 배치 BATCH-2026-001이 시계열 트레이스를 내보낼 때, 그 트레이스가 장비 및 공정 맥락을 얻는 곳은 십중팔구 PI AF입니다 — 그러나 그 맥락은 bp:DS-001과 나란히 질의할 수 있는 그래프 속 트리플이 아니라 AF의 모델 안에 삽니다. 그 맥락화는 진정하고 가치 있지만, 시맨틱 스택의 나머지가 번역 없이 읽을 수 있는 형태로는 단지 도착하지 않습니다.
이 계층이 의미를 독점 형태로 붙잡고 있는 이유는 벤더의 고집이 아니라 그것이 섬기는 현장의 본성입니다. 검증된 MES나 히스토리안은 느리게, 엄격한 변경 관리 아래 바뀝니다. 각 변경이 규제 공정 속 기록 시스템(system of record)을 건드리기 때문입니다. 반면 OWL 온톨로지는 편집되고, 정렬되고, 다시 추론되도록 지어집니다. 두 문화는 정반대 방향으로 당기며, 제조 벤더들은 합리적으로 개방성보다 안정성을 택했습니다.
시맨틱 프로그램에 미치는 결과는 구체적입니다. 건물 안에서 가장 풍부하고 가장 신뢰할 만한 운영 의미 — 어떤 장비가 어떤 배치의 어떤 단계를 언제 돌렸는가 — 는 정확히 그것을 트리플로 내보내기를 가장 꺼리는 시스템 안에 자리합니다. 그 간극을 잇는 것은 모델링 문제가 아니라 매핑 문제이며, 우리는 아래에서 그 문제로 돌아옵니다.
| 계층 | 대표 제품 | 실제로 무엇인가 | 성숙도 |
|---|---|---|---|
| 실험실 정보학 | TetraScience, Benchling, Revvity | 형식적 온톨로지 통합 (ASM, CENtree) | 상용 단계 |
| MES / 배치 | Körber PAS-X, Siemens Opcenter | 독점 구조화 레시피/장비 모델 | 상용 단계 |
| 히스토리안 | AVEVA PI Asset Framework | 객체/템플릿에 이벤트 프레임을 더한 모델 | 상용 단계 |
| 엔터프라이즈 그래프 | Palantir, Stardog, Ontotext, Neo4j | 혼합: 진짜 RDF 그래프와 독점 객체 모델 | 상용 단계 (대부분 R&D) |
"조직의 디지털 트윈"과 그래프 데이터베이스
한 계층 위에 엔터프라이즈 그래프가 자리하며, 여기서 OWL/RDF 대 독점이라는 경계선은 범주 한가운데를 곧장 가로지릅니다. "온톨로지(ontology)"라는 같은 단어가 내보낼 수 있는 RDF 산출물과 닫힌 객체 모델을 모두 가리키며 — 마케팅은 당신이 어느 쪽을 보고 있는지를 좀처럼 자발적으로 알려 주지 않습니다.
Palantir Foundry는 자사 핵심 추상을 "Ontology"라 부르며, 객체·속성·링크에 더해 액션과 함수를 통해 데이터셋과 모델을 실세계 객체 — 공장, 장비, 제품, 주문 — 에 바인딩합니다. Palantir는 이를 "조직의 디지털 트윈(a digital twin of the organization)"이라고 틀 짓고, 대략 2023년에서 2025년에 걸쳐 그것은 이 플랫폼 AI 에이전트의 중추가 되었습니다 (상용 단계) [6].
증거에 비추어 그것은 공개된 OWL/RDF 산출물이 아니라 그래프 시맨틱을 갖춘 객체 모델이며, "Ontology"라는 용어는 기술적 의미와 더불어 브랜딩 작업을 하고 있으므로 두 의미를 합쳐서는 안 됩니다. 공개 증거에서 거명된 제약 GxP 제조 Ontology 고객은 발견되지 않았으며 — 문서화된 생명과학 도입 기업은 GMP 현장이 아니라 제조에 인접해 있습니다 — 인기 있는 "Factory 다음 Line 다음 Machine 다음 Part" 계층 구조는 Palantir 자체 문서가 아니라 제3자 분석에서 나온 것이므로, 그 제품 자체의 모델로 인용해서는 안 됩니다.
그래프 데이터베이스는 형식적 시맨틱이 본격적으로 돌아오는 곳이며, 거의 전적으로 R&D에서 그러합니다.
Stardog는 Boehringer Ingelheim을 자사 대표 사례로 거명합니다 — 회사 R&D 데이터의 약 90% 위에 놓인 시맨틱 계층으로, ETL 없는 가상화를 통해 제공됩니다 — 이는 벤더가 보고한 수치입니다 (R&D 한정 상용 단계) [7]. Ontotext GraphDB는 AstraZeneca의 LinkedLifeData 사용과 Roche의 어휘 스택을 뒷받침하며, 벤더는 "선도적 상위 10개 제약사(leading top 10 pharma)"에서의 AI 기반 타깃 발굴 솔루션을 주장합니다 — 그 마지막 수치는 벤더 주장입니다 (AstraZeneca와 Roche에 대해 상용 단계) [8]. Neo4j는 RDF 트리플스토어가 아니라 속성 그래프(property graph) 데이터베이스로서, AstraZeneca의 생물학 지식 그래프와 Novartis/NIBR 그래프를 뒷받침합니다 (R&D에서 상용 단계) [9].
이 계층 안에서 두 가지 구분이 중요합니다. 첫째는 RDF 대 속성 그래프입니다. Stardog와 Ontotext는 원칙적으로 그 내용을 내보낼 수 있고 앞선 장들이 기반으로 삼은 표준에 정렬할 수 있는 RDF/OWL 스토어인 반면, Neo4j의 속성 그래프 모델은 표현력이 풍부하고 빠르지만 네이티브 RDF가 아니므로, 그 "지식 그래프"는 표준의 의미에서 상호운용 가능해지려면 매핑이 필요한 다른 산출물입니다.
둘째 구분은 그 배포가 실제로 어디에 사는가입니다. 그 패턴은 분명합니다. 진정으로 시맨틱한 배포는 질문이 탐색적이고 데이터가 이미 이질적인 발굴과 연구에 몰려 있습니다 — 시스템이 검증되고, 스키마가 동결되고, 변경이 값비싼 GMP 실행 현장이 아니라. 따라서 이 플랫폼 중 하나를 제조용으로 평가하는 구매자는 R&D 증거로부터 외삽하는 것이며, R&D 사례 연구가 GMP 사례를 대신하게 두기보다 그 사실을 소리 내어 말해야 합니다.
하나의 배치, 네 개의 상자: 우리의 진행 중인 예시는 실제로 어디에 사는가
이 책 자체의 예시를 지형 전체에 걸쳐 따라가 보는 것이 도움이 됩니다. 추상적으로가 아니라 구체적으로 그 간극을 보여 주기 때문입니다.
앞선 장들이 모델링한 산출물 — 작업 세포은행 WCB-CHO-001, 생산 실행 BATCH-2026-001, 원료의약품 DS-001 — 을 떠올리고, 각각에 대해 이 네 상자 중 어느 것이 작동하는 공장에서 실제 데이터를 담고 있는지 물어봅시다. 답은 좀처럼 "하나의 상자"가 아니며, 바로 그것이 어려움 전체의 축소판입니다.
세포은행과 시험법 레코드는 실험실 계층에서 비롯되며, 거기서 그것들은 포착 시점에 진정으로 온톨로지에 정렬될 수도 있습니다 — CENtree 용어에 묶인 Benchling 레지스트리 항목, ASM으로 정규화된 기기 결과.
여기서 시맨틱은 형식적이며, bp:WCB-CHO-001은 기록되는 순간부터 정직한 타입을 그럴듯하게 지닐 수 있습니다. 이것은 이 책의 이상화된 모델과 상업적 현실이 일치에 가장 가깝게 다가서는 유일한 상자입니다.
생산 단계는 MES에 살며, 거기서 BATCH-2026-001의 레시피, 파라미터, 장비 사용은 PAS-X 또는 Opcenter MBR에 부호화됩니다 — 풍부하고, 정확하며, 닫혀 있습니다.
그 단계 뒤의 시계열은 히스토리안에 살며, PI AF에 의해 장비 및 이벤트 프레임 구조로 맥락화됩니다. 둘 다 실재하는 의미로, 자기 일을 잘 해내는 성숙한 시스템이 포착한 것입니다. 어느 쪽도 RDF가 아니며, 그래서 어느 쪽도 매핑 없이는 계보 그래프에 합류하지 못합니다.
출하 및 계보 뷰 — 이 책이 가장 원하는 것, 즉 bp:DS-001이 bp:WCB-CHO-001로부터 추이적으로 파생되는 그래프 — 는 그래프 형태로 존재하기는 한다면, 오늘날 대부분 R&D 색채의 엔터프라이즈 그래프 계층에 존재합니다.
결론은 스스로 적힙니다. 데이터는 전부 존재합니다. 다만 같은 형식 언어를 쓰지 않는 상자들에 흩어져 있을 뿐이며, 각각은 자기 방언에 유창하고 다른 것에는 귀가 먹었습니다. 그것들 사이에 가로놓인 유일한 것은 번역 계층이며 — 바로 그것이 다음 절이 다루는 이음매입니다.
누구도 광고하지 않는 다리: 구조화 데이터를 RDF로 끌어들이기
시맨틱 계층은 누군가 다시 키보드로 입력하지 않고도 어떻게 관계형 데이터베이스와 히스토리안에 사는 데이터 위에 놓일까요? 답은 매핑이며, 그것은 스택 전체에서 가장 덜 논의되는 이음매입니다 — 화려하지 않기 때문에, 그리고 그것이 존재함을 인정하는 일이 그래프가 기록 시스템이 아님을 인정하는 일이기 때문에 정확히 덜 논의됩니다.
R2RML — W3C의 RDB-투-RDF 매핑 언어 — 와 그 더 일반적인 RML 확장은, 데이터베이스 테이블이 어떻게 RDF 트리플이 되는지를 기계 판독 가능한 규칙으로 선언합니다 [10]. 그 트리플은 스토어에 구체화(materialize)되거나, 데이터가 결코 이동하지 않도록 가상으로 질의될 수 있습니다. 하루는 LIMS 테이블을 그래프로 바꾸는 동일한 매핑이 다음 날 새 LIMS를 가리키도록 재지정될 수 있으며, 바로 그것이 매핑이 오래 가는 자산이고 그것을 둘러싼 플랫폼은 흔히 그렇지 않은 이유입니다.
이것이 모든 "가상화"와 "ETL 없음" 주장 뒤에 있는 실제 기계입니다. 구조화 데이터 공장 — PI, MES, LIMS — 이 마이그레이션이 아니라 매핑 파일을 통해 시맨틱 계층에 데이터를 공급합니다. 실제 공장이 우리의 bp:DS-001 뒤에 두는 IDMP 물질 식별자, 그 MES의 로트 번호, 그 히스토리안의 시계열 태그 — 이 모두는 정확히 이 이음매를 통해 그래프에 닿거나, 아예 닿지 못합니다.
따라서 매핑 파일이야말로 "지식 그래프"가 실제로 얼마나 개방적인지를 가늠하는 참된 척도입니다. 벤더가 R2RML 또는 RML을 당신에게 건네주고 당신 자신의 스토어를 가리키게 해 준다면, 당신은 그 다리를 소유하고 어디서든 그래프를 다시 지을 수 있습니다. 매핑이 내부적이고 문서화되지 않았다면, 그 그래프는 그들의 것이며 당신은 그들의 파이프를 통해 당신 자신의 데이터에 대한 접근을 임차하고 있는 것입니다. 이것은 조사 전체에서 가장 결정에 직결되는 질문이지만, 슬라이드에는 거의 결코 오르지 않습니다. 구매자를 보호하는 답이 곧 벤더를 가장 덜 돋보이게 하는 답이기 때문입니다.
미해결 과제: 슬라이드 위의 그래프는 거버넌스된 온톨로지가 아니다
벤더 슬라이드 위의 지식 그래프(knowledge graph)라는 단어는 형식적이고 거버넌스된 온톨로지의 증거가 아닙니다. 출시되는 것의 상당 부분은 그래프 겉치레를 두른 독점 객체 모델이며, 가장 목청 높은 도입 수치들 — "상위 50개의 절반 이상", "선도적 상위 10개 제약사", "R&D 데이터의 90%" — 은 자가보고되었고 감사되지 않았습니다.
이 주장들 중 어느 것도 조사된 공개 자료에서 독립적 증거에 대조해 검증할 수 없었으며, 거명된 여러 제약 도입 기업은 독립적으로 공개된 배포가 아니라 벤더 사례 연구나 학회 프로그램에만 등장합니다. 그렇다고 그것들이 거짓이 되는 것은 아닙니다. 그것들은 확인되지 않은 것이 되며, 확인되지 않은 벤더 수치에 대한 정직한 자세는 그것을 출처를 붙여 되풀이하되 아무것에도 의지하지 않는 것입니다.
진정으로 시맨틱한 계층은 R&D 정보학에서, 그리고 카탈로그 및 어휘 도구에서 실재합니다. 형식적 OWL/RDF로서 그것은, 가용한 공개 증거에 비추어 GMP 실행 현장에는 부재합니다 — 정확히 이 책의 제조 배치가 사는 그곳에.
그 간극은 어느 한 벤더의 실패가 아니라 시장의 미해결 상태입니다. 공장은 슬라이드가 그것을 닫았다고 가정하기보다 그것을 둘러싸고 계획해야 합니다 — 실무에서 이는 매핑 계층을 위한 예산을 잡고, 매핑을 산출물로 요구하며, 제조 현장의 검증되지 않은 "지식 그래프"는 이미 사 놓은 기능이 아니라 엔지니어링해야 할 목표로 다루는 것을 뜻합니다.
왜 중요한가
도구를 고르는 공장은 브랜딩 너머를 읽고 하나의 구체적인 질문을 던져야 합니다. 이 제품은 내게 거버넌스되고 가져올 수 있는 온톨로지를 건네는가, 아니면 내가 나중에 다시 매핑해 낼 닫힌 모델을 건네는가? 그 답은 WCB-CHO-001을 BATCH-2026-001을 거쳐 DS-001로 잇는 디지털 스레드를 하나의 그래프로서 추론할 수 있을지, 아니면 그것이 각각 따로는 정확하나 경계를 넘어서는 벙어리인 십수 개의 독점 스키마 안에 갇힌 채로 남을지를 결정합니다.
R2RML/RML 매핑 계층은 바로 그 다리의 비용을 정하는 것입니다 — 데이터가 내보내기를 염두에 두고 모델링되었다면 저렴하고, 그렇지 않았다면 가혹합니다. 매핑을 산출물로 다루는 벤더는 당신이 들고 떠날 수 있는 모델을 파는 것이고, 매핑을 영업 비밀로 다루는 벤더는 당신이 그 안에만 머물 수 있는 모델을 파는 것입니다.
따라서 시맨틱을 위해 산다는 것은 데모만이 아니라 출구를 위해 산다는 뜻입니다. 질문은 결코 무대 위에서 그래프가 얼마나 좋아 보이는가가 아니라, 당신이 자기 몫을 문밖으로 들고 나갈 수 있는가입니다 — 그리고 그것은, 관련된 모든 시스템을 소유한 단일 회사에게조차 어렵다는 사실을 다음 장이 보여 줍니다.
핵심 용어
- OWL/RDF 온톨로지(OWL/RDF ontology) — 개방형 표준으로 표현된, 명시적이고 기계 검증 가능한 시맨틱을 갖춘 모델로, 내보내고 다른 온톨로지와 정렬하며 추론할 수 있습니다.
- 독점 구조화 데이터 모델(proprietary structured data model) — 실재하는 의미를 담지만 닫혀 있어 형식적 온톨로지로 직접 가져올 수 없는, 벤더의 내부 스키마(레시피, 자산 템플릿, 객체 타입).
- 중간 데이터 스키마(Intermediate Data Schema, IDS) — 정규화된 기기 데이터를 위한 TetraScience의 개방형 스키마로, 이후 Allotrope Simple Model에 매핑됩니다.
- PI Asset Framework(AF) — 공장 시계열을 맥락화하는 AVEVA의 객체/템플릿에 이벤트 프레임을 더한 계층으로, 규제 제약 분야에 널리 배포되어 있으나 시맨틱 웹 온톨로지는 아닙니다.
- Event Frame — 배치, 교대, 정지 구간 같은 시간 한정 이벤트를 표현하는 PI AF 구성요소입니다.
- 마스터 배치 레코드(Master Batch Record, MBR) — 배치 절차 시맨틱을 독점 구조화 모델로 부호화하는, PAS-X 같은 MES 플랫폼의 레시피 모델입니다.
- 조직의 디지털 트윈(digital twin of the organization) — 데이터와 로직을 실세계 개체에 바인딩하는 객체 모델에 대한 Palantir의 틀로, 강력하지만 공개된 OWL/RDF 산출물이 아니라 객체 모델입니다.
- R2RML / RML — W3C의 RDB-투-RDF 매핑 언어와 그 확장으로, 관계형 테이블이 어떻게 RDF 트리플이 되는지를 구체화하거나 가상으로 질의되도록 선언합니다.
다음 이야기
벤더는 부품을 팝니다. 다음 장은 단일 대형 제약 회사가 그 부품들을 하나의 일관된 직물로 조립하려 할 때 무슨 일이 벌어지는지를 묻습니다. 빅파마의 엔터프라이즈 지식 그래프는 시맨틱 계층을 데모 바깥으로, 수백 개의 시스템과 수십 년의 레거시 데이터, 그리고 어떤 매핑 파일 하나로도 풀 수 없는 거버넌스 문제를 안은 엔터프라이즈의 어수선한 현실 속으로 따라갑니다.