플랫폼: 벤더는 시맨틱을 어떻게 파는가

📍 현재 위치: 제8부 · 오늘날 산업 현장의 온톨로지. 표준과 어휘는 실재하며, 우리는 그것들을 처음부터 끝까지 두루 살펴보았습니다. 이제 공장이 실제로 마주하는 현실적인 질문을 던집니다. 소프트웨어를 살 때, 당신이 손에 넣는 것은 무엇인가?

앞선 장들은 어휘가 존재한다는 사실을 확립했습니다 — 맨 위의 BFO, 중간의 IOF Core, 그 아래 물질과 공정을 위한 도메인 용어들. 그러나 표준은 제품이 아닙니다. 공장은 온톨로지를 내려받아 그 위에서 돌아가지 않습니다. 공장은 플랫폼을 구매하며, 그 플랫폼들은 상자에 시맨틱(semantics)이라는 단어를 찍은 채 도착합니다. 영업 자료에 등장하는 모든 벤더는 "지식 그래프(knowledge graph)"가 잘 팔린다는 사실을 발견했고, 그래서 이 단어는 이제 서로 전혀 다른 것을 의미하는 제품들마다 장식처럼 붙어 있습니다.

이 장이 풀어내는 질문은, 상자 안에 든 것이 당신이 가져와 추론할 수 있는 형식적이고 거버넌스된 온톨로지인지, 아니면 뚜껑에 그래프 하나를 그려 넣은 독점 데이터 모델인지입니다. 이 구분은 현학적인 트집이 아닙니다.

두 제품이 같은 슬라이드에서 똑같이 지식 그래프(knowledge graph)를 표방하면서도 전혀 다른 것을 뜻할 수 있습니다 — 하나는 당신이 내보내고(export) 정렬하고(align) 추론할 수 있는 OWL/RDF 그래프이고, 다른 하나는 그 "그래프"가 질의 편의에 불과한 닫힌 객체 모델입니다. 서명하기 전에 둘을 구별하는 것은, 당신이 소유하는 모델과 통합 예산을 이미 다 쓴 뒤에 나중에 역설계하게 될 모델 사이의 차이입니다. 뒤따르는 조사는 이 단 하나의 구별을 축으로 삼아, 그것을 자신이 거명하는 모든 제품에 정직하게 적용합니다.

쉽게 말하면

가구를 사러 갔다고 상상해 봅시다. 어떤 가게는 목재와 표준화된 접합 부품을 팝니다. 집에 가져가 다른 어느 가게의 나무와도 결합해 원하는 것을 무엇이든 만들 수 있습니다. 다른 가게는 자기네 열쇠로만 열리고 자기네 다른 장식장에만 맞는 아름다운 장식장을 팝니다. 두 가게 모두 "모듈식"이라고 말합니다. 그러나 어디서든 작동하는 부품을 들고 나갈 수 있게 해 주는 곳은 한 곳뿐입니다. 바이오공정 소프트웨어를 사는 일도 마찬가지입니다 — 어떤 벤더는 개방적이고 이식 가능한 모델을 건네주고, 다른 벤더는 화려하게 닫힌 상자를 건넵니다. 그 장식장이 정확히 당신에게 필요한 물건일 수도 있습니다. 다만 당신은 자신이 어느 쪽을 사고 있는지 알아야 합니다.

이 장에서 다루는 내용

우리는 네 개의 층에 걸쳐 상업 지형을 조사하며, 그 전반에 하나의 시험을 적용합니다. 이것이 형식적 OWL/RDF 온톨로지(OWL/RDF ontology) — 내보내고 정렬할 수 있는, 명시적이고 기계 검증 가능한 시맨틱을 갖춘 모델 — 인가, 아니면 지식 그래프(knowledge graph) 라벨을 브랜딩으로 두른 독점 구조화 데이터 모델(proprietary structured data model)인가? 이 책에서 온톨로지(ontology)란 한 도메인 안의 사물들과 그것들이 어떻게 관계 맺는지에 대한 공유된 형식적 어휘이며, OWL(Web Ontology Language)과 RDF(Resource Description Framework)는 그것을 기술하는 개방형 W3C 표준이고, RDF는 사실을 트리플(triple)이라 불리는 단순한 주어–술어–목적어 진술로 기록합니다. 여기서 그래프(graph)는 도표가 아니라 그처럼 연결된 진술들의 그물망이며, 기계 검증 가능한 시맨틱(machine-checkable semantics)이란 컴퓨터가 단지 행을 저장하는 데 그치지 않고 모델로부터 새 사실을 도출하고 규칙을 어기는 것을 표시할 수 있음을 뜻하고, 두 온톨로지를 정렬한다(align)는 것은 한쪽 용어가 다른 쪽 용어와 같은 것을 의미하는 지점을 선언해 둘을 함께 질의할 수 있게 만드는 것입니다. (전체 목록은 끝의 핵심 용어에 모아 두었습니다.)

우리는 실험실 정보학 플랫폼 — 여기서는 시맨틱이 진정으로 형식적입니다 — 을 살펴보고, 제조 실행(MES)과 히스토리안 시스템(여기서 히스토리안(historian)은 사람이 아니라 모든 공장 센서 판독값을 기록하는 시계열 데이터베이스입니다) — 여기서는 시맨틱이 풍부하지만 닫혀 있습니다 — 을 살펴보며, "조직의 디지털 트윈(digital twin of the organization)"이라는 틀과 엔터프라이즈 시맨틱 계층 아래의 그래프 데이터베이스 — 여기서는 범주가 한가운데서 둘로 갈립니다 — 를 살펴봅니다. 마지막으로 누구도 광고하지 않는 화려하지 않은 다리 — 관계형 및 히스토리안 데이터를 트리플로 바꾸는 매핑 기계 — 를 살펴봅니다.

전반에 걸쳐 우리는 각 주장을 성숙도별로 (상용 단계/파일럿 단계/제안 단계/학술 단계)로 표시합니다 — 상용 단계(production)는 출시되어 실제 배포 환경에서 쓰임을, 파일럿 단계(piloted)는 제한된 환경에서 시범 운영됨을, 제안 단계(proposed)는 발표되거나 설계되었으나 아직 배포되지 않음을, 학술 단계(academic)는 산업이 아니라 연구에서 시연됨을 뜻합니다 — 그리고 벤더 마케팅은 정확히 그것으로서 표시합니다. 특히 우리는 형식적 OWL/RDF 온톨로지를 구조화 데이터 모델 또는 독점 데이터 모델과 혼동하지 않도록 주의합니다. 바로 그 혼동이야말로 마케팅이 부추기는 것이며, 이 장 전체가 존재하는 이유가 그것을 바로잡기 위함이기 때문입니다.

색 = 상자 안에 든 것: 초록은 정식 온톨로지, 호박색과 청록은 독점 모델, 보라는 혼합 계층 — 닫힌 MES와 히스토리안 계층만이 그래프에 닿기 위해 R2RML/RML 매핑 다리를 필요로 한다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

실험실 정보학: 시맨틱이 실재하는 곳

과학 데이터와 실험실 정보학 계층은 진정으로 시맨틱한 도구가 가장 단단히 발을 디딘 곳입니다 — 이 계층이 R&D(연구개발, research and development)에 가장 가깝게 자리하기 때문입니다. R&D에서는 이질적인 기기 데이터 — 저마다 자기만의 형식을 가진 수많은 서로 다른 기기에서 나온 판독값 — 와 외부 어휘가 늘 문제였습니다.

크로마토그래피 시스템, 플레이트 리더, 질량분석기는 저마다 자기만의 방언을 씁니다. 이 셋 모두에 걸쳐 하나의 질문을 던지는 유일한 방법은 그것들을 공유 모델 위에 매핑하는 것입니다. 표준 위원회를 기다릴 수 없는 과학자들이 매일같이 느끼는 그 압력이, 이 계층에서 라벨만이 아닌 진짜 온톨로지 통합을 만들어 냈습니다.

TetraScience는 Tetra Scientific Data Cloud를 운영합니다. 이 클라우드는 원시 기기 출력을 개방형 중간 데이터 스키마(Intermediate Data Schema, IDS) — 그 출력을 위한 공통의, 벤더 중립적 구조 — 로 변환하고, 그 스키마를 Allotrope Simple Model(ASM, 분석 실험실 데이터를 위한 업계 표준 형식)에 매핑하며, SciBite의 CENtree 온톨로지 관리자를 통합해 통제 어휘(controlled terminology) — 모두가 같은 것을 같은 이름으로 부르도록 승인되고 거버넌스된 용어 목록 — 를 공급합니다. SciBite는 생명과학 시맨틱 벤더이고, CENtree는 그러한 어휘를 저장하고 제공하는 그 도구, 곧 온톨로지 관리자(ontology manager)입니다. 그 아키텍처는 표준 장들이 묘사한 바로 그 계층 구조입니다 — 밑에 정규화 스키마, 그 위에 교환 모델, 그 곁에 거버넌스된 어휘.

보고된 한 FAIR화(FAIRification) 작업 — FAIR는 데이터를 찾을 수 있고(Findable), 접근 가능하며(Accessible), 상호운용 가능하고(Interoperable), 재사용 가능하게(Reusable) 만드는 목표이므로, FAIR화란 어수선한 데이터를 그처럼 잘 기술된 재사용 가능한 형태로 변환하는 작업입니다 — 은 약 2년 반에 걸쳐 6,000대가 넘는 기기의 데이터를 ASM으로 변환한 뒤 지식 그래프를 통해 색인하고 제공하는 것을 목표로 삼았습니다 (상용 단계) [1]. 고객은 벤더 자료에서 "상위 25개 제약사(top 25 pharma)"(매출 기준 가장 큰 25개 제약 회사 가운데 하나를 가리키는 업계 약칭)로 익명 처리되어 있습니다. 특정한 정체는 학회 프로그램을 통해서만 떠돌았으므로, 여기서 거명되는 도입 기업은 무엇이든 단정이 아니라 추정으로 다루십시오.

Benchling은 사후가 아니라 데이터를 포착하는 시점에 시맨틱에 접근합니다. 그 Registry는 온톨로지로 뒷받침되는 데이터 포착을 지원하며, SciBite Ontology Entity Registry 앱은 과학자가 기록을 입력하는 순간에 포착된 레코드를 CENtree에 보관된 엔터프라이즈 온톨로지에 정렬합니다 — BioAssay Ontology가 그 실제 예시입니다. 나중의 정리 작업에서 의미를 끼워 맞추는 대신 키보드 앞에서 의미를 포착하는 것이 더 오래 가는 설계입니다.

Benchling은 또한 기기 출력을 ASM으로 변환하는 오픈소스 allotropy Python 라이브러리를 유지합니다 (상용 단계) [2]. 자주 인용되는 "상위 50개 바이오파마의 절반 이상(more than half of the top 50 biopharma)"이라는 수치는 벤더 마케팅이며 그것으로서 읽어야 합니다 — 거버넌스된 온톨로지 배포의 감사된 집계가 아니라, 자가보고된 도달 범위 주장입니다.

나머지 실험실 플랫폼들도 비슷하게 무리를 이룹니다. Revvity Signals One은 공개 또는 맞춤 온톨로지를 끼워 넣는 기능에 더해 시맨틱 검색(semantic search) — 입력한 정확한 단어만이 아니라, 온톨로지를 이용해 관련 개념을 찾아 의미로 매칭하는 검색 — 을 제공합니다 (상용 단계) [3]. Sapio는 Elsevier와 SciBite 콘텐츠를 AI 코사이언티스트(co-scientist)에 통합하지만, 그 "살아 있는 지식 그래프(living knowledge graph)"라는 표현은 형식적 거버넌스에 관한 주장이라기보다 마케팅입니다. Scitara DLX는 ASM-JSON, AnIML, SiLA — 세 가지 개방형 실험실 데이터 표준(ASM의 JSON 인코딩, 분석 정보 마크업 언어 AnIML, 그리고 기기 연결 표준 SiLA) — 와 호환되는 벤더 중립적 실험실 데이터 통합 플랫폼입니다. 따라서 호환된다는 것은 기기 출력이 다른 도구가 읽을 수 있는 형태로 그 플랫폼을 떠날 수 있음을 뜻합니다.

이 모든 플랫폼에 걸쳐 거명된 제약 최종 고객은 대체로 공개되지 않습니다 — 그 자체가 주목할 만한데, 이는 이 계층의 도입 근거 대부분이 자가보고이며, 자가보고된 도달 범위는 거버넌스된 온톨로지의 깊이와 같지 않다는 뜻이기 때문입니다.

이 계층의 신뢰할 만한 쪽을 하나로 묶는 것은 진정으로 개방된 소수의 닻에 대한 의존입니다 — 기기 데이터 교환 모델로서의 ASM, 어휘 관리자로서의 CENtree, 변환 경로로서 공개된 allotropy 라이브러리. 벤더가 이것들에 기댈 때, "시맨틱" 도구라는 주장은 그 뒤에 검증 가능한 무언가를 갖춥니다. 유일한 근거가 슬라이드 위의 문구뿐이라면, 그것은 그렇지 않습니다.

구매자에게 실질적인 시험은 통제 용어와 스키마 매핑을 플랫폼 바깥에서 내보내고 재사용할 수 있는가입니다 — 다음 도구가 도착할 때 데이터를 이식 가능하게 만드는 것은 마케팅이 아니라 바로 그것이기 때문입니다. 그 시험으로 보면 실험실 계층은 네 계층 가운데 가장 안심되는 곳이며, 이는 적절한 일입니다. 상호운용해야 한다는 가장 진정한 압력을 받는 계층이기도 하기 때문입니다.

제조와 히스토리안: 온톨로지가 아닌 구조화 모델

실험실에서 공장 바닥으로 내려가면 그림이 급격히 바뀝니다. 지배적인 실행 및 히스토리안 플랫폼은 풍부한 시맨틱을 부호화하지만 — OWL/RDF 온톨로지가 아니라 독점 구조화 데이터 모델(proprietary structured data model)로서 그렇게 합니다. (여기서 히스토리안(historian)은 사람이 아니라 모든 공장 센서 판독값을 시간에 걸쳐 기록하는 전용 데이터베이스 — 각 실행의 온도, 압력, 유량 트레이스 — 이고, 실행(execution) 플랫폼 곧 MES(제조 실행 시스템, Manufacturing Execution System)는 현장에서 생산 배치의 단계들을 구동하고 기록하는 소프트웨어입니다.)

이것이 이 장에서 가장 중요한 단 하나의 구분입니다. 가장 자주 흐려지는 구분이며, 그 흐려짐이 곧 조달 결정이 어긋나는 지점이기 때문입니다. 어떤 모델은 상세하고, 버전 관리되고, 표준에 정렬되어 있으며 전적으로 정확하면서도 여전히 닫혀 있을 수 있습니다 — 그리고 "닫혀 있지만 정확함"은 제조 계층에서 설명을 요하는 예외가 아니라 기본 상태입니다.

Körber Werum PAS-X와 Siemens Opcenter Execution Pharma는 마스터 배치 레코드(Master Batch Record, MBR) 레시피 모델(그 실행의 모든 단계, 물질, 파라미터를 명시하는 마스터 템플릿), 재사용 가능한 빌딩 블록, 버전 관리되는 장비 관리를 통해 배치 — 배치(batch)란 제품의 한 차례 생산 실행 — 의미를 전달하며, ISA-95 및 ISA-88 표준 — 각각 공장 현장 시스템이 그 위의 비즈니스 시스템과 데이터를 어떻게 교환하는지(ISA-95)와 배치 레시피가 어떻게 구조화되는지(ISA-88)에 관한 두 ISA 표준 — 을 통해 통합됩니다 (상용 단계) [4]. 이것들은 강력하고 깊이 배포되어 있습니다. PAS-X MBR 안의 레시피는 어떤 OWL 클래스만큼이나 확실하게 파라미터와 결과의 차이를 압니다. 그러나 그 지식은 당신이 가져와 당신 자신의 것과 정렬할 수 있는 형식적 온톨로지가 아니라, 닫힌 구조화 모델 안에 삽니다.

이 구분은 실무에서 날카로운 모서리를 갖습니다. 흔히 떠도는 한 전언은 형식적 "장비 상태 다이어그램(Equipment State Diagram)" 온톨로지 산출물을 PAS-X에 귀속시킵니다. 그러나 그 산출물은 조사된 벤더 출처에서 발견되지 않았으며, 그 출처들은 대신 버전 관리되는 장비 상태 및 수명주기 관리를 문서화합니다.

교훈은 그 틀이 악의적이라는 것이 아니라, 그것이 슬라이드에서는 쉽게, 계약서에서는 나쁘게 일어나는 종류의 격상 — "구조화 장비 모델"에서 "온톨로지"로의 격상 — 이라는 것입니다. 의미는 실재하지만, 형식적이고 내보낼 수 있는 온톨로지는 단지 그 의미가 취하는 형태가 아닐 뿐입니다.

AVEVA PI System(이전 OSIsoft)은 PI Asset Framework(AF)를 통해 공장 시계열 위의 사실상 표준 맥락화 계층을 공급합니다 — 장비 및 공정 계층 구조, 재사용 가능한 템플릿, Asset Analytics, 그리고 배치·교대·정지 구간을 포착하는 시간 한정 이벤트인 Event Frame (상용 단계) [5]. AF는 객체/템플릿에 이벤트 프레임을 더한 모델로, 규제 제약 분야에 널리 배포되어 있으며, 결단코 형식적 시맨틱 웹 온톨로지가 아닙니다.

우리의 진행 중인 배치 BATCH-2026-001이 시계열 트레이스를 내보낼 때, 그 트레이스가 장비 및 공정 맥락을 얻는 곳은 십중팔구 PI AF입니다 — 그러나 그 맥락은 bp:DS-001과 나란히 질의할 수 있는 그래프 속 트리플이 아니라 AF의 모델 안에 삽니다. 그 맥락화는 진정하고 가치 있지만, 시맨틱 스택의 나머지가 번역 없이 읽을 수 있는 형태로는 단지 도착하지 않습니다.

구체적으로: 태그(tag) BR101.Temp.PV — 히스토리안 태그란 한 센서 스트림의 이름 붙은 채널로, 여기서는 생물반응기 BR101 온도의 공정 값(process value)(.PV) — 는 AF 요소 템플릿(element template)(PI AF의 재사용 가능한 장비 청사진)이 그것을 자산 bp:BR-101에 바인딩해 — 곧 그 자산의 속성으로 붙여 — 주고 Event Frame이 실행의 단계들 — 성장(growth) 단계, 그다음 생산(production) 단계(이 책이 출하하는 동반 그래프의 bp:CCP-001-growth, bp:CCP-001-production, 두 세포 배양 공정 단계) — 로 찍어 주기 전까지는 헐벗은 숫자에 불과합니다. 그 맥락이 있어야만 히스토리안은 "BATCH-2026-001의 생산 단계 동안 배양 온도는 얼마였는가?"에 답할 수 있으며 — 그것을 가능하게 하는 구조는 MES 마스터 배치 레코드가 담고 있는 바로 그 ISA-88 절차 모델(배치 다음 단위 절차 다음 작업 다음 단계)이고, 이것이 어느 쪽도 RDF로 내보내지 않으면서도 히스토리안과 MES 계층이 실행을 호환 가능한 용어로 기술하는 이유입니다.

이 계층이 의미를 독점 형태로 붙잡고 있는 이유는 벤더의 고집이 아니라 그것이 섬기는 현장의 본성입니다. 검증된 MES나 히스토리안은 느리게, 엄격한 변경 관리 아래 바뀝니다. 각 변경이 규제 공정 속 기록 시스템(system of record)을 건드리기 때문입니다. 반면 OWL 온톨로지는 편집되고, 정렬되고, 다시 추론되도록 지어집니다. 두 문화는 정반대 방향으로 당기며, 제조 벤더들은 합리적으로 개방성보다 안정성을 택했습니다.

시맨틱 프로그램에 미치는 결과는 구체적입니다. 건물 안에서 가장 풍부하고 가장 신뢰할 만한 운영 의미 — 어떤 장비가 어떤 배치의 어떤 단계를 언제 돌렸는가 — 는 정확히 그것을 트리플로 내보내기를 가장 꺼리는 시스템 안에 자리합니다. 그 간극을 잇는 것은 모델링 문제가 아니라 매핑 문제이며, 우리는 아래에서 그 문제로 돌아옵니다.

계층	대표 제품	실제로 무엇인가	성숙도
실험실 정보학	TetraScience, Benchling, Revvity	형식적 온톨로지 통합 (ASM, CENtree)	상용 단계
MES / 배치	Körber PAS-X, Siemens Opcenter	독점 구조화 레시피/장비 모델	상용 단계
히스토리안	AVEVA PI Asset Framework	객체/템플릿에 이벤트 프레임을 더한 모델	상용 단계
엔터프라이즈 그래프	Palantir, Stardog, Ontotext, Neo4j	혼합: 진짜 RDF 그래프와 독점 객체 모델	상용 단계 (대부분 R&D)

"조직의 디지털 트윈"과 그래프 데이터베이스

한 계층 위에 엔터프라이즈 그래프가 자리하며, 여기서 OWL/RDF 대 독점이라는 경계선은 범주 한가운데를 곧장 가로지릅니다. "온톨로지(ontology)"라는 같은 단어가 내보낼 수 있는 RDF 산출물과 닫힌 객체 모델을 모두 가리키며 — 마케팅은 당신이 어느 쪽을 보고 있는지를 좀처럼 자발적으로 알려 주지 않습니다.

Palantir Foundry는 자사 핵심 추상을 "Ontology"라 부르며, 객체·속성·링크에 더해 액션과 함수를 통해 데이터셋과 모델을 실세계 객체 — 공장, 장비, 제품, 주문 — 에 바인딩합니다. Palantir는 이를 "조직의 디지털 트윈(a digital twin of the organization)"이라고 틀 짓고, 대략 2023년에서 2025년에 걸쳐 그것은 이 플랫폼 AI 에이전트의 중추가 되었습니다 (상용 단계) [6].

증거에 비추어 그것은 공개된 OWL/RDF 산출물이 아니라 그래프 시맨틱을 갖춘 객체 모델이며, "Ontology"라는 용어는 기술적 의미와 더불어 브랜딩 작업을 하고 있으므로 두 의미를 합쳐서는 안 됩니다. 공개 증거에서 거명된 제약 GxP 제조 Ontology 고객은 발견되지 않았으며 — GxP는 의약품 제조를 규율하는 "우수 실천(Good Practice)" 규정 전반을 아우르는 우산 용어이고, GMP(우수 제조 관리 기준, Good Manufacturing Practice)는 그 생산 현장 일원입니다 — 문서화된 생명과학 도입 기업은 GMP 현장이 아니라 제조에 인접해 있습니다 — 인기 있는 "Factory 다음 Line 다음 Machine 다음 Part" 계층 구조는 Palantir 자체의 Foundry Ontology 문서가 아니라 제3자 분석에 등장하므로 [6], 그 제품 자체의 모델로 인용해서는 안 됩니다.

그래프 데이터베이스는 형식적 시맨틱이 본격적으로 돌아오는 곳이며, 거의 전적으로 R&D에서 그러합니다.

Stardog는 Boehringer Ingelheim을 자사 대표 사례로 거명합니다 — 회사 R&D 데이터의 약 90% 위에 놓인 시맨틱 계층으로, 가상화(virtualization)(원천 데이터를 이미 있는 자리에서 질의하는 것)를 통해 ETL(추출·변환·적재, Extract, Transform, Load: 원천 시스템에서 데이터를 복사해 내어 다시 빚고 새 스토어로 적재하는 통상의 작업) 없이 제공됩니다 — 이는 벤더가 보고한 수치입니다 (R&D 한정 상용 단계) [7]. Ontotext GraphDB는 AstraZeneca의 LinkedLifeData 사용과 Roche의 어휘 스택을 뒷받침하며, 벤더는 "선도적 상위 10개 제약사(leading top 10 pharma)"에서의 AI 기반 타깃 발굴 솔루션을 주장합니다 — 그 마지막 수치는 벤더 주장입니다 (AstraZeneca와 Roche에 대해 상용 단계) [8]. Neo4j는 RDF 트리플스토어가 아니라 속성 그래프(property graph) 데이터베이스로서, AstraZeneca의 생물학 지식 그래프와 Novartis/NIBR 그래프를 뒷받침합니다 (R&D에서 상용 단계) [9].

이 계층 안에서 두 가지 구분이 중요합니다. 첫째는 RDF 대 속성 그래프 — 그래프를 저장하는 두 가지 다른 방식 — 입니다. RDF는 그것을 어떤 RDF 도구든 읽을 수 있는 표준 트리플로 담는 반면, 속성 그래프(property graph)는 노드와 간선이 저마다 자기 속성을 지니도록 벤더 자신의 모델에 저장합니다(둘 다의 형식적 정의는 몇 문단 아래에서 이어집니다). Stardog와 Ontotext는 원칙적으로 그 내용을 내보낼 수 있고 앞선 장들이 기반으로 삼은 표준에 정렬할 수 있는 RDF/OWL 스토어인 반면, Neo4j의 속성 그래프 모델은 표현력이 풍부하고 빠르지만 네이티브 RDF가 아니므로, 그 "지식 그래프"는 표준의 의미에서 상호운용 가능해지려면 매핑이 필요한 다른 산출물입니다. 속성 그래프는 Neo4j의 neosemantics(n10s) 플러그인 같은 도구나 RDF-star로의 내보내기를 통해 RDF에 닿으며, 그 다리를 유지하는 비용은 히스토리안과 MES 계층이 내는 바로 그 되풀이되는 세금과 같습니다 — 속성 그래프 스토어는 매핑 이음매를 벗어나는 것이 아니라, 단지 한 계층 위에서 그것과 마주칠 뿐입니다.

둘째 구분은 그 배포가 실제로 어디에 사는가입니다. 그 패턴은 분명합니다. 진정으로 시맨틱한 배포는 질문이 탐색적이고 데이터가 이미 이질적인 발굴과 연구에 몰려 있습니다 — 시스템이 검증되고, 스키마가 동결되고, 변경이 값비싼 GMP 실행 현장이 아니라. 따라서 이 플랫폼 중 하나를 제조용으로 평가하는 구매자는 R&D 증거로부터 외삽하는 것이며, R&D 사례 연구가 GMP 사례를 대신하게 두기보다 그 사실을 소리 내어 말해야 합니다.

AI 에이전트가 딛고 선 것: "AI 네이티브" 주장에 대한 구매자의 시험

이 계층 전반의 가장 새로운 판매 포인트야말로 가장 회의적으로 읽어야 할 것입니다. Palantir는 자사 Ontology를 AI 에이전트의 중추로 틀 짓고, Sapio는 Elsevier와 SciBite 콘텐츠를 "AI 코사이언티스트"로 묶으며, Ontotext는 AI 기반 타깃 발굴 솔루션을 광고합니다. 정직한 질문은 그래프가 모델을 돕는가가 아니라 — 돕습니다 — 모델이 어느 산출물에 그라운딩되어 있는가입니다. OWL/RDF 대 독점이라는 경계선이 그 그라운딩을 검증할 수 있는지를 결정하기 때문입니다. 답하기 전에 그래프에서 연결된 사실을 검색하는 모델은 GraphRAG(그래프 네이티브 검색 증강 생성(retrieval-augmented generation) — 신뢰할 수 있는 저장소에서 검증되고 연결된 사실을 끌어와, 모델이 학습 기억이 아니라 그 사실로부터 답하도록 요구하는 것으로, 동반 AI 장(AI를 위한 그라운드 트루스로서의 온톨로지)이 온전히 구축하는 기법)을 하는 것입니다. 저장소가 닫힌 객체 모델일 때 검색은 실재하지만 그것이 주장하는 그라운딩은 내보내거나 감사하거나 정렬할 수 없으므로, 구매자는 인용된 계보가 참임을 독립적으로 확인할 수 없습니다.

그러한 그라운딩이 신뢰할 만한지를 두 가지 방법론적 사실이 결정하며, 둘 다 닫힌 객체 모델보다 내보낼 수 있는 OWL/RDF 산출물의 손을 들어 줍니다. 첫째, 추론되고 셰이프로 검증된 그래프는 유창한 모델보다 더 강한 그라운드 트루스입니다. owl:TransitiveProperty 계보 폐쇄와 SHACL 출하 셰이프가 이미 기계 검증된 부분 그래프는, 둘이 어긋날 때 그것과 모순되는 모델보다 옳을 가능성이 더 큽니다 — 동반 ML 권의 모델 검증 장이 시험으로 바꾸는 검증 역설(validation paradox)입니다. 모델은 사전에 명시된 정직한 합격 기준에 견주어 검증되었을 때에만 신뢰할 만하며, 추론된 그래프가 바로 그것이기 때문입니다. 둘째, 계보 엣지가 빠진 분할을 공급합니다. 이 인스턴스들 위에서 학습하는 모델은 그룹화 / 리브-원-배치-아웃(grouped / leave-one-batch-out) 교차 검증으로 — 같은 bp:derivedFrom 조상을 공유하는 모든 행을 보류해 BATCH-2026-001의 형제 샘플이 학습 폴드에서 테스트 폴드로 누설되어 점수를 부풀리지 못하게 하면서 — 채점되어야 하며, bp:derivedFrom 엣지가 곧 그 그룹화 키로, 트리플스토어에서는 기계적이지만 평면 벤더 내보내기에서는 막연한 관행입니다. 같은 경계는 검색 시점의 적용 범위 검사로도 쓰입니다. SHACL에 부합하는 부분 그래프를 하나도 반환하지 않는 질의는 분포 밖(out-of-distribution) 플래그의 그래프 유사물로, 모델이 한 번도 검증받은 적 없는 계보 위에서 자신만만하게 추측하는 대신 답하기를 거부하는 것입니다. 이 가운데 무엇도 내보낼 수 없는 속성 그래프나 객체 모델을 통해서는 닿을 수 없습니다 — 바로 그래서 "AI 네이티브" 플랫폼에 대한 구매자의 시험은 별개의 시험이 아니라 조사의 나머지와 같은 내보내기-및-매핑 시험입니다. AI 이야기가 가장 요란한 플랫폼이 믿을 만한 것이 아니라, 그라운딩 그래프를 문밖으로 들고 나가 확인할 수 있는 플랫폼이 그렇습니다.

이 범주들을 평이하게 이름 붙여 두는 것이 좋습니다. 생애주기 부(部)를 거쳐 온 독자는 이 도구들을 그것인 제품을 만나 보지 못한 채 동사로("우리는 그래프 위에서 추론한다", "우리는 그것을 검증한다") 접해 왔기 때문입니다.

트리플스토어(triplestore)는 저장 단위가 RDF 트리플이고 질의 언어가 SPARQL인 데이터베이스입니다(위의 Stardog, Ontotext GraphDB, 오픈소스의 Apache Jena와 RDF4J).
속성 그래프 데이터베이스(property-graph database)는 그 대신 속성을 가진 노드와 간선을 저장하고 Cypher나 Gremlin으로 질의하므로(Neo4j) RDF에 닿기 위해 위의 다리가 필요합니다.
추론기(reasoner)는 그래프가 암시하기만 하는 함의된(entailed) 사실 — 진술된 것에 비추어 반드시 참이어야 하는 것들, 이를테면 추이적 계보(A가 B에서, B가 C에서 왔다면 A는 C로 거슬러 올라간다)와 장비-는-물질이라는 타입 부여(어떤 항목이 충족하는 규칙으로부터 그 범주를 결론 내리는 것) — 을 도출하는 엔진입니다.
SHACL 엔진(SHACL engine)(SHACL은 W3C 셰이프 제약 언어, Shapes Constraint Language)은 그래프를 형태 제약(shape constraints) — 그래프가 충족해야 하는 선언된 규칙, 이를테면 출하 완전성 게이트(출하된 모든 로트는 요구되는 기록을 지녀야 한다)나 disjointness 게이트(어떤 항목도 상호 배타적인 두 가지로 잘못 타입 지정되지 않는다) — 에 대조해 검사하는 엔진입니다.
Protégé 같은 온톨로지 편집기(ontology editor)는 어휘 자체를 저작하고 데이터를 적재하기 전에 그 OWL 공리를 점검하는 곳입니다.
영속 식별자(persistent-identifier, PID) 서비스 — DOI, w3id.org 리다이렉트 — 는 공개된 용어의 IRI(국제화 자원 식별자, Internationalized Resource Identifier, 그것을 이름 짓는 웹 주소)가 오래도록 해소 가능(resolvable)하도록 — 찾아봤을 때 여전히 어딘가로 이어지도록 — 유지하는 레지스트리로, 출판이 되돌아가는 FAIR 관심사입니다.

그 벤더 지형에 견주어, 이 책 자체의 진행 중인 예시가 실제로 필요로 하는 것은 의도적으로 소박합니다 — 인프로세스 트리플스토어(rdflib), 추이적 계보와 장비 타입 부여 추론을 위한 OWL-RL 추론기(reasoner)(owlrl — OWL-RL은 OWL의 가볍고 규칙 기반인 추론 프로파일), 그리고 출하 및 disjointness 게이트를 위한 SHACL 엔진(SHACL engine)(pyShACL). 모두 무료이고 모두 오프라인이며 어떤 플랫폼도 요구하지 않습니다. 그것이 바로 명세에 설정된 비기능 요구사항 오프라인 검증 가능(offline-validatable)의 요점입니다. WCB-CHO-001에서 DS-001까지를 나르는 캠페인 그래프는 이 작은 개방형 스택 안에 들어맞으며, 위의 상업 계층은 같은 모델이 엔터프라이즈 전반으로 확장되어야 할 때에만 손을 뻗는 대상입니다 — 다음 장의 주제입니다.

하나의 배치, 네 개의 상자: 우리의 진행 중인 예시는 실제로 어디에 사는가

이 책 자체의 예시를 지형 전체에 걸쳐 따라가 보는 것이 도움이 됩니다. 추상적으로가 아니라 구체적으로 그 간극을 보여 주기 때문입니다.

앞선 장들이 모델링한 산출물 — 작업 세포은행 WCB-CHO-001(항체를 만드는 CHO, 곧 중국 햄스터 난소(Chinese-hamster-ovary) 세포의 동결되고 적격성이 확인된 비축분), 생산 실행 BATCH-2026-001, 원료의약품 DS-001 — 을 떠올리고, 각각에 대해 이 네 상자 중 어느 것이 작동하는 공장에서 실제 데이터를 담고 있는지 물어봅시다. (bp:WCB-CHO-001 같은 식별자에 거듭 붙는 bp: 접두사는 단지 이 책의 네임스페이스 표지로, 한 이름이 우리 예시 온톨로지에 속함을 나타냅니다.) 답은 좀처럼 "하나의 상자"가 아니며, 바로 그것이 어려움 전체의 축소판입니다.

세포은행과 시험법 레코드는 실험실 계층에서 비롯되며, 거기서 그것들은 포착 시점에 진정으로 온톨로지에 정렬될 수도 있습니다 — CENtree 용어에 묶인 Benchling 레지스트리 항목, ASM으로 정규화된 기기 결과.

여기서 시맨틱은 형식적이며, bp:WCB-CHO-001은 기록되는 순간부터 정직한 타입을 그럴듯하게 지닐 수 있습니다. 이것은 이 책의 이상화된 모델과 상업적 현실이 일치에 가장 가깝게 다가서는 유일한 상자입니다.

생산 단계는 MES에 살며, 거기서 BATCH-2026-001의 레시피, 파라미터, 장비 사용은 PAS-X 또는 Opcenter MBR에 부호화됩니다 — 풍부하고, 정확하며, 닫혀 있습니다.

그 단계 뒤의 시계열은 히스토리안에 살며, PI AF에 의해 장비 및 이벤트 프레임 구조로 맥락화됩니다. 둘 다 실재하는 의미로, 자기 일을 잘 해내는 성숙한 시스템이 포착한 것입니다. 어느 쪽도 RDF가 아니며, 그래서 어느 쪽도 매핑 없이는 계보 그래프에 합류하지 못합니다.

그 실행을 규정한 CPP들(핵심 공정 파라미터, Critical Process Parameters — 실행이 유효하려면 공장이 범위 안으로 잡아 두어야 하는 다이얼들) — 36.5 degC 부근으로 유지된 생산 단계 배양 온도와 하루 0.40 용기-부피 부근의 상대 공급 속도 — 은 MES에 레시피 파라미터로, 히스토리안에 태그로 삽니다. 그 로트를 판가름한 출하 CQA들(핵심 품질 속성, Critical Quality Attributes — 완성 로트가 출하되려면 충족해야 하는 측정된 성질들) — SEC(크기 배제 크로마토그래피, size-exclusion chromatography) 단량체 98.6 퍼센트, CEX(양이온 교환 크로마토그래피, cation-exchange chromatography) 주 전하 변이체 70.7 퍼센트 부근 — 은 LIMS(실험실 정보 관리 시스템, Laboratory Information Management System, QC 실험실의 결과 데이터베이스)에 삽니다. 지속 공정 검증(continued process verification) 프로그램이 던질 수 있는 가장 가치 있는 단 하나의 질의는 이 둘을 잇는 것입니다. 이 온도 프로파일이 저 단량체 결과를 낳았는가? 오늘날 그 두 사실은 어떤 형식 언어도 공유하지 않는 두 상자에 앉아 있어서, 그 결합은 하나의 그래프 위 도달 가능성 질의로 답해지는 대신 스프레드시트에서 손바느질됩니다 — 매핑이 존재하기만 하면 질의로서의 역량 질문이 던질 수 있는 바로 그 상자-교차 질문입니다. 함정은 그 스프레드시트가 규제상 약점이라는 것입니다. 손바느질된 결합은 고유한 감사 추적을 지니지 않으므로, ALCOA+(기록이 귀속 가능·판독 가능·동시적·원본·정확해야 하고, 더하여 완전·일관·영속·가용해야 한다는 데이터 무결성 기대치)를 오직 수작업 규율로만 충족하는 반면, 매핑된 그래프는 그 원천이 이미 보유한 동시적이고 귀속 가능한 기록을 물려받습니다. 그 결합 그래프가 CPV 요약이 아니라 GMP 결정을 구동하게 된다면 그것 자체가 규제 대상 전산화 시스템이 되어 — 위험 기반 CSV-투-CSA 규율 하에서 검증되고, 감사 추적·버전 고정 변경 관리·서명자 귀속에 대해 21 CFR Part 11과 EU GMP Annex 11에 묶입니다 — 이것이 생산 현장 시스템이 의미를 자유롭게 다시 추론되는 그래프로 내보내는 대신 검증된 독점 형태로 붙잡고 있는 또 하나의 이유입니다.

출하 및 계보 뷰 — 이 책이 가장 원하는 것, 즉 bp:DS-001이 bp:WCB-CHO-001로부터 추이적으로 파생되는 그래프 — 는 그래프 형태로 존재하기는 한다면, 오늘날 대부분 R&D 색채의 엔터프라이즈 그래프 계층에 존재합니다.

결론은 스스로 적힙니다. 데이터는 전부 존재합니다. 다만 같은 형식 언어를 쓰지 않는 상자들에 흩어져 있을 뿐이며, 각각은 자기 방언에 유창하고 다른 것에는 귀가 먹었습니다. 그것들 사이에 가로놓인 유일한 것은 번역 계층이며 — 바로 그것이 다음 절이 다루는 이음매입니다.

누구도 광고하지 않는 다리: 구조화 데이터를 RDF로 끌어들이기

시맨틱 계층은 누군가 다시 키보드로 입력하지 않고도 어떻게 관계형 데이터베이스와 히스토리안에 사는 데이터 위에 놓일까요? 답은 매핑이며, 그것은 스택 전체에서 가장 덜 논의되는 이음매입니다 — 화려하지 않기 때문에, 그리고 그것이 존재함을 인정하는 일이 그래프가 기록 시스템이 아님을 인정하는 일이기 때문에 정확히 덜 논의됩니다.

R2RML — 2012년 W3C의 RDB-투-RDF 매핑 언어 — 은 관계형 테이블이 어떻게 RDF 트리플이 되는지를 기계 판독 가능한 규칙으로 선언합니다. RML(IDLab/Ghent에서 비롯되었고 현재 W3C 커뮤니티 표준화 아래 있는)은 rml:logicalSource와 rml:referenceFormulation을 통해 R2RML을 SQL 너머의 임의의 소스 — CSV, JSON, XML — 로 일반화합니다 [10]. 그 일반화는 학술적인 것이 아닙니다. 동반 다리가 R2RML이 아니라 RML인 것은 바로 PI Web API 피드가 데이터베이스 테이블이 아니라 CSV/JSON 행으로 도착하기 때문입니다. 그 트리플은 스토어에 구체화(materialize)되거나, 데이터가 결코 이동하지 않도록 가상으로 질의될 수 있습니다 — 그리고 질의 시점에 그 가상 재작성을 수행하는 엔진들(소스에 대해 SPARQL을 SQL로 번역하는 Ontop, Stardog와 Ontotext의 가상화 모드)이야말로 이 장 앞부분의 모든 "ETL 없음" 주장 뒤에 있는 실제 기계입니다. 하루는 LIMS 테이블을 그래프로 바꾸는 동일한 매핑이 다음 날 새 LIMS를 가리키도록 재지정될 수 있으며, 바로 그것이 매핑이 오래 가는 자산이고 그것을 둘러싼 플랫폼은 흔히 그렇지 않은 이유입니다.

그 형태는 늘 같습니다. 구조화 데이터 공장 — PI, MES, LIMS — 이 마이그레이션이 아니라 매핑 파일을 통해 시맨틱 계층에 데이터를 공급합니다. 실제 공장이 우리의 bp:DS-001 뒤에 두는 IDMP 물질 식별자(규제 시맨틱에서 모델링됨), 그 MES의 로트 번호, 그 히스토리안의 시계열 태그 — 이 모두는 정확히 이 이음매를 통해 그래프에 닿거나, 아예 닿지 못합니다.

이 책은 그 매핑을 추상으로 남겨 두지 않습니다. 동반 모음은 정확히 그러한 다리를 출하하고 실행합니다. historian-map.rml.ttl은 하나의 히스토리안 행 — ts, tag, value, unit, quality, batch_id — 을 W3C SOSA 관측(observation)으로 바꾸는 RML rr:TriplesMap(TriplesMap이란 각 원천 행이 어떻게 트리플로 변하는지를 말해 주는 하나의 규칙)입니다. SOSA(센서, 관측, 시료, 작동기, Sensor, Observation, Sample, and Actuator)는 어떤 센서가 어떤 것의 성질을 어떤 시점에 측정했음을 기록하기 위한 작은 표준 W3C 어휘로, 그리하여 각 히스토리안 판독값은 자기 기술적(self-describing) 사실이 됩니다. historian_to_rdf.py는 PI Web API 커넥터가 만들어 내는 바로 그 행 모양 위에서 그 매핑을 인프로세스로 실행합니다. 아래 Turtle에서 들여 쓴 각 줄은 그 관측의 한 성질을 진술하는 트리플 하나입니다:

hist:obs/BR101.Temp.PV/2026-03-02T08:00:10Z
    a sosa:Observation ;
    sosa:observedProperty hist:tag/BR101.Temp.PV ;
    sosa:hasSimpleResult  "36.51"^^xsd:float ;
    sosa:resultTime       "2026-03-02T08:00:10Z"^^xsd:dateTime ;
    qudt:ucumCode         "Cel" ;          # 단위가 값과 함께 따라다닌다, 결코 헐벗지 않게
    bp:fromBatch          bp:BATCH-2026-001 .

bp:BATCH-2026-001 a bp:Batch ; bp:hasTrace hist:tag/BR101.Temp.PV .

이 발췌에서 "36.51"^^xsd:float는 타입이 지정된 리터럴(typed literal)입니다 — 값 36.51에 ^^xsd: 태그가 붙어 기계에게 그것을 텍스트가 아니라 부동소수점 수로 읽으라고 일러 주며, ^^xsd:dateTime은 타임스탬프에 대해 같은 일을 합니다. 타입을 선언하는 것이야말로 저장된 값을 헐벗은 문자열이 아니라 기계 검증 가능한 데이터로 만드는 것입니다.

그 마지막 줄의 모델링 결정이야말로 뻔한 반론 — 수백만 점을 그래프에 넣을 수는 없다 — 에 대한 답 전체입니다. 그렇게 하지 않습니다. 그래프는 배치-태그 쌍마다 bp:hasTrace 색인 간선 하나를 들고 IRI로 히스토리안을 가리키며, 조밀한 스트림은 PI에 남습니다. 그 매핑은 그래프를 히스토리안의 복사본이 아니라 히스토리안 위의 색인으로 만듭니다. 거버넌스된 다리는 그렇게 생겼고, Turtle 서른 줄에 들어맞습니다(bp:hasTrace/bp:fromBatch는 인스턴스와 그래프에서 처음 도입됩니다).

그 경로는 히스토리안보다 한 계층 더 깊이 흐릅니다. OPC UA(개방형 플랫폼 통신 통합 아키텍처, Open Platform Communications Unified Architecture)는 공장 장비가 자기 라이브 데이터를 노출하는 표준 산업 프로토콜이며, Data Access는 현재 값을 읽기 위한 그 서비스입니다. opcua_to_rdf.py는 OPC UA Data Access 읽기 — NodeId ns=2;s=BR101.Temp.PV(한 데이터 점의 주소: 네임스페이스 2, 문자열 식별자 BR101.Temp.PV), 그 DataValue(값에 품질과 타임스탬프를 더한 것), 그 EUInformation 단위(공학 단위를 담는 OPC UA 구조) — 를 같은 sosa:Observation 모양으로 매핑합니다. OPC UA NodeId의 문자열 식별자가 곧 히스토리안 태그이고, EUInformation 단위가 곧 히스토리안 열이 담는 동일한 UCUM 코드 Cel이며 — UCUM(측정 단위 통합 코드, Unified Code for Units of Measure)과 QUDT는 Cel이 섭씨도를 명확히 뜻하도록 단위를 못 박는 표준 어휘입니다 — 그러므로 두 경로 모두 동일한 관측 IRI와 동일한 단위를 주조합니다 — 식별자와 단위의 UCUM/QUDT 규율입니다. 그 결과는 네 개의 단절된 모델이 아니라 배선에서 그래프까지 하나로 이어진, 매핑된 경로입니다 — 배선에서 그래프까지 장이 온전히 구축하는 다리의 실행 가능한 짝입니다.

따라서 매핑 파일이야말로 "지식 그래프"가 실제로 얼마나 개방적인지를 가늠하는 참된 척도입니다. 벤더가 R2RML 또는 RML을 당신에게 건네주고 당신 자신의 스토어를 가리키게 해 준다면, 당신은 그 다리를 소유하고 어디서든 그래프를 다시 지을 수 있습니다. 매핑이 내부적이고 문서화되지 않았다면, 그 그래프는 그들의 것이며 당신은 그들의 파이프를 통해 당신 자신의 데이터에 대한 접근을 임차하고 있는 것입니다. 이것은 조사 전체에서 가장 결정에 직결되는 질문이지만, 슬라이드에는 거의 결코 오르지 않습니다. 구매자를 보호하는 답이 곧 벤더를 가장 덜 돋보이게 하는 답이기 때문입니다.

서명하기 전에 던질 네 가지 질문

질문	당신이 소유할 수 있는 모델	당신이 임차하게 될 모델
내보내기(Export). 통제 용어와 스키마를 OWL/RDF로 내보낼 수 있는가?	그렇다 — 공개된 OWL/SKOS(SKOS는 단순 용어 목록과 분류 체계를 위한 W3C 표준), 내려받기 가능	"우리 플랫폼 안에 있습니다"
매핑(Mapping). R2RML/RML을 내게 건네주고 내 스토어를 가리키게 해 주는가?	그렇다 — 매핑이 산출물이다	매핑은 내부용 / 영업 비밀이다
산출물(Artifact). 그 "그래프"는 RDF/OWL인가, 아니면 속성 그래프 / 객체 모델인가?	RDF 트리플스토어, 상위로 정렬 가능	속성 그래프 또는 닫힌 객체 모델, 자체 다리가 필요
증거(Evidence). 거명된 도입 기업은 GMP 제조 사례인가, R&D 사례인가?	독립적으로 공개된 GMP 배포	제조를 대신하는 R&D 사례 연구

그 표에서 제품이 오른쪽에 자리할수록, 다음 장이 묘사하는 매핑 청구서는 더 커집니다.

미해결 과제: 슬라이드 위의 그래프는 거버넌스된 온톨로지가 아니다

벤더 슬라이드 위의 지식 그래프(knowledge graph)라는 단어는 형식적이고 거버넌스된 온톨로지의 증거가 아닙니다. 출시되는 것의 상당 부분은 그래프 겉치레를 두른 독점 객체 모델이며, 가장 목청 높은 도입 수치들 — "상위 50개의 절반 이상", "선도적 상위 10개 제약사", "R&D 데이터의 90%" — 은 자가보고되었고 감사되지 않았습니다.

이 주장들 중 어느 것도 조사된 공개 자료에서 독립적 증거에 대조해 검증할 수 없었으며, 거명된 여러 제약 도입 기업은 독립적으로 공개된 배포가 아니라 벤더 사례 연구나 학회 프로그램에만 등장합니다. 그렇다고 그것들이 거짓이 되는 것은 아닙니다. 그것들은 확인되지 않은 것이 되며, 확인되지 않은 벤더 수치에 대한 정직한 자세는 그것을 출처를 붙여 되풀이하되 아무것에도 의지하지 않는 것입니다.

진정으로 시맨틱한 계층은 R&D 정보학에서, 그리고 카탈로그 및 어휘 도구에서 실재합니다. 형식적 OWL/RDF로서 그것은, 가용한 공개 증거에 비추어 GMP 실행 현장에는 부재합니다 — 정확히 이 책의 제조 배치가 사는 그곳에.

그 간극은 어느 한 벤더의 실패가 아니라 시장의 미해결 상태입니다. 공장은 슬라이드가 그것을 닫았다고 가정하기보다 그것을 둘러싸고 계획해야 합니다 — 실무에서 이는 매핑 계층을 위한 예산을 잡고, 매핑을 산출물로 요구하며, 제조 현장의 검증되지 않은 "지식 그래프"는 이미 사 놓은 기능이 아니라 엔지니어링해야 할 목표로 다루는 것을 뜻합니다.

왜 중요한가

도구를 고르는 공장은 브랜딩 너머를 읽고 하나의 구체적인 질문을 던져야 합니다. 이 제품은 내게 거버넌스되고 가져올 수 있는 온톨로지를 건네는가, 아니면 내가 나중에 다시 매핑해 낼 닫힌 모델을 건네는가? 그 답은 WCB-CHO-001을 BATCH-2026-001을 거쳐 DS-001로 잇는 디지털 스레드를 하나의 그래프로서 추론할 수 있을지, 아니면 그것이 각각 따로는 정확하나 경계를 넘어서는 벙어리인 십수 개의 독점 스키마 안에 갇힌 채로 남을지를 결정합니다.

R2RML/RML 매핑 계층은 바로 그 다리의 비용을 정하는 것입니다 — 데이터가 내보내기를 염두에 두고 모델링되었다면 저렴하고, 그렇지 않았다면 가혹합니다. 매핑을 산출물로 다루는 벤더는 당신이 들고 떠날 수 있는 모델을 파는 것이고, 매핑을 영업 비밀로 다루는 벤더는 당신이 그 안에만 머물 수 있는 모델을 파는 것입니다.

따라서 시맨틱을 위해 산다는 것은 데모만이 아니라 출구를 위해 산다는 뜻입니다. 질문은 결코 무대 위에서 그래프가 얼마나 좋아 보이는가가 아니라, 당신이 자기 몫을 문밖으로 들고 나갈 수 있는가입니다 — 그리고 그것은, 관련된 모든 시스템을 소유한 단일 회사에게조차 어렵다는 사실을 다음 장이 보여 줍니다.

핵심 용어

OWL/RDF 온톨로지(OWL/RDF ontology) — 개방형 표준(OWL, 웹 온톨로지 언어; RDF, 자원 기술 프레임워크로, 사실을 주어–술어–목적어 트리플로 기록함)으로 표현된, 명시적이고 기계 검증 가능한 시맨틱을 갖춘 모델로, 내보내고 다른 온톨로지와 정렬하며 추론할 수 있습니다.
독점 구조화 데이터 모델(proprietary structured data model) — 실재하는 의미를 담지만 닫혀 있어 형식적 온톨로지로 직접 가져올 수 없는, 벤더의 내부 스키마(레시피, 자산 템플릿, 객체 타입).
중간 데이터 스키마(Intermediate Data Schema, IDS) — 정규화된 기기 데이터를 위한 TetraScience의 개방형 스키마로, 이후 Allotrope Simple Model에 매핑됩니다.
PI Asset Framework(AF) — 공장 시계열을 맥락화하는 AVEVA의 객체/템플릿에 이벤트 프레임을 더한 계층으로, 규제 제약 분야에 널리 배포되어 있으나 시맨틱 웹 온톨로지는 아닙니다.
Event Frame — 배치, 교대, 정지 구간 같은 시간 한정 이벤트를 표현하는 PI AF 구성요소이며, 배치 맥락에서 그 계층 구조는 ISA-88 절차 모델(배치 다음 단위 절차 다음 작업 다음 단계)을 그대로 반영합니다. 이는 PAS-X 마스터 배치 레코드가 부호화하는 바로 그 구조로, 어느 쪽도 RDF로 내보내지 않으면서도 히스토리안과 MES 계층이 실행을 호환 가능한 용어로 기술하는 이유입니다.
마스터 배치 레코드(Master Batch Record, MBR) — 배치 절차 시맨틱을 독점 구조화 모델로 부호화하는, PAS-X 같은 MES 플랫폼의 레시피 모델입니다.
조직의 디지털 트윈(digital twin of the organization) — 데이터와 로직을 실세계 개체에 바인딩하는 객체 모델에 대한 Palantir의 틀로, 강력하지만 공개된 OWL/RDF 산출물이 아니라 객체 모델입니다.
R2RML / RML — W3C의 RDB-투-RDF 매핑 언어와 그 확장으로, 관계형 테이블이 어떻게 RDF 트리플이 되는지를 구체화하거나 가상으로 질의되도록 선언합니다.
GraphRAG — 그래프 네이티브 검색 증강 생성: AI 모델이 학습 기억이 아니라 지식 그래프에서 연결된 검증 사실을 검색해 답하므로, 그 그라운딩은 아래 그래프만큼만 내보낼 수 있고 감사할 수 있습니다 — 닫힌 객체 모델은 모델에 서비스할 수는 있어도 그것이 무엇에 그라운딩하는지를 구매자가 확인하게 해 주지는 못합니다.
검증 역설 / 그룹화 교차 검증(validation paradox / grouped cross-validation) — 추론되고 SHACL 셰이프로 검증된 그래프는 그것과 모순되는 유창한 모델보다 더 강한 그라운드 트루스이며, 그 bp:derivedFrom 계보 엣지는 리브-원-배치-아웃 교차 검증의 그룹화 키를 공급해 같은 조상을 공유하는 모든 행을 보류함으로써 형제 샘플이 분할을 가로질러 누설되어 점수를 부풀리지 못하게 합니다.

다음 이야기

벤더는 부품을 팝니다. 다음 장은 단일 대형 제약 회사가 그 부품들을 하나의 일관된 직물로 조립하려 할 때 무슨 일이 벌어지는지를 묻습니다. 빅파마의 엔터프라이즈 지식 그래프는 시맨틱 계층을 데모 바깥으로, 수백 개의 시스템과 수십 년의 레거시 데이터, 그리고 어떤 매핑 파일 하나로도 풀 수 없는 거버넌스 문제를 안은 엔터프라이즈의 어수선한 현실 속으로 따라갑니다.

이 장에서 다루는 내용​

실험실 정보학: 시맨틱이 실재하는 곳​

제조와 히스토리안: 온톨로지가 아닌 구조화 모델​

"조직의 디지털 트윈"과 그래프 데이터베이스​

AI 에이전트가 딛고 선 것: "AI 네이티브" 주장에 대한 구매자의 시험​

하나의 배치, 네 개의 상자: 우리의 진행 중인 예시는 실제로 어디에 사는가​

누구도 광고하지 않는 다리: 구조화 데이터를 RDF로 끌어들이기​

서명하기 전에 던질 네 가지 질문​

미해결 과제: 슬라이드 위의 그래프는 거버넌스된 온톨로지가 아니다​

왜 중요한가​

핵심 용어​

다음 이야기​