실제로 쓰이는 어휘: AFO에서 IDMP까지
📍 현재 위치: 7부 · 오늘날 산업 현장의 온톨로지 — 25장. 앞 장은 컨소시엄과 표준화 기구의 이름을 불렀고, 이 장은 그들이 실제로 내놓은 산출물을 목록화하며, 어떤 어휘가 상용 환경에서 살아 있고 어떤 어휘가 단지 다운로드 페이지에만 머무는가라는 더 어려운 질문을 던집니다.
지난 장은 무대를 호명했습니다. Allotrope, OBO Foundry, IOF, EMA와 FDA의 규제 당국, 그리고 키보드 앞의 스키마 모델러들.
컨소시엄의 이름을 부르는 것은 쉬운 절반입니다.
더 어려운 질문 — "당신의 배치를 공유 온톨로지에 닻 내려라"라는 조언이 실현 가능한 지침인지 아니면 희망 사항인지를 가르는 질문 — 은 그 산출물 중 무엇을 실제 공장이 가동 중인 시스템에 배선해 두었고, 무엇이 발행되어 다운로드 가능한 상태로 쓰이지 않은 채 놓여 있는가입니다. 안정적인 URL을 가진 표준과, 그것에 의존하는 상용 시스템이 있는 표준은 같지 않습니다.
그래서 이 장은 목록이며, 그 뒤에 따라오는 정직한 결산입니다. 우리는 어휘들의 이름을 부르고, 각각이 무엇을 모델링하는지 말하며, 단 하나의 가차 없는 기준으로 정렬합니다. 그 온톨로지가 얼마나 훌륭한가가 아니라, GMP나 규제 시스템에 실제로 얼마나 깊이 침투했는가입니다.
거기서 드러나는 그림은 한쪽으로 치우쳐 있으며, 이는 이 책의 나머지 부분이 조용히 당신을 준비시켜 온 방식이기도 합니다.
전문 주방을 떠올려 보세요. 어떤 도구는 매 영업시간마다 요리사의 손에 들려 있습니다 — 칼, 팬, 주문표. 어떤 것은 식료품 저장고에 살고 있으며, 실재하고 의존하지만 결국 만들어진 요리를 통해서만 맛볼 수 있습니다 — 향신료 병, 육수. 그리고 어떤 것은 주방이 주문은 했지만 한 번도 포장을 뜯지 않은 카탈로그 품목입니다.
모두가 "주방 안에" 있습니다. 그러나 오직 첫 번째 종류만이 쓰이고 있습니다. 바이오의약품의 온톨로지도 똑같이 세 갈래로 갈립니다.
이 장에서 다루는 내용
우리는 바이오의약품 그래프가 실제로 집어 드는 어휘들을 세 가지 성숙도 단계로 정렬해 살펴봅니다.
1단계(Tier 1)는 진정으로 상용이며 진정으로 형식적인 층입니다. 실험실 데이터를 위한 Allotrope Foundation Ontology(AFO)와 그 경량 자매격인 Allotrope Simple Model(ASM), 물질·제품 동일성을 위한 ISO IDMP 계열과 UNII, 그리고 NCIt/CDISC 용어입니다.
2단계(Tier 2)는 상용이지만 간접적입니다 — ChEBI 같은 참조 온톨로지, 단위 어휘인 QUDT와 UCUM, OBO 생명과학 앵커들, 그리고 출처 온톨로지 PROV-O — 제조 현장에는 오직 이들을 품은 파일과 그래프를 통해서만 등장합니다.
3단계(Tier 3)는 파일럿·제안·학술 단계입니다. BAO, CHMO, PROCO, 그리고 이 책이 가장 공들여 작업한 바로 그 지점에서 가장 빈약한 제조 공정 어휘들입니다. 우리는 이 단계 구분이 드러내는 간극으로 장을 닫습니다.
성숙한 어휘는 가장자리 — 실험실과 등록부 — 를 기술하는 반면, 공정 어휘는 맨 아래 계층으로 갈수록 얇아진다.
저자가 AI의 도움을 받아 직접 제작한 그림입니다.
1단계 — 상용이며 형식적: 실험실과 등록처
바이오의약품의 두 영역은 진정으로 "발행된 온톨로지"에서 "상용 환경에서 하중을 지탱하는" 단계로 건너왔습니다. 둘 다 제조의 중심이 아니라 가장자리에 자리합니다. 이는 이 장의 핵심을 미리 알려주는 첫 번째 단서입니다.
첫 번째는 분석 실험실 데이터(analytical-lab data)입니다. Allotrope Foundation Ontology(AFO)는 BFO에 정렬된 형식 온톨로지로 — Equipment, Material, Process, Result 분류 체계로 조직되어 있으며 — 2018년 3월에 처음 공개되었습니다 (상용 단계) [1].
AFO는 정확히 이 책이 주장해 온 종류의 것입니다. 실재하는 클래스, 실재하는 상위 온톨로지 앵커, 실재하는 재사용 — 그리고 이 조사에서는 이례적으로, 실재하는 기기가 이를 방출합니다.
원래의 중량급 운반체였던 HDF5 기반 Allotrope Data Format(ADF)은 가벼운 도입에 쓰기에는 너무 번거로운 것으로 드러났습니다.
그래서 재단은 Allotrope Simple Model(ASM)을 내놓았습니다 — AFO에서 파생된 어휘를 훨씬 적은 부담으로 운반하는 경량 JSON 직렬화입니다 — 2023년 2월 8일에 공개되었고, 40가지 이상의 기법을 포괄합니다 (상용 단계) [2].
여기에 헤지 하나를 드러내 둘 필요가 있습니다. AFO 사용량이 "3년에 걸쳐 세 배로 늘었다"는, 자주 인용되는 주장은 컨소시엄 자가보고이며 절대적 기준값을 동반하지 않습니다. 그러니 측정된 헤드라인 수치가 아니라 자가보고된 진행 방향으로 읽으십시오 [2].
두 번째 상용 영역은 규제 물질·제품 식별(regulatory substance and product identification)입니다 — 규제 장에서 깊이 다루었고, 여기서는 목록을 위해 이름만 부릅니다.
ISO IDMP 계열(물질에 대한 ISO 11238, 제품에 대한 11615, 그리고 11616, 11239, 11240)은 EMA의 SPOR 서비스로 구현되어 EU 제출 스택 전반에서 상용 환경에 있습니다 (상용 단계) [3].
FDA 측에서는 GSRS/UNII가 ISO 11238과 ISO/TS 19844에 근거한 고유 물질 식별자를 발급합니다 (상용 단계) [4].
그리고 NCI Thesaurus(NCIt)는 CDISC Controlled Terminology와 다수의 SPL 용어 하위 집합을 배포하는 상용 플랫폼입니다 (상용 단계) [5].
여기서 한 가지 구분이 중요합니다. 이 책이 그 점에 대해 엄격해 왔기 때문입니다. IDMP, UNII, CDISC CT는 구조화된 통제 어휘이자 등록처입니다 — AFO 같은 BFO 정렬 OWL 온톨로지가 아닙니다 — 그러나 그렇다고 해서 상용 등급으로서의 위상이 조금도 떨어지지 않습니다.
IDMP 물질 식별자는, 우리의 진행 중인 예시 bp:DS-001 — 우리의 배치가 되어 가는 원료의약품 — 이 내부 계보에서 규제 제출로 건너갈 때 실제 공장이 그 뒤에 놓는 바로 그것입니다.
2단계 — 상용이지만 간접적: 인프라 층
다음 단계는 실재하고, 유지되며, 의존되고 있습니다 — 그러나 제조 현장에서는 좀처럼 이름으로 등장하지 않습니다. 그것은 데이터 파일 안에 올라타거나, 직접 쓰이는 온톨로지에 의해 임포트됩니다.
이들이 향신료 병입니다. 없어서는 안 되지만, 오직 요리를 통해서만 맛보게 됩니다.
ChEBI(Chemical Entities of Biological Interest, EMBL-EBI에서 유지)는 참조 화학 온톨로지로, PubChem과 하위 온톨로지들이 재사용합니다. 제조 현장에서의 존재감은 간접적입니다 (상용 단계) [6].
단위는 이 간접 패턴의 가장 깔끔한 사례이며, 짚어 둘 만한 방식으로 갈라집니다 — 그 갈라짐이 주어진 시스템이 실제로 어떤 어휘를 말하고 있는지 알려주기 때문입니다. QUDT(Quantities, Units, Dimensions and Types)는 Allotrope ADF 안에 박혀 있는 단위 온톨로지로, 모든 양값(quantity value)이 자신의 단위를 지니게 합니다 (상용 단계) [7].
그러나 정작 주시해야 할 것은 UCUM(the Unified Code for Units of Measure)입니다. QUDT가 아니라 UCUM이 HL7/FHIR 안에서, 따라서 EMA PMS, FDA SPL, PQ-CMC FHIR 안에서 의무화된 단위 문법이기 때문입니다. 즉 이미 상용 환경에 있는 바로 그 규제 스택 안에 있습니다 (상용 단계) [8].
그래서 우리의 bp:BATCH-2026-001에 대한 동일한 SEC 결과가 Allotrope 파일 안에서는 QUDT 단위 IRI를 지니고, 규제 당국으로 가는 길에서는 UCUM 코드를 지닐 수 있습니다 — 하나의 숫자에 두 개의 단위 문법이며, 값만 읽는 사람에게는 둘 다 보이지 않습니다.
OBO 생명과학 앵커들이 여기서 두 번째 군집을 이룹니다. Protein Ontology(PRO)가 분자를 정초하고, Cell Line Ontology와 NCBI Taxonomy가 세포주를 정초하며, Gene Ontology와 Disease Ontology가 표적을 정초합니다 (상용 단계) [12].
이들은 2부가 집어 들었던 바로 그 공개 온톨로지들입니다 — 그리고 산업 현장에서 이들은 GMP 현장이 아니라 발견·R&D 그래프를 정초합니다. 패턴은 반복됩니다. 형식 어휘는 과학이 있는 곳에서 가장 빽빽하고, 제조 라인을 향해 걸어갈수록 얇아집니다.
끝으로, PROV-O(W3C 출처 온톨로지)는 카탈로그 어휘 SKOS, DCAT와 함께, 실제 FAIR 프로그램이 기대는 출처·카탈로그 층입니다. PROV-O는 이력과 계보 — 이 책 전체의 결실 — 가 상용 카탈로그에서 모델링되는 흔한 방식입니다 (상용 단계) [13].
공장이 bp:DS-001은 bp:PApool-001로부터 derivedFrom이라고 기록할 때, 바깥세상에 그렇게 말하는 상용 등급의 방식은 매우 흔히 PROV-O의 wasDerivedFrom입니다.
이 단계에는 단서를 단 채 들어가야 할 이름이 하나 더 있습니다. LinkML은 거버넌스 장에서 만난 스키마 모델링 프레임워크로, 여러 기업 프로그램이 OWL과 SHACL을 방출하기 전에 데이터 모델을 작성하는 실용적 층입니다. 그것은 형식 상위 온톨로지 자체가 아니라 모델링의 편의입니다 — 팀이 스프레드시트와 YAML로 작업하면서도 이 단계의 나머지가 전제하는 형식 산출물로 컴파일해 내려갈 수 있게 해 주기에 정확히 유용합니다.
한눈에 보는 단계 구분
| 온톨로지 / 어휘 | 모델링 대상 영역 | 유지 주체 | 성숙도 |
|---|---|---|---|
| AFO / ASM | 분석 실험실 장비·물질·공정·결과 | Allotrope Foundation | Production |
| ISO IDMP / SPOR | 물질·제품 동일성(EU) | EMA / ISO | Production |
| GSRS / UNII | 고유 물질 식별자(US) | FDA | Production |
| NCIt / CDISC CT | 임상 및 SPL 통제 용어 | NCI / CDISC | Production |
| QUDT | 양과 단위(ADF 내부) | QUDT.org | Production (indirect) |
| UCUM | 단위 문법(HL7/FHIR, SPL, PMS 내부) | Regenstrief | Production |
| ChEBI | 참조 화학 | EMBL-EBI | Production (reference) |
| PRO / CLO / GO / DOID | 분자·세포주·유전자·질병 | OBO Foundry | Production (reference) |
| PROV-O | 출처와 이력 | W3C | Production |
| BAO | 고속 대량 스크리닝 시험법 | OBO / academic | Piloted |
| CHMO | 화학 방법(OBI 확장) | OBO Foundry | Academic |
| PROCO | 공정 화학 | OBO Foundry | Proposed |
| IOF 바이오제약 | 바이오공정 단위공정·장비·물질·QbD·레시피 | IOF (OAGi / NIIMBL과 함께) | Released 2026-02 (도입 초기) |
3단계 — 파일럿·제안·학술: 단어가 바닥나는 곳
세 번째 단계는 야심이 도입을 앞질러 가는 곳입니다. 여기 있는 어휘들은 나쁘지 않습니다 — 몇몇은 탁월합니다 — 그러나 누군가가 가리킬 수 있는 상용 의존을 아직 얻어내지 못했습니다.
BioAssay Ontology(BAO)는 고속 대량 스크리닝 시험법을 기술합니다. 대규모 HTS 시험법 컬렉션에 주석을 다는 데 쓰였고 Open PHACTS, Pistoia 노력과 맞물려 있습니다 — 실재하지만 공장 전체가 아니라 파일럿 규모입니다 (파일럿 단계) [9].
그 아래에는 화학 방법 온톨로지들이 자리합니다. CHMO(the Chemical Methods Ontology, OBI를 확장) (학술 단계) [10], 그리고 PROCO(the Process Chemistry Ontology, BFO에 정렬되어 2021년 OBO에 제출되었고 ChEBI, CHMO, AFO를 재사용) (제안 단계) [11]입니다.
둘 다 신뢰할 만하고 잘 만들어졌으며 BFO에 닻을 내리고 있습니다 — 그리고 둘 중 어느 것도 확인된 공개 근거 안에서는 일상적인 GMP 제조 용도로 건너오지 못했습니다. 이것이 이 단계의 반복되는 형상입니다. 모델링은 견고하나, 도입은 아직 거기에 없습니다.
제조 공정 어휘 본연 — 단위 작업, 장비 상태, 공정 중 물질 — 은 현장 장에서 다루며, 이들은 확고히 이 단계에 살고 있습니다. 그 배치는 이 장 조사의 우연이 아닙니다. 그것은 이 부 전체의 핵심 발견입니다.
그 내부에 형식적이고 BFO에 기초한 단어를 부여하려는 가장 진지한 시도는 IOF의 바이오제약 도메인 온톨로지이며, 첫인상이 시사하는 것보다 훨씬 앞서 있습니다. 2026년 2월 릴리스에 직접 비추어 감사해 보면, 이 온톨로지는 171개 클래스를 정의하고 — 전부 Released로 표시 — 그중 44개가 단위공정 클래스(포집, 바이러스 제거·불활성화·여과, 폴리싱, 한외여과, 원료의약품 제형), 17개가 QbD 파라미터 클래스(공정 파라미터, 품질 속성, 정상운전범위·입증가능허용범위 표현)입니다. 이 책의 실행 예제는 이제 공정 단계, 세포주, QbD 골격을 지역 IRI를 새로 만드는 대신 이 실재 IRI들에 정렬합니다. 하지만 명세서에서 Released인 것과 공장에서 의존되는 것은 같지 않습니다. IOF 바이오제약은 여전히 누구도 가리킬 수 있는 상용 의존성을 갖지 못했고, 바로 그래서 이 단계에 자리합니다. 단어는 마침내 존재하지만, 도입은 아직 — 아닙니다.
미해결 과제: 성숙한 단어들은 가장자리를 기술할 뿐, 공정을 기술하지 않는다
이 단계 구분을 제조의 지도로 거꾸로 읽으면 간극이 선명합니다.
성숙한 어휘들은 실험실(lab)과 물질·제품 등록처(substance/product registry)를 기술합니다 — 한쪽 끝의 분석 벤치와 다른 쪽 끝의 규제 제출입니다.
공정 자체(process itself)의 어휘 — bp:SEED-001을 bp:BATCH-2026-001로 바꾼 단위 작업, 바이오리액터의 장비 상태, 포집 풀 안 공정 중 물질의 동일성 — 가 바로 표준이 가장 빈약하고 가장 덜 도입된 지점입니다. 이 책은 그 공정을 모델링하는 데 중간 전체를 썼습니다.
산업은 공정 안으로 들어가는 것과 공정에서 나오는 것에 대해서는 성숙한 상용 등급의 단어를 가지고 있고, 그 사이의 변환에 대해서는 미성숙하거나 파일럿이거나 자체 제작한 단어만을 가지고 있습니다. 지도는 경계에서는 상세하고 내부에서는 비어 있습니다.
이 부의 나머지가 고집하는 단서가 하나 있습니다. 그 내부는 더 이상 단어가 비어 있는 것이 아닙니다. IOF의 바이오제약 온톨로지(2026년 2월 Released)가 이제 형식적인 단위공정·QbD 클래스를 공급하고, 이 책의 실행 예제가 그것에 직접 정렬합니다. 내부에 여전히 없는 것은 도입 — 그 용어들에 실제로 의존하는, 상용 환경의 공장 — 입니다. 경계가 잉크로 그려진 까닭은 실험실과 등록부가 매일 자기 어휘로 돌아가기 때문이고, 내부가 연필로만 그려진 까닭은 그 어휘가 아무리 실재하고 아무리 Released라 해도 아직 어디에서도 하중을 지탱하지 않기 때문입니다.
왜 중요한가
이 책이 "공유 온톨로지에 닻을 내려라"라고 말했을 때, 바로 이 어휘들이 그것이 의미한 바였습니다 — 그리고 그 고르지 못한 성숙도가 실제 공장의 지식 그래프가 누비이불인 이유입니다.
성숙한 실험실·등록 어휘는 어느 컨소시엄도 아직 표준화하지 않은 자체 제작 공정 용어에 한 폭 한 폭 이어 붙여집니다. 어느 실이 하중을 지탱하고 어느 실이 장식인지 아는 것이, 감사에서 방어할 수 있는 그래프와 그저 시맨틱해 보일 뿐인 그래프를 가르는 차이입니다.
단계 구분은 비관이 아닙니다. 그것은 어디에 짓고 어디에서 빌릴지 결정하기 전에 필요한 정직한 지도입니다.
핵심 용어
- AFO(Allotrope Foundation Ontology) — 분석 실험실 데이터를 위한 BFO 정렬 형식 온톨로지로, Equipment, Material, Process, Result로 조직되며 2018년 3월에 처음 공개되었습니다.
- ASM(Allotrope Simple Model) — HDF5 기반 ADF보다 훨씬 적은 부담으로 AFO 파생 어휘를 운반하는 경량 JSON 직렬화로, 2023년 2월 8일에 공개되었습니다.
- ISO IDMP — 의약품의 물질과 제품을 식별하기 위한 ISO 계열(11238, 11615, 11616, 11239, 11240)로, OWL 온톨로지가 아니라 구조화된 표준이며 EMA의 SPOR 서비스로 상용 환경에 구현되어 있습니다.
- UNII / GSRS — ISO 11238에 근거한, FDA의 고유 물질 식별자와 이를 발급하는 Global Substance Registration System입니다.
- QUDT 대 UCUM — 두 개의 상용 단위 어휘로, QUDT는 Allotrope ADF 안에 올라타고, UCUM은 HL7/FHIR와 규제 스택 안에서 의무화된 단위 문법입니다.
- ChEBI — EMBL-EBI의 참조 화학 온톨로지로, 이를 재사용하는 파일과 온톨로지를 통해 제약 제조에 간접적으로 존재합니다.
- PROV-O — W3C 출처 온톨로지로, FAIR 데이터 카탈로그에서 이력과 계보를 모델링하는 상용 등급 표준입니다.
- 성숙도 단계(maturity tier) — 이 장의 정렬 축으로, 온톨로지의 품질이 아니라 실제 시스템 의존의 깊이로 판단한 상용·형식, 상용·간접, 또는 파일럿·제안·학술의 구분입니다.
다음 이야기
어휘는 이야기의 절반에 불과합니다.
누군가는 그것을 적재하는 기계를 포장하고, 호스팅하고, 팔아야 합니다.
다음 장 플랫폼: 벤더는 시맨틱을 어떻게 파는가는 표준에서 그것을 감싸는 상업 시스템으로 방향을 돌립니다.
이 장은 이 단계 구분이 설정한 질문을 던집니다. 벤더의 피칭에 담긴 "시맨틱"의 얼마만큼이 그 밑바닥의 AFO와 PROV-O이고, 얼마만큼이 관계형 데이터베이스 위에 덧칠한 마케팅인가.