정직한 평결: 온톨로지가 풀어 주는 것, 그리고 사람에게 남기는 것
📍 현재 위치: 8부 · 평결 — 마지막 31장. 우리는 바이오공정을 처음부터 끝까지 모델링했습니다. 이번 장은 한참 뒤로 물러서서, 우리가 무엇을 만들었는지에 대한 진실 — 그 진짜 힘과 진짜 한계 — 을 이야기합니다.
이 책은 서른 개 장에 걸쳐 하나의 주장을 펼쳤습니다. 저장된 사실은 그 의미가 모델링될 때 비로소 지식(knowledge)이 되며, 바이오공정을 온톨로지(ontology)로 모델링하면 기록 더미가 항해 가능하고 질의 가능하며 신뢰할 수 있는 하나의 전체로 바뀐다는 것입니다. 이 주장은 참입니다. 그러나 이것은 또한 불완전하며, 정직한 책이라면 약속만큼이나 그 불완전함도 분명히 알려 줄 의무가 있습니다. 모든 장이 일부러 "미해결 과제"로 끝맺었습니다. 이번 장은 그것들을 한데 모읍니다. 왜냐하면 그것들을 가로지르는 패턴이야말로 — 어떤 단일 기법보다도 날카로운 — 온톨로지가 무엇을 위한 것이고 무엇을 할 수 없는지에 대한 진짜 교훈이기 때문입니다.
훌륭한 지도는 여정을 바꿔 놓습니다. 경로를 계획하고, 무엇이 무엇과 연결되는지 보며, 위급한 상황에서도 길을 찾을 수 있죠. 하지만 지도는 영토가 아닙니다 — 오늘 아침 다리가 떠내려갔다는 사실을 알려 주지 못하고, 엉뚱한 골짜기를 아름답게 그린 지도는 당신을 자신만만하게 벼랑 아래로 이끌 것입니다. 온톨로지(ontology)는 어떤 공정에 대한 훌륭한 지도입니다. 이번 장은 그 양쪽 모두에 정직합니다. 지도가 얼마나 도움이 되는지, 그리고 왜 여전히 영토를 아는 사람 — 지도를 영토에 비추어 점검하고, 그것이 한낱 지도임을 기억하는 사람 — 이 필요한지 말입니다.
이 장에서 다루는 내용
우리는 온톨로지가 진정으로 풀어 주는 것과 사람에게 남기는 것을 분명하게 갈라내고, 모든 한계가 하나의 형태를 공유한다는 점 — 모델은 구조(structure)를 보장하고 사람은 실질(substance)을 공급한다는 것 — 을 보이며, 모델링이 할 만한 가치가 있을 때에 대해 냉정한 답을 내놓고, 이 책이 줄곧 향해 온 갈래 — 다음 책의 학습이라는 렌즈 — 을 가리키며 책을 닫습니다.
온톨로지가 진정으로 풀어 주는 것
이것들은 마케팅이 아니라, 실제로 거두어들인 진짜 성과입니다. 이것들이 그 모든 노력을 정당화하므로, 진지하게 받아들이십시오.
구조의 상호운용성(interoperability of structure). 모든 용어를 BFO 척추와 IOF 중간 계층에 고정한다는 것은, 한 팀이 만든 클래스가 다른 팀이 만든 클래스와 맞춤형 어댑터 없이도 구조적으로 호환된다는 뜻입니다 — 사적인 방언의 함정이 설계 단계에서 봉쇄되는 것이죠. 질의 가능한 계보와 영향(queryable lineage and impact). 충실한 derivedFrom 간선과 이행적 속성(transitive property)은 "이것은 어디서 왔는가?"와 "이것과 운명을 함께하는 것은 무엇인가?"를, 몇 주에 걸친 고고학 발굴이 아니라 한 줄짜리 질의로 바꿔 줍니다 — 디지털 스레드가 진정으로 실현되는 것입니다. 강제 가능한 완전성(enforceable completeness). SHACL 출하 게이트는 모든 필수 결과가 존재하고, 단일하며, 타입이 지정되고, 범위 안에 있으며, 서명되었는지를 기계적이고 지칠 줄 모르게 검사합니다 — 어떤 사람의 체크리스트도 이만큼 안정적으로 적용하지 못하는, 불완전함에 대한 방벽입니다. 공유되고 스스로를 기술하는 의미(shared, self-describing meaning). 전역 IRI와 QUDT 단위는 값이 결코 맨몸으로 떠돌지 않고 이름이 결코 충돌하지 않게 해 주며, 이는 데이터를 FAIR하게 만드는 토대입니다. 이것들은 결코 작은 일이 아닙니다. 이것들을 이루어 낸 공장은 자신의 데이터를 단지 가지고 있는 무언가에서 실제로 쓸 수 있는 무언가로 바꿔 놓은 것입니다.
온톨로지가 사람에게 남기는 것
그리고 여기, 모든 장의 미해결 과제에서 모은 다른 쪽 칸이 있습니다 — 아무리 우아하더라도 모델이 할 수 없는 것들입니다.
정확성(correctness). 추론기는 온톨로지가 일관적임(consistent)을 증명할 뿐 결코 정확함(correct)을 증명하지 못하고(공리), SHACL 게이트는 기록이 완전함(complete)을 증명할 뿐 결코 참(true)임을 증명하지 못하며(출하), LRV는 검증된 주장(validated claim)일 뿐 측정값(measurement)이 아니고(바이러스 안전성), 통신선 위의 RDF는 규격에 적합할(compliant) 뿐 사실상 FAIR(FAIR-in-fact)하지는 않습니다(FAIR). 자신만만하게 잘못 이름 붙었으나 그럴듯한 값은 모든 기계 검사를 통과합니다. 정체성 조정(identity reconciliation). 네 시스템의 이름이 같은 실세계 대상을 가리킨다고 판단하는 일은 여전히 대체로 수작업이며, 잘못된 owl:sameAs는 거짓 사실을 소리 없이 전파합니다 — 세포 은행 뿌리와 GS1 가교에서 가장 날카롭게 드러나는, 정체성의 풀리지 않은 절반입니다. OBO–IOF 이음매(the OBO–IOF seam). 표적을 기술하는 생의학 온톨로지와 그것을 만드는 일을 기술하는 제조 온톨로지는 둘 다 BFO에 기반하지만 매끄럽게 이어져 있지는 않습니다. 그 사이를 잇는 교차 매핑(crosswalk)은 당신이 직접 저작해야 할 몫입니다. 연속 공정의 개별화(continuous-processing individuation). 계보를 깔끔하게 만들어 주는 그 편안한 배치-단위공정 경계는, 제품이 연속적으로 흐를 때 녹아 사라지며, 시간으로 한정되는 로트(lot)에 대한 정착된 온톨로지가 아직 없습니다. 조직 간 연합(cross-organizational federation). 실타래는 공장 안에서는 무쇠처럼 단단하지만, 그 너머에서는 당신이 강제할 수 없는 당사자들에게 의존하는 취약한 연합이 됩니다. 거버넌스 규율(governance discipline). 모델은 오직 관리(stewardship)를 통해서만 참으로 남습니다 — 어떤 기술도 공급해 주지 않는 사회적 약속이죠 — 그리고 대부분의 온톨로지 프로젝트는 논리가 아니라 거버넌스에서 실패합니다.
한눈에 보는 평결: 왼쪽 칸은 실재하며 거두어들인 것이고, 오른쪽 칸은 실재하며 여전히 남아 있는 것입니다 — 그리고 오른쪽의 모든 항목은 하나의 형태를 공유합니다. 모델이 구조를 보장하는 반면 사람은 실질을 공급해야 한다는 것입니다.
저자가 AI의 도움을 받아 직접 제작한 그림입니다.
모든 한계 아래에 깔린 패턴: 구조 대 실질
두 칸을 나란히 놓고 보면, 미해결 과제들은 흩어진 단서 목록처럼 보이기를 멈추고 하나의 형태로 정리됩니다. 모든 경우에서, 온톨로지는 구조를 보장하고, 사람은 실질을 공급해야 합니다. 모델은 공정이 발생체(occurrent)이고 순도가 성질(quality)임을 보장합니다 — 그러나 당신이 이 포집물을 올바르게 분류했음을 보장하지는 않습니다. 모델은 기록이 완전함을 보장합니다 — 그러나 거기 담긴 숫자가 참임을 보장하지는 않습니다. 모델은 두 용어가 구조적으로 호환됨을 보장합니다 — 그러나 두 팀이 같은 것을 골랐음을 보장하지는 않습니다. 모델은 이름이 전 세계적으로 유일함을 보장합니다 — 그러나 당신이 그것을 올바른 실세계 대상에 짝지었음을 보장하지는 않습니다. 이것은 미래 버전에서 기워 메울 결함이 아닙니다. 그것은 형식 모델의 본성입니다. 모델은 실질을 담기 위한 구조이며, 파일 정리 체계가 파일을 써 줄 수 없는 것과 마찬가지로 그 실질을 공급할 수는 없습니다. 이것을 또렷이 보는 것이야말로 온톨로지를 잘 쓰는 것과 그것을 과신하는 것을 가르는 분기점입니다. 구조가 닿는 데까지 정확히 그만큼만 거기에 기대고, 인간의 판단, 데이터 무결성, 거버넌스가 오직 그들만이 할 수 있는 일을 계속하도록 두는 것입니다.
모델링이 할 만한 가치가 있을 때 — 그리고 없을 때
정직한 비용-편익은 이 패턴에서 따라 나옵니다. 온톨로지로의 모델링은 당신에게 필요한 질문이 시스템을 가로지르거나, 재귀적이거나, 계보 형태일 때 — 이것은 무엇에서 유래했는가, 무엇과 운명을 함께하는가, 어떤 파라미터가 이 속성을 좌우했는가 — 값을 합니다. 그것들이야말로 그래프가 답하고 기록 더미는 답할 수 없는 바로 그 질문이기 때문입니다. 모델링은 시스템, 사이트, 조직을 가로지르는 상호운용성이 목표일 때 값을 합니다. 짝마다 어댑터를 만들지 않고 그것을 이루어 주는 유일한 것이 공유된 상위 온톨로지이기 때문입니다. 모델링은 규제되는 수명주기가 수십 년과 감사를 견뎌 내는 추적성을 요구할 때 값을 합니다. 모델링은 "할 수 있으니까" 모든 것을 가장 고운 입자까지 모델링하는 데에는 값을 하지 않습니다. 과도한 공리화(over-axiomatization)는 추론을 다루기 어렵게 만들고, 모든 바이알과 공정 운전(run)의 매초를 모델링하는 것은 그래프를 빠뜨려 죽이며, 아무도 관장하지 않는 모델은 썩어서 부채가 됩니다. 규율이란, 당신의 실제 질문이 요구하는 입자 수준에서 모델링하고, 공유 표준에 고정하며, 당신이 만든 것을 관장하고, 거기서 멈추는 것입니다. 온톨로지는 특정한 일을 위한 강력한 도구이지, 극대화해야 할 미덕이 아닙니다.
미해결 과제: 가장 깊은 것은 사람의 문제다
이 책에 마지막 미해결 과제가 하나 있다면, 그것은 이것입니다. 바이오공정을 지식으로 모델링하는 데 발목을 잡는 제약은 기술이 아닙니다 — RDF, OWL, SHACL, BFO, IOF, QUDT, 그리고 LinkML은 성숙하고, 표준화되어 있으며, 대체로 무료입니다 — 그것은 의미를 올바르게 저작하고, 정체성을 정직하게 조정하며, 모델을 충실히 관장하고, 과도하게 모델링하려는 유혹과 과신하려는 유혹 둘 모두에 저항하는 인간의 규율입니다. 오른쪽 칸의 모든 기술적 한계는 결국 한 사람에게로 되돌아갑니다. 누군가가 분류하고, 누군가가 짝짓고, 누군가가 관리하며, 누군가가 무엇이 참인지 결정합니다. 이 분야의 진정한 최전선은 더 나은 트리플스토어가 아닙니다. 그것은 조직의 실천 — 현장에서 실제로 저작되는 통제된 어휘, 실제로 인력이 배치되는 거버넌스, 실제로 구축되는 조직 간 신뢰 — 이며, 이것이 표준 적합성을 사실상의 FAIR함으로 바꿔 줍니다. 이것은 정신이 번쩍 들게 하면서 또한 또렷하게 해 주는 사실입니다. 나아갈 길은 이미 알려져 있고, 그것은 대체로 화려하지 않은 일을 오랫동안 잘 해내는 문제라는 뜻이니까요.
왜 중요한가
약속만을 팔아넘기는 책은 당신을 바로 그 과신 — 그래프를 자신만만한 거짓말쟁이로 만드는 그 과신 — 으로 오도할 것입니다. 이 평결이 중요한 까닭은 당신이 도구를 어떻게 쥐는지가 그것이 도움이 될지를 결정하기 때문입니다. 온톨로지가 진정으로 보장하는 구조에 기대면 온톨로지는 어떤 공정의 데이터를 질의 가능하고, 상호운용 가능하며, 강제 가능한 지식으로 바꿔 놓습니다. 구조를 실질로 착각하면, 당신은 완전하지만 거짓인 기록, 일관적이지만 틀린 모델, 적합하지만 텅 빈 그래프를 신뢰하게 될 것입니다. 이 책 전체는 하나의 습관 — 구조를 엄정하게 모델링하고, 인간의 판단, 무결성, 거버넌스가 실질을 계속 공급하도록 두는 것 — 을 가르쳐 왔으며, 이번 장은 그것이 기법보다 오래 살아남도록 그 습관을 똑똑히 이름 붙입니다.
실제 현장에서는
7부의 조사를 종합하면, 산업이 온톨로지 작업의 산출물을 실제로 쓰는 방식은 여섯 가지 패턴으로 정리되며, 가파른 성숙도 기울기 위에 놓입니다 — 맨 위는 상용 단계이고, 맨 아래 GMP 실행 현장은 아직 비어 있습니다.
| 산출물을 쓰는 방식 | 대표적 실제 사례 | 무엇을 소비하고 실행하는가 | 성숙도 |
|---|---|---|---|
| 분석 실험실 데이터 시맨틱 | AFO와 Allotrope Simple Model; 파일 안의 QUDT 단위 | 기기가 의미를 달고 다니는 결과를 내보냅니다 — 장비·물질·프로세스·결과가 타입으로, 단위는 IRI로 — 그리고 벤더들은 ASM을 지식 그래프로 흘려보내 AI-ready 데이터로 만듭니다 | 상용 단계 |
| 규제 식별과 마스터 데이터 | IDMP와 SPOR, UNII, SPL; Accurids 위의 J&J IDMP-O 제품 마스터 | 제품이 무엇인지에 대한 거버넌스된 기록을 기계 판독 가능한 식별자로 규제기관 제출에 실어 보냅니다 — bp:DS-001 뒤의 기층 | 상용 단계 |
| R&D 및 FAIR 지식 그래프 | Roche EDIS, Boehringer, Novo Nordisk OBDM, Novartis data42, AstraZeneca BIKG | 데이터셋을 찾아 재사용하고, 오믹스·IT·문서·임상을 페더레이션하며, 연구 데이터 위에서 추론 그래프를 돌리고, ML 타깃 식별을 구동합니다 | 상용 단계 — R&D 한정 |
| 계보·영향·교차 수명주기 질의 | 이 책의 적재 가능한 데이터셋과 그 검증기; 실제 플랫폼에서는 동일한 derivedFrom 경로가 R&D 측에서 Foundry 객체 링크나 Neo4j Cypher로 실행됩니다 | "이것이 무엇에서 파생됐나", "무엇이 운명을 공유하나", "어떤 파라미터가 이 속성을 결정했나"를 한 줄 그래프 질의로 — 규격을 벗어난 로트를 거부하는 SHACL 게이트와 함께 | R&D 측; 코드로 검증됨 |
| 그래프 위에 AI 정초 (GraphRAG) | Merck Synaptix, Bayer 환자 맵, Syngenta NOCTIS; Pistoia CMC Process Ontology Phase 3 | 모델이 지어내는 대신 타입된 간선을 따라 답하고 그것을 인용합니다 — 발견 측이지 방출 결정용은 아님 | 대개 파일럿 |
| GMP 제조 현장 시맨틱 | Sanofi Modulus와 Pistoia Methods Hub | 실행 현장은 여전히 닫힌 구조화 모델(PAS-X, PI Asset Framework)과 통계 모델로 돌아갑니다; 여기서 형식 온톨로지는 상용이 아니라 파일럿입니다 | 아직 아님 — 파일럿 |
표준들은 실재하며 수렴하고 있습니다. BFO는 ISO/IEC 표준이고, OBO 파운드리는 거의 20년 동안 상호운용 가능한 생의학 온톨로지를 관장해 왔으며, IOF와 그 바이오제약 협의회는 같은 규율을 제조 분야로 가져오고, FAIR는 발표된 지표를 갖춘 측정 가능한 목표입니다 [1][2][3]. 7부의 산업 조사는 그 수렴과 불균형을 모두 또렷이 드러냅니다. 오늘날 진정으로 상용 단계인 시맨틱은 분석 실험실 데이터(AFO와 Allotrope Simple Model)와 법으로 의무화된 규제 식별(IDMP와 SPOR, UNII, SPL)에 살아 있는 반면, 제조 공정 온톨로지는 여전히 파일럿에 머물고 GMP 현장은 아직 구조화 데이터와 통계 모델로 돌아갑니다 — 그리고 가장 요란한 새 동력인 그래프 위에 AI를 정초하는 일조차 바로 이번 장이 다루는 그 규율의 무게를 더 키울 뿐입니다. 그 실세계의 분할이 이번 평결의 명제이며, 이미 일어나고 있습니다. 구조는 표준화되어 도착하는 중이고, 실질 — 올바르고, 관장되며, 사실상 FAIR한 데이터 — 은 여전히 미완의, 사람의 몫입니다. 오픈소스 책은 그 엔진이 노트북 위에서 돌아간다는 것을 입증합니다. 이 책 전체에 쓰인 실행 예제는 그 자체로 적재 가능한 데이터셋이며, 그 검증기는 평결의 두 절반을 한 호흡에 보고합니다 — 추론기는 원료의약품에서 세포 은행으로 거슬러 올라가는 이행적 계보를 닫고, 모든 질의가 답하며, SHACL 게이트는 규격을 벗어난 형제 로트가 정말로 규격을 벗어났기 때문에 정직하게 적합을 거부합니다.
[1] parsed 2100 triples (bioproc + align + instances)
[2] reasoned: 2100 -> 7089 triples after OWL-RL closure
transitive derivedFrom inferred DS-001 -> WCB-CHO-001: True
transitive derivedFrom inferred DS-001 -> RCB-CHO-001: True
equipment BR-101 inferred BFO material entity: True
[3] lineage walk from DS-001: 11 ancestors
BATCH-2026-001 CLAR-001 MCB-CHO-001 PApool-001 POLpool-001 RCB-CHO-001
SEED-001 SEEDFLASK-001 VFpool-001 VIpool-001 WCB-CHO-001
lineage+CQA (originating batch): {'BATCH-2026-001': 98.611}
impact of DP-004 (shared cell bank): ['DP-001', 'DP-002']
affectsQuality edges: [('FeedRate', 'MonomerPct-CQA'), ('Temperature', 'MonomerPct-CQA')]
run -> vessel (occursIn): [('CCP-001', 'BR-101', 'ProductionBioreactor')]
HMW trajectory along the chain: [('PApool-001', 4.1), ('POLpool-001', 1.4)]
orthogonal viral-clearance LRVs: [('VF-001', 4.2), ('VI-001', 4.5)] # total 8.7
[4] SHACL whole-graph conforms: False # DS-004/DP-004 fail hmwPct MaxInclusive (2.41 > 2.0)
violating focus nodes: ['DP-004', 'DS-004'] failing paths: ['hmwPct']
DS-001-only graph conforms: True
planted Batch-is-a-Process caught (conforms False): True
planted Batch-also-Bioreactor caught (conforms False): True
ALL CHECKS PASSED
2,097개에서 7,077개 트리플로의 증가는 OWL-RL 폐포가 이번 장이 인정하는 그 구조적 작업을 해내는 것이며, conforms: False는 게이트가 정확히 제 일을 하는 것입니다. 이제 배치는 한 번만 나타납니다 — 오직 Batch로만 타입이 지정되고, 용기는 따로 분리되었으며 — 두 비배타성(disjointness) 가드 모두 심어 둔 혼동을 잡아냅니다. 그것이 구체적으로 드러난 평결입니다. 구조는 돌아가고, 그것은 자신의 한계에 대해 정직합니다. 정직한 실무자라면 누구나 보고하는 바가 바로 이번 장의 그 분할입니다. 기술은 준비되어 있고, 규율이 실재하는 곳에서는 성과도 실재한다는 것이죠 — 어떤 공장의 온톨로지가 5년 뒤에 자산이 될지를 결정하는 요인이 트리플스토어의 선택이 아니라, 오른쪽 칸이 요구하는 인간의 실천에 대한 그 공장의 헌신인 까닭이 바로 이것입니다.
핵심 용어
- 구조 대 실질(structure versus substance) — 모든 것을 꿰는 패턴. 온톨로지는 의미의 구조(범주, 호환성, 완전성, 유일성)를 보장하는 반면, 사람은 실질(올바른 분류, 참인 값, 옳은 짝짓기, 충실한 관리)을 공급해야 함.
- 거두어들인 성과(the earned wins) — 상호운용 가능한 구조, 질의 가능한 계보와 영향, 강제 가능한 완전성, 그리고 공유되고 스스로를 기술하는 의미. 모델링이 가져다주는 진짜 가치.
- 여전히 남은 한계(the remaining limits) — 정확성, 정체성 조정, OBO–IOF 이음매, 연속 공정의 개별화, 조직 간 연합, 그리고 거버넌스 규율. 모델이 사람에게 남기는 것.
- 언제 모델링할 것인가(when to model) — 질문이 시스템을 가로지르거나, 재귀적이거나, 계보 형태일 때, 상호운용성이 목표일 때, 또는 규제되는 수명주기가 오래 견디는 추적성을 요구할 때. 그 자체를 위해 극대화하기 위한 것이 아님.
- 가장 깊은 미해결 과제(the deepest unsolved part) — 발목을 잡는 제약은 성숙한 기술이 아니라 인간의 규율(저작하고, 조정하고, 관장하며, 과신하지 않는 것).
다음 이야기
이로써 바이오의약품 제조를 위한 온톨로지(Ontologies for Biopharmaceutical Manufacturing)가 완결됩니다 — 의미라는 렌즈를 통해 처음부터 끝까지 걸어온 바이오공정이, 그 힘과 한계를 모두 적나라하게 드러낸 채로 말입니다. 그러나 의미는 이 시리즈가 갈라져 나가는 두 렌즈 중 하나일 뿐입니다. 짝을 이루는 책 바이오의약품 제조에서의 머신러닝과 AI(Machine Learning and AI in Biopharmaceutical Manufacturing)는 같은 공정을 이번에는 학습(learning)이라는 렌즈를 통해 다시 걸어갑니다 — 소프트 센서, 하이브리드 모델, 그리고 데이터 책의 머신러닝 장에서 처음 만난 검증된 AI 말입니다 — 그리고 그 책은 정확히 이 책이 만든 것을 필요로 합니다. 학습하는 모델은 그것이 학습하는 구조화되고 FAIR하며 잘 관장되는 지식만큼만 신뢰할 수 있기 때문입니다. 온톨로지는 바이오공정에 추론할 수 있는 기억을 부여하고, 머신러닝은 예측할 수 있는 방법을 부여합니다. 두 렌즈는 자연스러운 한 쌍이며, 다음 책은 그 두 번째를 이어받습니다.