정직한 평결: 온톨로지가 풀어 주는 것, 그리고 사람에게 남기는 것

📍 현재 위치: 제9부 · 평결 — 마지막 장. 우리는 바이오공정을 처음부터 끝까지 모델링했습니다. 이번 장은 한참 뒤로 물러서서, 우리가 무엇을 만들었는지에 대한 진실 — 그 진짜 힘과 진짜 한계 — 을 이야기합니다.

이 책은 모든 장에 걸쳐 하나의 주장을 펼쳤습니다. 저장된 사실은 그 의미가 모델링될 때 비로소 지식(knowledge)이 되며, 바이오공정 — 세포를 키우는 일에서 제품을 정제하고 충전하는 일까지, 약을 만드는 전 과정 — 을 온톨로지(ontology)로 모델링하면 기록 더미가 항해 가능하고 질의 가능하며 신뢰할 수 있는 하나의 전체로 바뀐다는 것입니다. (이 책에서 온톨로지(ontology)란, 어떤 영역에 있는 사물의 유형 — 배치, 물질, 장비, 품질 결과 — 과 그것들을 잇는 관계 및 규칙을 명시한 기계 판독 가능한 파일이며, 그래서 소프트웨어가 단지 텍스트를 저장하는 데 그치지 않고 그 의미를 두고 추론할 수 있게 해 줍니다.) 이 주장은 참입니다. 그러나 이것은 또한 불완전하며, 정직한 책이라면 약속만큼이나 그 불완전함도 분명히 알려 줄 의무가 있습니다. 모든 장이 일부러 "미해결 과제"로 끝맺었습니다. 이번 장은 그것들을 한데 모읍니다. 왜냐하면 그것들을 가로지르는 패턴이야말로 — 어떤 단일 기법보다도 날카로운 — 온톨로지가 무엇을 위한 것이고 무엇을 할 수 없는지에 대한 진짜 교훈이기 때문입니다.

쉽게 말하면

훌륭한 지도는 여정을 바꿔 놓습니다. 경로를 계획하고, 무엇이 무엇과 연결되는지 보며, 위급한 상황에서도 길을 찾을 수 있죠. 하지만 지도는 영토가 아닙니다 — 오늘 아침 다리가 떠내려갔다는 사실을 알려 주지 못하고, 엉뚱한 골짜기를 아름답게 그린 지도는 당신을 자신만만하게 벼랑 아래로 이끌 것입니다. 온톨로지(ontology)는 어떤 공정에 대한 훌륭한 지도입니다. 이번 장은 그 양쪽 모두에 정직합니다. 지도가 얼마나 도움이 되는지, 그리고 왜 여전히 영토를 아는 사람 — 지도를 영토에 비추어 점검하고, 그것이 한낱 지도임을 기억하는 사람 — 이 필요한지 말입니다.

이 장에서 다루는 내용

우리는 온톨로지가 진정으로 풀어 주는 것과 사람에게 남기는 것을 분명하게 갈라내고, 모든 한계가 하나의 형태를 공유한다는 점 — 모델은 구조(structure)를 보장하고 사람은 실질(substance)을 공급한다는 것 — 을 보이며, 모델링이 할 만한 가치가 있을 때에 대해 냉정한 답을 내놓고, 이 책이 줄곧 향해 온 갈래 — 다음 책의 학습이라는 렌즈(이 학습이라는 렌즈(learning lens)는 이 시리즈의 또 다른 절반입니다 — 이 책이 데이터가 무엇을 의미하는지를 모델링한다면, 다음 책은 데이터를 써서 예측합니다) — 을 가리키며 책을 닫습니다.

온톨로지가 진정으로 풀어 주는 것

이것들은 마케팅이 아니라, 실제로 거두어들인 진짜 성과입니다. 이것들이 그 모든 노력을 정당화하므로, 진지하게 받아들이십시오.

구조의 상호운용성(interoperability of structure). 모든 용어를 BFO 척추 — BFO, 즉 기초 형식 온톨로지(Basic Formal Ontology)는 모든 영역 온톨로지가 매달리는 최상위 범주(객체, 프로세스, 성질)의 작고 표준화된 어휘이며, 골격의 "척추"입니다 — 와 IOF 중간 계층 — 산업 온톨로지 파운드리(Industrial Ontology Foundry), BFO 위에 세워진 제조 용어의 공유된 중간 계층 — 에 고정한다는 것은, 한 팀이 만든 클래스가 다른 팀이 만든 클래스와 맞춤형 어댑터 없이도 구조적으로 호환된다는 뜻입니다. (클래스(class)란 "바이오리액터" 같은 하나의 유형이고, 사적인 방언의 함정(private-dialect trap)이란 각 팀이 자기만의 호환되지 않는 용어를 지어내는 것이며, 공유된 상위 온톨로지는 그것을 설계 단계에서부터 봉쇄합니다 — 상호운용성이 나중에 덧붙여지는 것이 아니라 처음부터 내장되는 것이죠.) 질의 가능한 계보와 영향(queryable lineage and impact). 충실한 derivedFrom 간선(간선(edge)이란 그래프에서 두 사물 사이에 저장된 관계이며 — 여기서는 "이 물질은 저것에서 유래했다"는 것입니다)과 이행적 속성(transitive property)(이행적(transitive)이란 관계가 자동으로 연쇄된다는 뜻입니다. A가 B에서 유래하고 B가 C에서 유래하면, A는 C에서 유래합니다)은 "이것은 어디서 왔는가?"와 "이것과 운명을 함께하는 것은 무엇인가?"를, 몇 주에 걸친 고고학 발굴이 아니라 한 줄짜리 질의로 바꿔 줍니다 — 디지털 스레드(digital thread)(시스템과 단계를 가로질러 한 제품에 관한 모든 기록을 잇는, 하나로 연결된 자취)가 진정으로 실현되는 것입니다. 강제 가능한 완전성(enforceable completeness). SHACL 출하 게이트 — SHACL(셰이프 제약 언어(Shapes Constraint Language))는 데이터 검증 규칙을 작성하기 위한 표준이고, 출하 게이트(release gate)란 약을 방출하기 전에 한 배치의 기록이 통과해야 하는 자동 검사입니다 — 는 모든 필수 결과가 존재하고, 단일하며, 타입이 지정되고, 범위 안에 있으며, 서명되었는지를 기계적이고 지칠 줄 모르게 검사합니다 — 어떤 사람의 체크리스트도 이만큼 안정적으로 적용하지 못하는, 불완전함에 대한 방벽입니다. 그리고 그 검사 자체가 실행 가능합니다. 23개의 적격성 질문(competency questions)(온톨로지가 답하기 위해 만들어진 구체적 질문들로, 미리 합의됩니다)이 곧 인수 시험 묶음입니다 — 요구사항과 시험이 같은 산출물인 실행 가능한 ORSD(온톨로지 요구사항 명세서(Ontology Requirements Specification Document), 모델이 해내야 할 일의 명세)이죠 — 그래서 "모델은 여전히 완전한가?"는 검토 회의가 아니라 0 또는 0이 아닌 값으로 끝나는 명령(종료 코드 0은 통과를, 0이 아닌 값은 실패를 뜻하며, 이것이 자동 검사가 통과/실패를 보고하는 방식입니다)이며, 이는 자신의 검사를 문서화하는 품질 시스템과 그것을 실행하는 품질 시스템의 차이입니다. 공유되고 스스로를 기술하는 의미(shared, self-describing meaning). 전역 IRI와 QUDT 단위 — IRI(국제화 자원 식별자(Internationalized Resource Identifier), 웹 방식의 전 세계적으로 유일한 이름)와 QUDT(수량·단위·차원·유형(Quantities, Units, Dimensions and Types)의 표준 어휘) — 는 값이 결코 맨몸으로 떠돌지 않게(언제나 자신의 단위를 지니게) 하고 이름이 결코 충돌하지 않게(두 팀의 식별자가 결코 혼동될 수 없게) 해 주며, 이는 데이터를 FAIR(찾을 수 있고, 접근 가능하며, 상호운용 가능하고, 재사용 가능함(Findable, Accessible, Interoperable, Reusable) — 남들이 실제로 쓸 수 있는 데이터의 표준)하게 만드는 토대입니다 — FAIR 장을 보십시오. 이것들은 결코 작은 일이 아닙니다. 이것들을 이루어 낸 공장은 자신의 데이터를 단지 가지고 있는 무언가에서 실제로 쓸 수 있는 무언가로 바꿔 놓은 것입니다.

온톨로지가 사람에게 남기는 것

그리고 여기, 모든 장의 미해결 과제에서 모은 다른 쪽 칸이 있습니다 — 아무리 우아하더라도 모델이 할 수 없는 것들입니다.

정확성(correctness). 추론기(reasoner) — 온톨로지의 규칙으로부터 새로운 사실을 도출하는 자동 논리 엔진 — 는 온톨로지가 일관적임(consistent)(자기모순이 없음)을 증명할 뿐 결코 정확함(correct)을 증명하지 못하고(공리), SHACL 게이트는 기록이 완전함(complete)을 증명할 뿐 결코 참(true)임을 증명하지 못하며(출하), LRV — 로그 감소값(Log Reduction Value), 한 단계가 바이러스를 얼마나 제거하거나 불활성화하는지를 재는 지표 — 는 검증된 주장(validated claim)일 뿐 측정값(measurement)이 아니고(바이러스 안전성), 통신선 위의 RDF(자원 기술 프레임워크(Resource Description Framework), 이 사실들이 저장되는 그래프 데이터 형식) — 즉 시스템 사이를 오가는 그대로의 RDF — 는 규격에 적합할(compliant) 뿐 사실상 FAIR(FAIR-in-fact)하지는 않습니다(FAIR). 자신만만하게 잘못 이름 붙었으나 그럴듯한 값은 모든 기계 검사를 통과합니다. 정체성 조정(identity reconciliation). 네 시스템의 이름이 같은 실세계 대상을 가리킨다고 판단하는 일은 여전히 대체로 수작업이며, 잘못된 owl:sameAs는 거짓 사실을 소리 없이 전파합니다. (OWL, 즉 웹 온톨로지 언어(Web Ontology Language)는 RDF 위에 얹히는 논리 계층이고, owl:sameAs는 그것의 가장 강한 정체성 진술입니다 — 두 이름이 하나의 동일한 개체를 가리킨다고 선언하므로, 추론기는 둘에 대해 알려진 모든 것을 융합합니다.) 이것은 세포 은행 뿌리와 GS1 가교에서 가장 날카롭게 드러나는, 정체성의 풀리지 않은 절반입니다. 실행 그래프는 바로 여기서 자신의 절제를 모델링합니다. 직렬화된 바이알을 그 GS1 키에 교차 연결할 때 그래프는 skos:exactMatch를 단언합니다 — SKOS(단순 지식 조직 체계(Simple Knowledge Organization System))에서 온, "이 두 기록(각각 정보 산출물(information artifact) — 물리적 사물 그 자체가 아니라 사물에 관한 기록이나 식별자)은 같은 것에 관한 것이다"라고 두 개체를 병합하지 않고 말하는, 문서화되고 철회 가능한 매핑(mapping)이라는 더 부드러운 선택이죠 — 두 개체를 융합해 추론기가 모든 속성을 병합하게 만드는 owl:sameAs가 아닙니다. owl:sameAs는 망치이며, 대부분의 실제 정체성 연결은 더 부드러운 SKOS 매핑을 원하고, 잘못 고르는 것이야말로 그래프가 자신만만한 거짓말을 시작하는 방식입니다.

OBO–IOF 이음매(the OBO–IOF seam). 표적 — 약이 작용하도록 설계된, 몸속의 분자이며, 생의학 어휘가 기술하는 대상 — 을 기술하는 생의학 온톨로지(OBO 계열 — 개방형 생물학·생의학 온톨로지(Open Biological and Biomedical Ontologies), 그것들을 조율하는 공동체)와 그것을 만드는 일을 기술하는 제조 온톨로지는 둘 다 BFO에 기반하지만 매끄럽게 이어져 있지는 않습니다 — 그것들은 두 개의 분리된 어휘 세계로 자라났습니다. 하나는 분자와 질병을 기술하려고 생의학 연구자들이, 다른 하나는 장비와 공정을 기술하려고 제조 엔지니어들이 만든 것이라, 그 용어들은 누군가가 의도적으로 연결하는 곳에서만 만납니다. 그 사이를 잇는 교차 매핑(crosswalk)(두 어휘 사이를 손으로 저작한 매핑)은 당신이 직접 저작해야 할 몫이며, 우리 자신의 align.ttl은 그 도달 범위와 정직한 멈춤 지점을 모두 보여 줍니다. 검증된 말단(leaf)이 존재하는 곳에서는 가교를 놓는데 — 트리플(주어–술어–목적어 진술)로 쓰여, bp:Equipment rdfs:subClassOf iof:PieceOfEquipment는 "우리의 Equipment 클래스는 IOF의 PieceOfEquipment의 일종이다"로 읽힙니다(bp: 접두사는 우리 자신의 바이오공정 용어를, iof:는 산업 온톨로지 파운드리의 용어를 표시하며, rdfs:subClassOf는 ~의 일종임을 뜻합니다); 마찬가지로 bp:Quality rdfs:subClassOf BFO 성질 — 존재하지 않는 곳에서는 과잉 주장하기를 거부합니다. bp:MechanismOfAction은 범주 함의(추론기가 작동시켜도 되는, 논리적으로 보장된 ~의 일종임 관계)가 아니라 단지 이름을 공유할 뿐인 어휘적(lexical) 가교로 표시됩니다. 결정적으로 이 파일은 owl:equivalentClass(두 클래스가 정확히 같다는 진술)를 0개, owl:sameAs를 0개 담고 있습니다. 모든 외부 연결은 rdfs:subClassOf 포섭(~의 일종임 연결)이거나 skos:exactMatch입니다. ~의 일종임(is-a-kind-of)을 뜻하면서 동치를 단언하는 것이야말로 하나의 잘못된 추론이 거짓 사실을 소리 없이 전파하는 방식 — 바로 이 칸이 다루는 그 실패 — 이기 때문입니다.

연속 공정의 개별화(continuous-processing individuation). 개별화(individuation)란 무엇을 하나의 별개 사물로 셀지 정하는 일입니다. 계보를 깔끔하게 만들어 주는 그 편안한 배치-단위공정 경계 — 배치(batch)는 하나의 정의된 생산 운전이고, 단위공정(unit operation)은 하나의 처리 단계(가령 크로마토그래피 칼럼이나 여과)이며, 로트(lot)는 그것들이 산출하는 별개의 물질 수량입니다 — 는, 제품이 연속적으로 흐를 때 녹아 사라지며, 시간으로 한정되는 한 로트가 어디서 끝나고 다음 로트가 어디서 시작되는지에 대한 정착된 온톨로지가 아직 없습니다. 조직 간 연합(cross-organizational federation). 실타래는 공장 안에서는 무쇠처럼 단단하지만, 그 너머에서는 당신이 강제할 수 없는 당사자들에게 의존하는 취약한 연합이 됩니다. 거버넌스 규율(governance discipline). 모델은 오직 관리(stewardship)를 통해서만 참으로 남습니다 — 어떤 기술도 공급해 주지 않는 사회적 약속이죠 — 그리고 대부분의 온톨로지 프로젝트는 논리가 아니라 거버넌스에서 실패합니다.

한눈에 보는 평결: 왼쪽 칸은 실재하며 거두어들인 것이고, 오른쪽 칸은 실재하며 여전히 남아 있는 것입니다 — 그리고 오른쪽의 모든 항목은 하나의 형태를 공유합니다. 모델이 구조를 보장하는 반면 사람은 실질을 공급해야 한다는 것입니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

모든 한계 아래에 깔린 패턴: 구조 대 실질

두 칸을 나란히 놓고 보면, 미해결 과제들은 흩어진 단서 목록처럼 보이기를 멈추고 하나의 형태로 정리됩니다. 모든 경우에서, 온톨로지는 구조를 보장하고, 사람은 실질을 공급해야 합니다. 모델은 공정이 발생체(occurrent)이고 순도가 성질(quality)임을 보장합니다 — 그러나 당신이 이 포집물을 올바르게 분류했음을 보장하지는 않습니다. 모델은 기록이 완전함을 보장합니다 — 그러나 거기 담긴 숫자가 참임을 보장하지는 않습니다. 모델은 두 용어가 구조적으로 호환됨을 보장합니다 — 그러나 두 팀이 같은 것을 골랐음을 보장하지는 않습니다. 모델은 이름이 전 세계적으로 유일함을 보장합니다 — 그러나 당신이 그것을 올바른 실세계 대상에 짝지었음을 보장하지는 않습니다. 이것은 미래 버전에서 기워 메울 결함이 아닙니다. 그것은 형식 모델의 본성입니다. 모델은 실질을 담기 위한 구조이며, 파일 정리 체계가 파일을 써 줄 수 없는 것과 마찬가지로 그 실질을 공급할 수는 없습니다. 이것을 또렷이 보는 것이야말로 온톨로지를 잘 쓰는 것과 그것을 과신하는 것을 가르는 분기점입니다. 구조가 닿는 데까지 정확히 그만큼만 거기에 기대고, 인간의 판단, 데이터 무결성, 거버넌스가 오직 그들만이 할 수 있는 일을 계속하도록 두는 것입니다.

모델링이 할 만한 가치가 있을 때 — 그리고 없을 때

정직한 비용-편익은 이 패턴에서 따라 나옵니다. 온톨로지로의 모델링은 당신에게 필요한 질문이 시스템을 가로지르거나, 재귀적이거나, 계보 형태일 때 — 이것은 무엇에서 유래했는가, 무엇과 운명을 함께하는가, 어떤 파라미터가 이 속성을 좌우했는가 — 값을 합니다. 그것들이야말로 그래프가 답하고 기록 더미는 답할 수 없는 바로 그 질문이기 때문입니다. 모델링은 시스템, 사이트, 조직을 가로지르는 상호운용성이 목표일 때 값을 합니다. 짝마다 어댑터를 만들지 않고 그것을 이루어 주는 유일한 것이 공유된 상위 온톨로지이기 때문입니다. 모델링은 규제되는 수명주기가 수십 년과 감사를 견뎌 내는 추적성을 요구할 때 값을 합니다. 가장 날카로운 예시는 규격 이탈(OOS) 사건(허용 한계를 벗어난 결과)입니다. DS-004 — 원료의약품(drug substance), 즉 정제된 활성 성분의 한 로트(여기서는 로트 번호 004) — 가 HMW 응집체 한계(HMW = 고분자량(high-molecular-weight) 응집체, 정해진 한계 아래에 머물러야 하는, 서로 뭉친 항체 분자)를 통과하지 못할 때, 조사자가 며칠 안에 — 21 CFR 211.192(조사를 규율하는 미국 의약품 제조 규정)의 일탈 및 CAPA(시정 및 예방 조치(Corrective and Preventive Action)) 규율 아래, 그리고 어떤 현장 조치(field action)(리콜 또는 시장 회수)든 그 범위를 정하기 위해 — 답해야 하는 질문은 이 로트와 운명을 함께하는 것은 또 무엇인가?입니다. 그래프에서 이것은 단 한 번의 이행적 derivedFrom 순회입니다. 같은 원료의약품에서 충전된 모든 완제의약품(drug product) 로트(완성되어 충전된 투여 형태)로 앞으로, 그리고 공유 세포 은행(cell bank)(모든 배치가 거기서 자라는, 냉동되고 적격성이 확인된 세포 비축물)으로 뒤로 거슬러, 거기서 자란 모든 형제 로트(sibling lot)(같은 부모 물질에서 만들어진 또 다른 로트)를 드러냅니다(여기서는 공유 작업 세포 은행(working cell bank) — 마스터 은행에서 끌어다 쓰는 일상용 바이알 비축물 — 을 통한 DP-001과 DP-002, 두 완제의약품 로트). 이것은 희망 섞인 스케치가 아니라 실행 가능한 영향 질문 CQ-04(적격성 질문 04)이며, 아래 검증기가 이를 통과로 보고합니다(affected = ['DP-001', 'DP-002']) — 다시 한번, 문서화된 추적성 주장과 실제로 실행되는 추적성 주장의 차이입니다. 같은 순회가 공정 변경 후의 동등성 비교와 불만 접수 후의 리콜 범위 산정을 뒷받침합니다. 기록 더미는 몇 주에 걸친 고고학 발굴 없이는 이것에 답할 수 없으며, 20년에 걸친 제품 수명주기의 감사와 변경에 걸쳐 그 간극이 곱해지는 지점이야말로 모델링이 그 비용을 되갚는 바로 그곳입니다. 모델링은 "할 수 있으니까" 모든 것을 가장 고운 입자까지 모델링하는 데에는 값을 하지 않습니다. 과도한 공리화(over-axiomatization) — 너무 많은 논리 규칙(공리)을 쌓아 올리는 것 — 는 추론을 다루기 어렵게(엔진이 합리적인 시간 안에 끝낼 수 없을 만큼 느리게) 만들고, 모든 바이알과 공정 운전(run)의 매초를 모델링하는 것은 그래프를 빠뜨려 죽이며, 아무도 관장하지 않는 모델은 썩어서 부채가 됩니다. 규율이란, 당신의 실제 질문이 요구하는 입자 수준에서 모델링하고, 공유 표준에 고정하며, 당신이 만든 것을 관장하고, 거기서 멈추는 것입니다. 온톨로지는 특정한 일을 위한 강력한 도구이지, 극대화해야 할 미덕이 아닙니다. 그리고 비용-편익은 양쪽 방향으로 정직합니다. 도구는 대체로 무료이지만, 진짜 비용은 라이선스가 아닙니다 — 그것은 지속적이고 숙련된 인간의 주의이며, 의미를 올바르게 저작하는 온톨로지스트, 10년 동안 모델을 관장하는 관리자, 그리고 정체성을 손으로 조정하는 분석가에게 치러집니다.

미해결 과제: 가장 깊은 것은 사람의 문제다

이 책에 마지막 미해결 과제가 하나 있다면, 그것은 이것입니다. 바이오공정을 지식으로 모델링하는 데 발목을 잡는 제약은 기술이 아닙니다 — RDF(그래프 데이터 형식), OWL(논리 언어), SHACL(검증 규칙), BFO(상위 온톨로지), IOF(제조 중간 계층), QUDT(단위 어휘), 그리고 LinkML(연결 데이터 모델링 언어(Linked data Modeling Language), 스키마를 저작하기 위한 것)은 성숙하고, 표준화되어 있으며, 대체로 무료입니다 — 그것은 의미를 올바르게 저작하고, 정체성을 정직하게 조정하며, 모델을 충실히 관장하고, 과도하게 모델링하려는 유혹과 과신하려는 유혹 둘 모두에 저항하는 인간의 규율입니다. 오른쪽 칸의 모든 기술적 한계는 결국 한 사람에게로 되돌아갑니다. 누군가가 분류하고, 누군가가 짝짓고, 누군가가 관리하며, 누군가가 무엇이 참인지 결정합니다. 이 분야의 진정한 최전선은 더 나은 트리플스토어가 아닙니다. 그것은 조직의 실천 — 현장에서 실제로 저작되는 통제된 어휘, 실제로 인력이 배치되는 거버넌스, 실제로 구축되는 조직 간 신뢰 — 이며, 이것이 표준 적합성을 사실상의 FAIR함으로 바꿔 줍니다. 이것은 정신이 번쩍 들게 하면서 또한 또렷하게 해 주는 사실입니다. 나아갈 길은 이미 알려져 있고, 그것은 대체로 화려하지 않은 일을 오랫동안 잘 해내는 문제라는 뜻이니까요.

왜 중요한가

약속만을 팔아넘기는 책은 당신을 바로 그 과신 — 그래프를 자신만만한 거짓말쟁이로 만드는 그 과신 — 으로 오도할 것입니다. 이 평결이 중요한 까닭은 당신이 도구를 어떻게 쥐는지가 그것이 도움이 될지를 결정하기 때문입니다. 온톨로지가 진정으로 보장하는 구조에 기대면 온톨로지는 어떤 공정의 데이터를 질의 가능하고, 상호운용 가능하며, 강제 가능한 지식으로 바꿔 놓습니다. 구조를 실질로 착각하면, 당신은 완전하지만 거짓인 기록, 일관적이지만 틀린 모델, 적합하지만 텅 빈 그래프를 신뢰하게 될 것입니다. 이 책 전체는 하나의 습관 — 구조를 엄정하게 모델링하고, 인간의 판단, 무결성, 거버넌스가 실질을 계속 공급하도록 두는 것 — 을 가르쳐 왔으며, 이번 장은 그것이 기법보다 오래 살아남도록 그 습관을 똑똑히 이름 붙입니다.

실제 현장에서는

제8부의 조사를 종합하면, 산업이 온톨로지 작업의 산출물을 실제로 쓰는 방식은 여섯 가지 패턴으로 정리되며, 가파른 성숙도 기울기 위에 놓입니다 — 맨 위는 상용 단계이고, 맨 아래 GMP(우수 제조 관리 기준(Good Manufacturing Practice), 규제받는 공장 현장 체제 — 모든 변경이 검증되고 감사받아야 하므로, 신기술은 R&D에서 입증된 뒤 몇 년이 지나서야 여기 도착합니다) 실행 현장은 아직 비어 있습니다. (여러 행이 의지하는 지식 그래프(knowledge graph)란, 그저 이런 식의 온톨로지로 타입이 지정된, 연결된 사실의 그래프 모양을 한 데이터베이스이며, 아래의 회사명과 제품명은 실세계 사례일 뿐 외워야 할 것이 아닙니다.)

산출물을 쓰는 방식	대표적 실제 사례	무엇을 소비하고 실행하는가	성숙도
분석 실험실 데이터 시맨틱	AFO와 Allotrope Simple Model(AFO = Allotrope 재단 온톨로지(Allotrope Foundation Ontology); 그 더 가벼운 동반자가 Allotrope Simple Model, 약칭 ASM); 파일 안의 QUDT 단위	기기가 의미를 달고 다니는 결과를 내보냅니다 — 장비·물질·프로세스·결과가 타입으로, 단위는 IRI로 — 그리고 벤더들은 ASM을 지식 그래프로 흘려보내 AI-ready 데이터로 만듭니다	상용 단계
규제 식별과 마스터 데이터	IDMP와 SPOR, UNII, SPL(규제기관에 의약품을 명명하기 위한 표준과 코드 체계 — IDMP는 ISO 의약품 식별(Identification of Medicinal Products) 계열); Accurids 위의 J&J IDMP-O 제품 마스터(제품 마스터(product master)란 각 제품의 단일 권위 기록이고, Accurids는 벤더 플랫폼)	제품이 무엇인지에 대한 거버넌스된 기록을 기계 판독 가능한 식별자로 규제기관 제출에 실어 보냅니다 — `bp:DS-001` 뒤의 기층	상용 단계
R&D 및 FAIR 지식 그래프	Roche EDIS, Boehringer, Novo Nordisk OBDM, Novartis data42, AstraZeneca BIKG	데이터셋을 찾아 재사용하고, 오믹스(대규모 "-오믹스" 데이터셋 — 유전체학, 단백질체학 등)·IT·문서·임상을 페더레이션하며, 연구 데이터 위에서 추론 그래프(추론기가 새 사실을 도출하는 그래프)를 돌리고, ML 타깃 식별을 구동합니다	상용 단계 — R&D 한정
계보·영향·교차 수명주기 질의	이 책의 적재 가능한 데이터셋과 그 검증기; 실제 플랫폼에서는 동일한 `derivedFrom` 경로가 R&D 측에서 Foundry 객체 링크나 Neo4j Cypher로 실행됩니다	"이것이 무엇에서 파생됐나", "무엇이 운명을 공유하나", "어떤 파라미터가 이 속성을 결정했나"를 한 줄 그래프 질의로 — 규격을 벗어난 로트를 거부하는 SHACL 게이트와 함께	R&D 측; 코드로 검증됨
그래프 위에 AI 정초 (GraphRAG)	Merck Synaptix, Bayer 환자 맵, Syngenta NOCTIS; Pistoia CMC Process Ontology Phase 3	그래프 위에 AI를 정초한다(grounding)(GraphRAG = 그래프 기반 검색 증강 생성(graph-based Retrieval-Augmented Generation))는 것은, 그럴듯하게 들리는 텍스트를 지어내는 대신 타입된 간선을 따라 검색한 사실로부터 답하고 그것을 인용한다는 뜻입니다 — 발견 측이지 방출 결정용은 아님	대개 파일럿
GMP 제조 현장 시맨틱	PAS-X와 PI Asset Framework, 그리고 진행 중인 파일럿의 한 예인 BioPhorum의 OD-probe PoC(PAS-X는 제조 실행 시스템, PI Asset Framework는 산업용 데이터 히스토리안, BioPhorum은 산업 컨소시엄, OD 프로브는 광학 밀도 세포 성장 센서, PoC는 개념 증명 파일럿)	실행 현장은 여전히 닫힌 구조화 모델과 통계 모델로 돌아갑니다; 여기서 형식 온톨로지는 상용이 아니라 파일럿입니다	아직 아님 — 파일럿

이 기울기를 이 책 자신에 대해서도 정직하게 읽으십시오. 네 번째 행 — 계보·영향·교차 수명주기 질의 — 은 우리 자신의 bp: 그래프가 채우는 행이며, 그 성숙도 표기는 의도된 것입니다. R&D 측, 검증된 코드로 입증됨, GMP 현장 배포가 아님. 실행 예제는 노트북 위에서 돌아가고 자신의 23개 인수 시험을 통과하는 교육용 데이터셋입니다. 그것은 엔진이 작동한다는 진짜 증거이지, 규제받는 공장이 출하 경로에 추론기를 넣었다는 증거는 아닙니다.

표준들은 실재하며 수렴하고 있습니다. BFO는 ISO/IEC 표준(국제 표준화 기구가 비준한 것)이고, OBO 파운드리 — 개방형 생물학·생의학 온톨로지(Open Biological and Biomedical Ontologies) 파운드리, 생의학 온톨로지("OBO 측", 제조의 "IOF 측"이 이어 붙여져야 할 대상)를 조율해 온 오랜 공동체 — 는 거의 20년 동안 상호운용 가능한 생의학 온톨로지를 관장해 왔으며, IOF와 그 바이오제약 협의회는 같은 규율을 제조 분야로 가져오고, FAIR는 발표된 지표를 갖춘 측정 가능한 목표입니다 [1][2][3]. 제8부의 산업 조사는 그 수렴과 불균형을 모두 또렷이 드러냅니다. 오늘날 진정으로 상용 단계인 시맨틱은 분석 실험실 데이터(AFO와 Allotrope Simple Model)와 법으로 의무화된 규제 식별(IDMP와 SPOR, UNII, SPL)에 살아 있는 반면, 제조 공정 온톨로지는 여전히 파일럿에 머물고 GMP 현장은 아직 구조화 데이터와 통계 모델로 돌아갑니다 — 그리고 가장 요란한 새 동력인 그래프 위에 AI를 정초하는 일조차 바로 이번 장이 다루는 그 규율의 무게를 더 키울 뿐입니다. 그 실세계의 분할이 이번 평결의 명제이며, 이미 일어나고 있습니다. 구조는 표준화되어 도착하는 중이고, 실질 — 올바르고, 관장되며, 사실상 FAIR한 데이터 — 은 여전히 미완의, 사람의 몫입니다. 오픈소스 책은 그 엔진이 노트북 위에서 돌아간다는 것을 입증합니다. 이 책 전체에 쓰인 실행 예제는 그 자체로 적재 가능한 데이터셋이며, 그 검증기는 평결의 두 절반을 한 호흡에 보고합니다 — 이행적 derivedFrom 속성 경로가 원료의약품에서 모든 풀(수집된 정제 분획), 포집물(바이오리액터의 세포-배양액 산출물), 시드 배양(생산 반응기에 앞서 세포를 증식시키기 위해 키운 더 작은 배양)을 거쳐 연구용 세포 은행(가장 이른, 적격성이 확인된 세포 비축물)으로 거슬러 올라가는 11개 조상의 물질-유래 계보(material-derivation lineage) 전체를 순회하고 — 각 물질은 별개의 단위공정(unit operation) 프로세스의 산출물입니다 — OWL-RL 추론기는 추가로 그 장거리 끝점들을 구체화하며, 모든 질의가 답하고, SHACL 게이트는 규격을 벗어난 형제 로트가 정말로 규격을 벗어났기 때문에 정직하게 적합을 거부합니다.

[1] parsed 2120 triples (bioproc + align + instances)
[2] reasoned: 2120 -> 7137 triples after OWL-RL closure
[3] competency questions (ORSD v1.0.0 acceptance tests):

      CQ     GROUP           RESULT DETAIL
      -----  --------------  -----  ----------------------------------------
      CQ-01  lineage         PASS   11 row(s)
      CQ-03  lineage         PASS   row {'batch': 'BATCH-2026-001', 'monomer': 98.611} present
      CQ-04  impact          PASS   affected = ['DP-001', 'DP-002']
      CQ-08  release         PASS   DS-001 release panel complete and in spec
      CQ-11  release         PASS   OOS ['DP-004', 'DS-004'] on path ['hmwPct']
      CQ-12  viral           PASS   sum(lrv) = 8.7 over 2 step(s)
      CQ-21  structural      PASS   row {'run': 'CCP-001', 'vessel': 'BR-101', 'vesselType': 'ProductionBioreactor'} present
      CQ-22  structural      PASS   transitive lineage + equipment-is-material inferred
      CQ-23  structural      PASS   Batch-as-process and Batch-as-bioreactor both caught
      ...  (23 competency questions in all)

      23/23 competency questions PASS

ALL CHECKS PASSED

2120개에서 7137개 트리플(triple)(각 트리플은 하나의 주어–술어–목적어 사실이며, 이 분야 전체의 원자적 진술입니다)로의 증가는 OWL 2 RL 폐포(closure) — 추론기가 새 사실을 더 이상 도출할 수 없을 때까지 규칙을 돌린 다음, 그 전부를 저장하는 것 — 가 이번 장이 인정하는 그 구조적 작업을 해내는 것이며(CQ-22: 이행적 derivedFrom 순회가 연구용 세포 은행까지 거슬러 올라가는 11개 조상 전부에 닿고, 장비는 BFO 물질 개체로 추론됩니다), 그 선택 자체가 축소된 하나의 평결입니다 — RL(OWL의 규칙 언어(Rule Language) 프로파일 — 위에서 명명한 OWL-RL 추론기와 같은 RL)은 다항 시간 안에(언제나 끝날 만큼 충분히 빠르게) 전방 연쇄 규칙(알려진 사실에 각 규칙을 적용해 새 사실을 도출하기를, 새로운 것이 없을 때까지 반복하는 것)으로 함의를 구체화하는 다루기 쉬운(tractable) 프로파일이며, 그래서 이것이 노트북 위에서 돌아갑니다. 그러나 RL은 열린 세계 가정(open-world assumption) — 진술되지 않은 것은 무엇이든 거짓이 아니라 단지 알 수 없음일 뿐이라는 논리적 기본값 — 아래에서 추론하며, 그래서 필수 결과가 빠졌다고는 결코 결론짓지 못합니다(부재는 그것에게 거짓이 아닙니다) — 쉽게 말해, 필수 출하 결과가 그냥 기록되지 않았다면, 열린 세계 추론기는 어깨를 으쓱하며 "어쩌면 존재하는데, 내가 듣지 못했을 뿐"이라고 말하니, 그 간극을 결코 짚어낼 수 없습니다.

CQ-11이 추론기 검사가 아니라 SHACL 검사인 까닭이 바로 이것입니다. 게이트는 세계를 닫고(존재하지 않는 것은 무엇이든 진짜로 부재하는 것으로 취급합니다 — "파일에 없음"은 "하지 않음"을 뜻하며, 이것이 완전성 검사에 필요한 가정입니다), 규격을 벗어난 발견을 두 OOS 로트인 DP-004와 DS-004에서 단 하나의 경로(hmwPct)에 국한합니다 — 그 로트들의 다른 모든 패널 값은 규격 안에 있기 때문입니다 — 그리고 CQ-23은 두 disjointness 가드 — 두 범주가 어떤 구성원도 공유할 수 없다고 진술하는 규칙 — 모두 심어 둔 혼동을 잡아내는 것을 보여 줍니다. 의도적으로 심은 오류 하나는 배치(Batch)(물질의 수량)를 그것을 만든 프로세스인 양 다루고, 다른 하나는 배치를 그것이 길러진 바이오리액터인 양 다룹니다. 한 사물이 동시에 둘 다일 수는 없으므로 가드가 발동합니다. 일관성은 추론기가 증명하는 열린 세계 속성이고, 완전성은 오직 셰이프(shape)만이 강제할 수 있는 닫힌 세계 속성이며, 참은 둘 다 아닙니다 — 그것은 사람이 공급해야 하는 실질입니다.

바이러스 안전성과 QbD 행은 같은 점을 바이오공정 쪽에서 말합니다. CQ-12의 8.7-로그 총합(로그 감소는 10의 거듭제곱 만큼의 제거이며 — 8.7 로그는 바이러스를 대략 10^8.7배만큼 줄인다는 뜻입니다)은 그 두 방벽이 직교하는 메커니즘(orthogonal mechanisms) — 물리적으로 독립된 방법이라, 둘이 같은 방식으로 함께 실패할 수 없습니다 — 으로 바이러스를 제거하기 때문에 방어 가능한 합입니다: 외피 보유(enveloped) 바이러스(지방 막에 싸인 것)를 파괴하는 저(低)pH 불활성화와, 저pH가 건드릴 수 없는 작은 비외피(non-enveloped) 바이러스를 물리적으로 체로 거르는 크기 기반 나노여과입니다 — 이것은 바로 ICH Q5A(독립된 방식으로 클리어런스가 이루어져야 합을 주장할 수 있다고 요구하는 바이러스 안전성 가이드라인)가 요청하는, 상보적이고 메커니즘이 구별되는 단계입니다 — 그리고 각 방벽이 다른 방벽은 작용하지 않는 바이러스에 작용하므로, 어떤 단일 바이러스도 둘 다를 빠져나가지 못하고, 그래서 두 감소가 곱해지고 그 로그가 더해집니다 — 산술의 우연이 아닙니다. 그리고 CQ-06과 CQ-07이 드러내는 affectsQuality 간선은 ICH Q8 설계 공간 관계 — ICH Q8은 제약 개발에 관한 규제 가이드라인이고, 설계 공간(design space)은 안전성이 입증된 공정 설정의 범위입니다 — 를 질의 가능하게 만든 것입니다. 공급 속도와 온도는 개발 단계에서 그 범위가 단량체 함량 핵심 품질 속성(critical quality attribute)(규격 안에 머물러야 하는 제품 속성, CQA — 생물의약품의 출하 규격에 대해 ICH Q6B가 관장하는 종류의 것)을 좌우한다고 밝혀진 핵심 공정 파라미터(critical process parameters)(제어되어야 하는 설정, CPP)이며, 그래서 "어떤 파라미터가 이 속성을 좌우했는가?"가 개발 보고서에 묻힌 항목이 아니라 한 줄짜리 질의가 됩니다 — 그리고 SHACL 게이트가 국한하는 OOS 경로(DP-004와 DS-004의 hmwPct)는, 같은 용어로 말하면, 자신의 ICH Q6B 허용 한계를 위반한 응집체 CQA이며, 출하 결정이 의지하는 그 규제 규격입니다.

그것이 구체적으로 드러난 평결입니다. 구조는 돌아가고, 그것은 자신의 한계에 대해 정직합니다. 정직한 실무자라면 누구나 보고하는 바가 바로 이번 장의 그 분할입니다. 기술은 준비되어 있고, 규율이 실재하는 곳에서는 성과도 실재한다는 것이죠 — 어떤 공장의 온톨로지가 5년 뒤에 자산이 될지를 결정하는 요인이 트리플스토어의 선택이 아니라, 오른쪽 칸이 요구하는 인간의 실천에 대한 그 공장의 헌신인 까닭이 바로 이것입니다.

다음 렌즈는 이 렌즈를 필요로 한다: 학습을 위한 근거 진실로서의 그래프

오른쪽 칸이 중요한 이유가 하나 더 있으며, 그것이 짝을 이루는 책으로 가는 다리입니다. 2026년에 바이오공정 온톨로지를 만드는 가장 요란한 이유는 모델에게 기댈 만한 참된 무언가를 주는 것입니다 — 그리고 그것은 위의 모든 한계를 완화하는 것이 아니라 다시 틀 지웁니다. 대규모 언어 모델(large language model)(그럴듯한 다음 말을 예측해 유창한 텍스트를 만들어 내는 시스템 — 형식에는 능하지만, 특정 주장이 참인지에는 무관심합니다)이 GraphRAG(그래프 기반 검색 증강 생성(graph-based retrieval-augmented generation): 모델이 그럴듯한 텍스트를 지어내는 대신 그래프의 타입된 간선을 따라 검색한 사실로부터만 답하고 그것을 인용하는 것)로 정초되면, 그것은 그래프의 정직함과 그 한계를 함께 물려받습니다. 조사자를 위해 CQ-04에 답하는 그 동일한 derivedFrom 순회가 "DS-004는 무엇에서 유래했는가?"라는 모델의 답을 정초할 수 있습니다 — 그러나 그 답은 그 뒤에 깔린 정체성 조정과 분류만큼만 참이며, 그것이야말로 오른쪽 칸이 사람이 공급해야 한다고 말하는 바로 그 실질입니다. 형제 로트를 자신만만하게 잘못 이름 붙이는 그래프는, 그 잘못된 이름을 묻는 모든 이에게 유창하게, 대규모로 자신만만하게 되풀이하는 모델을 정초할 것입니다. 이것이 이 장의 명제를 더 날카롭게 벼린 것입니다. AI는 올바른 분류, 정직한 정체성, 관장되는 변경을 건너뛰게 해 주지 않습니다 — 그것은 스프레드시트가 그랬던 것보다 더 가혹하게 건너뛰기를 벌합니다. 온전한 논증은 최전선 장에 있습니다. 여기서는 다음 책의 전제 조건이 곧 이 책의 오른쪽 칸을 잘 해내는 것임을 보는 것으로 충분합니다.

그 의존성은 학습하는 모델이 어떻게 만들어지고 검증되어야 하는지를 바꿀 만큼 구체적이며, 짝을 이루는 ML 책은 오직 추론된 그래프만이 공급하는 세 가지 속성에 기댑니다. 첫째, 그래프는 학습의 단위를 고정합니다. 계보가 명시적이므로, 이 인스턴스들 위에서 학습하는 모델은 반드시 그래야 하는 방식으로 — 무작위 행이 아니라 배치로 — 분할될 수 있습니다. 그룹화/한-배치-제외(grouped / leave-one-batch-out) 교차검증(같은 derivedFrom 조상을 공유하는 모든 행을 제외하는 것)으로 분할하면, 모델이 보고하는 점수는 같은 로트의 형제 표본이 분할을 가로질러 새어 나와 부풀린 점수가 아니라, 본 적 없는 캠페인에서 실제로 얻을 점수가 됩니다. derivedFrom 간선이 곧 그룹화 키이며, 평면 추출은 그 그룹화를 희망 섞인 관행에 맡깁니다. 둘째, 추론된 그래프가 신뢰할 만한 레이블입니다. SHACL에 적합한 부분그래프 — 모든 필수 결과가 존재하고, 단일하며, 타입이 지정되고, 범위 안에 있으며, 서명된 것 — 만이 모델이 가질 수 있는 정직한 학습 집합입니다. 적합하지 않은 출하를 거부하는 게이트가 똑같이 적합하지 않은 검색을 거부하기 때문입니다. 게이트는 그 부분그래프가, 모델이 학습 기억으로 기꺼이 메워 버릴 부분 적재가 아니라 완전하고 타입이 잘 지정된 것임을 보증합니다. 셋째, 이름 붙일 만한 검증 역설(validation paradox)이 따라옵니다. 유창한 모델은 보류된 데이터에 비추어 점검되지만, 그 보류된 데이터는 그것이 나온 그래프만큼만 정직합니다 — 그리고 추론된 그래프(그 owl:TransitiveProperty 폐포와 SHACL 셰이프가 이미 기계로 검사된 그래프)와 조용히 모순되는 모델은, 그 모순에서 그래프보다 틀렸을 가능성이 더 큽니다. 그래프의 답은 도출되고 인증된 반면 모델의 답은 그저 생성된 것이기 때문입니다. 추론되고 셰이프로 검증된 계보야말로, 희소하고 교란되며 드리프트에 취약한 바이오공정 데이터가 달리 공급할 수 없는, 누수 없는 분할이자 신뢰할 만한 레이블입니다.

두 경계가 그 고리를 닫습니다. 모델에 건네지는 그래프 특성은 여전히 봉투 안인지 밖인지의 질문을 안고 있습니다 — 이 로트의 계보가 모델이 검증된 그런 종류인가, 아니면 한 번도 본 적 없는 구성인가? — 그리고 타입된 그래프는 그것을 설계상 답합니다. 적합한 부분그래프를 하나도 반환하지 않는 검색은 적용 범위(applicability-domain) 플래그(소프트 센서가 낯선 영역에서 추측하기를 거부하게 만드는 분포 밖 검사)의 그래프 판본이며, 자신만만한 오류 대신 답하기를 거부하는 것입니다. 그리고 기층은 움직입니다. 관장되는 변경 기계장치가 온톨로지의 버전을 매기고 공장이 캠페인을 더해 감에 따라, 정초된 모델의 거동은 그 근거 진실과 함께 드리프트하므로, 온톨로지의 버전은 모델의 출처(provenance)에 속하고 검색 계층은 하이브리드 모델이나 디지털 트윈이 요구하는 것과 같은, 감시되고 변경 관리되는 MLOps 수명주기를 필요로 합니다. 그렇게 읽으면, 이 책의 오른쪽 칸 전체가 다음 책의 위험 등록부입니다. 여기서 사람이 닫아야 하는 모든 한계는, 닫지 않으면 학습 시스템이 물려받고, 증폭하며, 완벽한 자신감으로 서술하게 될 실패 양식입니다.

핵심 용어

구조 대 실질(structure versus substance) — 모든 것을 꿰는 패턴. 온톨로지는 의미의 구조(범주, 호환성, 완전성, 유일성)를 보장하는 반면, 사람은 실질(올바른 분류, 참인 값, 옳은 짝짓기, 충실한 관리)을 공급해야 함.
거두어들인 성과(the earned wins) — 상호운용 가능한 구조, 질의 가능한 계보와 영향, 강제 가능한 완전성, 그리고 공유되고 스스로를 기술하는 의미. 모델링이 가져다주는 진짜 가치.
여전히 남은 한계(the remaining limits) — 정확성, 정체성 조정, OBO–IOF 이음매, 연속 공정의 개별화, 조직 간 연합, 그리고 거버넌스 규율. 모델이 사람에게 남기는 것.
언제 모델링할 것인가(when to model) — 질문이 시스템을 가로지르거나, 재귀적이거나, 계보 형태일 때, 상호운용성이 목표일 때, 또는 규제되는 수명주기가 오래 견디는 추적성을 요구할 때. 그 자체를 위해 극대화하기 위한 것이 아님.
가장 깊은 미해결 과제(the deepest unsolved part) — 발목을 잡는 제약은 성숙한 기술이 아니라 인간의 규율(저작하고, 조정하고, 관장하며, 과신하지 않는 것).
GraphRAG 정초(GraphRAG grounding) — 유창한 모델이 그래프의 타입된 간선을 따라 검색한 사실로부터만 답하고 그것을 인용하므로, 그래프의 정직함과 한계를 함께 물려받음. 오른쪽 칸이 곧 다음 책의 위험 등록부.
그룹화/한-배치-제외 교차검증(grouped / leave-one-batch-out cross-validation) — 학습하는 모델의 데이터를 행이 아니라 배치로 분할(같은 derivedFrom 조상을 공유하는 모든 행을 제외)하여, 보고되는 점수가 형제 로트 누수로 부풀려진 것이 아니라 본 적 없는 캠페인에서 실제로 얻을 점수가 되게 함. 계보 간선이 곧 그룹화 키.
검증 역설(the validation paradox) — 보류된 데이터에 비추어 점검된 모델은, 추론되고 셰이프로 검증된 그래프와 모순될 때 둘 중 틀렸을 가능성이 더 큰 쪽임. 그래프의 답은 도출되고 인증된 반면 모델의 답은 생성된 것이기 때문.

다음 이야기

이로써 바이오의약품 제조를 위한 온톨로지(Ontologies for Biopharmaceutical Manufacturing)가 완결됩니다 — 의미라는 렌즈를 통해 처음부터 끝까지 걸어온 바이오공정이, 그 힘과 한계를 모두 적나라하게 드러낸 채로 말입니다. 그러나 의미는 이 시리즈가 갈라져 나가는 두 렌즈 중 하나일 뿐입니다. 짝을 이루는 책 바이오제조를 위한 머신러닝과 AI(Machine Learning & AI for Biomanufacturing)는 같은 공정을 이번에는 학습(learning)이라는 렌즈를 통해 다시 걸어갑니다 — 소프트 센서(측정하기 어려운 양을 더 쉬운 신호로부터 추론하는 소프트웨어), 하이브리드 모델(기계론적 방정식과 데이터 기반 학습을 결합한 것), 그리고 데이터 책의 머신러닝 장에서 처음 만난 검증된 AI 말입니다 — 그리고 그 책은 정확히 이 책이 만든 것을 필요로 합니다. 학습하는 모델은 그것이 학습하는 구조화되고 FAIR하며 잘 관장되는 지식만큼만 신뢰할 수 있기 때문입니다. 온톨로지는 바이오공정에 추론할 수 있는 기억을 부여하고, 머신러닝은 예측할 수 있는 방법을 부여합니다. 두 렌즈는 자연스러운 한 쌍이며, 다음 책은 그 두 번째를 이어받습니다.

이 장에서 다루는 내용​

온톨로지가 진정으로 풀어 주는 것​

온톨로지가 사람에게 남기는 것​

모든 한계 아래에 깔린 패턴: 구조 대 실질​

모델링이 할 만한 가치가 있을 때 — 그리고 없을 때​

미해결 과제: 가장 깊은 것은 사람의 문제다​

왜 중요한가​

실제 현장에서는​

다음 렌즈는 이 렌즈를 필요로 한다: 학습을 위한 근거 진실로서의 그래프​

핵심 용어​

다음 이야기​