온톨로지와 FAIR 데이터
📍 현재 위치: 지난 장에서는 숫자가 완벽하게 전송되더라도 왜 서로 연결되지 못하는지를 보여 주었다면, 이번 장에서는 그 문제를 해결하는 가장 근본적인 두 가지 도구 — 온톨로지(ontology)와 FAIR 원칙 — 를 소개합니다.
지난 장 왜 숫자들은 서로 연결되지 않는가: 의미적 상호운용성 문제에서 우리는 두 가지 개념 사이에 분명한 선을 그었습니다. **구문적 상호운용성(syntactic interoperability)**은 두 시스템이 *형식(format)*에 합의한다는 뜻입니다. 메시지가 파싱되고, 필드가 맞아떨어지며, 바이트가 온전히 도착하는 것이죠. **의미적 상호운용성(semantic interoperability)**은 두 시스템이 *의미(meaning)*에 합의한다는 뜻입니다. 한 기계에서 pH라고 표시된 필드와 다른 기계에서 pH_value라고 표시된 필드가 측정된 동일한 물리량을 가리킨다는 것을 양쪽 모두가 이해하는 것입니다. 우리는 흠잡을 데 없는 바이트 전송조차도 **이질성(heterogeneity)**의 늪을 남긴다는 점을 보았습니다. 같은 실세계의 대상이 어디서나 서로 다르게 기술되는 것이죠 — 서로 다른 단위, 서로 다른 식별자, 서로 다른 타임스탬프 형식, 서로 다른 어휘로 말입니다. 이번 장은 그 늪을 근본적으로 치유하는 방법에 관한 이야기입니다. 하나의 사적인 방언을 또 다른 방언으로 번역하는 어댑터를 하나 더 만드는 것이 아니라, 모든 시스템이 가리킬 수 있는 의미의 공유 모델을 세우는 일입니다.
목록(catalog)이 없던 시절의 도서관을 떠올려 보세요. 모든 사서가 자기만의 사적인 논리에 따라 책을 꽂아 두니, 무언가를 찾으려면 그것을 꽂은 바로 그 한 사람에게 물어봐야만 합니다. **온톨로지(ontology)**는 합의된 목록 체계입니다. "책", "저자", "주제"가 정확히 무엇이고 서로 어떻게 관계 맺는지를 명시해 주죠. 그래서 사람이든 기계든, 인간 통역사 없이도 대상을 찾아내고 결합할 수 있게 됩니다. FAIR는 그 목록이 실제로 작동한다는 약속입니다. 데이터를 찾고, 가져오고, 결합하고, 재사용하기 쉽다는 보장이죠. 온톨로지가 목록을 만들고, FAIR가 서비스 품질을 보증합니다.
이번 장에서 다루는 내용
우리는 온톨로지를 밑바닥부터 — 클래스(class), 관계(relation), 그리고 그것들을 표현하는 언어들(RDF, OWL, SHACL)로 — 쌓아 올립니다. 그다음 서로 다른 분야가 서로의 작업을 재사용할 수 있게 해 주는 상위 온톨로지(upper ontology)(BFO와 산업 온톨로지 파운드리)로 올라가고, **바이오제약 도메인 온톨로지(biopharma domain ontologies)**와 이를 관장하는 협의회로 내려가며, FAIR 원칙을 하나씩 풀어 본 뒤, 마지막으로 이 둘이 함께 어떻게 사일로화된 파일들을 하나의 질의 가능한 그래프로 바꾸는지를 보여 주며 마무리합니다.
온톨로지란 실제로 무엇인가
위압적으로 들리는 단어를 걷어내고 나면, **온톨로지(ontology)**란 한 도메인에 무엇이 존재하고 그것들이 서로 어떻게 관계 맺는지에 대한, 형식적이고 공유되며 기계가 읽을 수 있는 모델입니다 [3]. 이는 몇 안 되는 구성 요소로 이루어집니다.
**클래스(class)**는 대상의 범주입니다 — 생물반응기(Bioreactor), 세포배양공정(CellCultureProcess), pH 측정(pH Measurement)처럼요. 인스턴스(instance)(또는 개체, individual)는 한 클래스의 구체적인 한 구성원입니다 — 생물반응기 BR-101은 생물반응기(Bioreactor)의 인스턴스입니다. 관계(relation)(또는 속성, property)는 대상들을 연결합니다 — BR-101은 *상류 공정실 2(Upstream Suite 2)*의 일부이다(is part of); 어떤 pH 측정(pH Measurement)은 특정 배치에 관한 것이다(is about). 마지막으로 **공리(axiom)**는 컴퓨터가 모델을 추론할 수 있도록 모델을 제약하는 논리적 진술입니다 — 예를 들어 "모든 세포배양공정(CellCultureProcess)은 어떤 살아있는세포(LivingCell)를 참여자로 가진다(has participant)"처럼요. 클래스는 종류에 이름을 붙이고, 관계는 그것들을 서로 엮으며, 공리는 그 엮임을 단지 시사하는 데 그치지 않고 증명 가능하게 만듭니다 [3].
이것이 바로 지난 장을 넘어서는 도약입니다. pH라는 이름의 스프레드시트 열 머리글은 사람이 우연히 알아보는 이름표일 뿐입니다. 하지만 정해진 척도에서 수소 이온 활동도를 측정한다는 공리를 지닌 pH 측정(pH Measurement)이라는 온톨로지 클래스는, 일일이 손으로 알려 주지 않아도 기계가 알아보고 그에 따라 행동할 수 있는 무언가입니다.
클래스는 대상의 종류에 이름을 붙이고, 인스턴스는 구체적인 구성원이며, 관계는 그것들을 컴퓨터가 따라갈 수 있는 작은 사실 네트워크로 연결합니다. 저자 작성 도해.
언어들: RDF, OWL, 그리고 SHACL에 관한 한마디
그런 모델을 어떻게 적어 두어야 어느 시스템이든 읽을 수 있을까요? 그 토대는 RDF 1.1 — 자원 기술 프레임워크(Resource Description Framework, W3C, 2014)로, 모든 사실을 **트리플(triple)**로 표현합니다. 트리플이란 주어 – 술어 – 목적어의 형태로, BR-101 — isPartOf — Suite2처럼 표현됩니다 [7]. 각 부분은 전 세계적으로 유일한 웹 식별자(IRI)로 명명되므로, 여기의 "BR-101"이 다른 어딘가에 있는 누군가의 "BR-101"과 혼동될 수 없습니다. N-Triples 직렬화로 적어 보면, 그 하나의 사실은 다음과 같이 보입니다.
<http://example.org/BR-101> <http://example.org/isPartOf> <http://example.org/Suite2> .
수백만 개의 트리플을 쌓아 올리면 지식 그래프(knowledge graph) — 고립된 표의 행들이 아니라 서로 연결된 사실들의 그물망 — 가 됩니다 [7].
OWL 2 — 웹 온톨로지 언어(Web Ontology Language, W3C, 2012) — 은 *논리(logic)*를 더하는 계층입니다. 앞서 말한 클래스, 관계, 공리를 자동 추론기가 새로운 사실을 추론할 수 있을 만큼(BR-101이 공정실 2에 있고 공정실 2가 4동에 있다면, 추론기는 BR-101이 4동에 있다고 결론짓습니다) 그리고 모순을 탐지할 수 있을 만큼 형식적으로 진술할 수 있게 해 줍니다 [8].
미리 짚고 넘어갈 만한 흔한 혼동이 하나 있습니다. OWL은 열린 세계(open-world) 방식입니다. 진술되지 않은 것은 거짓이 아니라 단지 알려지지 않았을 뿐이라고 가정하죠. 그런데 이것은 데이터 검증에는 맞지 않습니다. 데이터 검증에서는 필수 필드가 빠져 있으면 그것은 진짜로 오류이기 때문입니다. 그 일은 SHACL — 형상 제약 언어(Shapes Constraint Language)이며 W3C 표준 — 의 몫입니다. SHACL은 RDF 그래프를 *형상(shape)*에 비추어 검사합니다. "모든 배치 기록에는 정확히 하나의 승인 서명이 있어야 한다"와 같은 규칙이죠. 그리고 위반 사항을 보고합니다 [9]. 한마디로, OWL은 대상이 무엇을 의미하는지를 말하고, SHACL은 유효한 기록이 무엇을 담고 있어야 하는지를 말합니다.
웹 페이지를 원시 프로토콜로 직접 작성하지 않듯이, 트리플도 손으로 일일이 작성하지 않습니다. 온톨로지는 도메인 전문가들이 전용 편집기로 만들고 유지하는데, 온톨로지 저작의 사실상 표준인 스탠퍼드(Stanford)의 무료 오픈소스 도구 Protégé가 가장 흔히 쓰이며, 상용 도구인 TopBraid Composer와 오픈소스 도구인 VocBench도 함께 사용됩니다. 그 밑에 깔린 RDF/OWL/SHACL은 교환 형식이며, 이는 스타일이 입혀진 웹 페이지 밑에 깔린 HTML이 형식인 것과 같습니다.
상위 온톨로지: 공유된 척추
지난 장에서는 이 문제의 해법으로 상위 온톨로지와 BFO를 지목했습니다. 이번 장에서는 BFO가 실제로 어떻게 작동하는지를 살펴봅니다. 모든 분야가 저마다의 온톨로지를 만들도록 내버려 두면 이런 문제가 생깁니다. 생물학자의 "공정"과 엔지니어의 "공정"이 점점 어긋나고, 그러면 우리는 한 단계 더 높은 차원에서 다시 이질성으로 돌아가게 됩니다. 그 해법이 상위(upper)(또는 기초, foundational) 온톨로지입니다. 모든 것이 그 아래에 속하는, 가장 일반적인 범주들로 이루어진 작고 도메인 중립적인 어휘 체계죠 — 시간 속에서 지속되는 것 대 일어나는 것, 성질(quality), 역할(role), 기능(function) 등입니다 [3]. 모든 도메인 온톨로지를 같은 척추 위에 세우면, 그것들은 설계상 자연히 재사용 가능하고 결합 가능해집니다.
과학과 공학에서 선도적인 상위 온톨로지는 BFO — 기초 형식 온톨로지(Basic Formal Ontology) — 이며, 이는 취미 삼아 만든 프로젝트가 아닙니다. ISO/IEC 21838-2라는 국제 표준으로 발행되어, BFO를 적합한 최상위 온톨로지로 확립합니다 [4]. BFO의 핵심 발상은 실재를 지속체(continuant)(전체로서 시간 속에서 지속되는 것 — 세포, 생물반응기, 원료의약품 배치)와 발생체(occurrent)(시간 속에서 전개되는 것 — 발효, 정제 단계)로 나누는 것입니다 [3]. 모든 도메인 용어를 이 둘 중 하나 아래에 고정하면 모델링 오류의 전체 범주를 미리 막을 수 있습니다.
이 조율되고 원칙에 기반한 접근법은 생명과학에서 **OBO 파운드리(OBO Foundry)**가 선구적으로 개척했습니다. 이는 생의학 온톨로지들이 서로 겹치는 대신 맞물리도록 공유된 설계 규칙에 따라 구축하는 공동체입니다 [2]. 제조 분야는 그 교훈을 받아들여 자신만의 대응물을 만들었습니다. 바로 **산업 온톨로지 파운드리(Industrial Ontologies Foundry, IOF)**로, OBO 파운드리의 거버넌스를 명시적으로 본떠 만들었으며, 맨 위에 BFO를 두고, 모든 제조 도메인이 특화할 수 있는 업계 전반의 개념을 공급하는 BFO 정렬 중간 계층 **IOF 코어 온톨로지(IOF Core Ontology)**를 갖추고 있습니다 [6][5].
계층화된 스택: 맨 위에 하나의 중립적 상위 온톨로지, 그 아래에 산업용 중간 계층, 맨 아래에 바이오제약 특화 온톨로지가 있으며, 이 모두가 하나의 그래프로 흘러듭니다. 저자 작성 도해.
바이오제약을 위한 도메인 온톨로지
스택의 맨 아래에는 바이오의약품 제조의 구체적인 사항에 이름을 붙이는 **도메인 온톨로지(domain ontologies)**가 있습니다. 여기서 가장 중요한 두 가지 노력이 있습니다.
첫 번째는 **IOF 바이오제약 제조 온톨로지(IOF biopharmaceutical-manufacturing ontologies)**입니다. 이는 IOF 스택의 바이오제약 특화 부분으로, IOF 내 BMIC 작업 그룹들이 개발해 2025년 11월에 개방형 MIT 방식 라이선스로 공개 배포했습니다 [9]. 이것들은 BFO와 IOF 코어를 상속하므로, 거기서 정의된 세포배양공정(CellCultureProcess)는 자동으로 발생체가 되고, 다른 어떤 IOF 기반 산업 온톨로지와도 자동으로 상호운용됩니다.
두 번째는 **앨로트로프 재단 온톨로지(Allotrope Foundation Ontologies, AFO)**로, 연결성 장에서 만났던 앨로트로프 분석 데이터 스택의 바탕이 되는 어휘 체계입니다. 이는 실험실 측정(크로마토그래피, 분광법 등)에 벤더에 구애받지 않는 하나의 의미를 부여하는 온톨로지 모음으로, 어떤 장비가 만들어 냈든 결과가 같은 뜻을 갖게 합니다. AFO는 실험실을 다루고, IOF 바이오제약 제조 온톨로지는 제조 공정을 다룹니다. 같은 상위 온톨로지를 공유하도록 설계되었기에, 이들은 또 하나의 어댑터가 아니라 같은 지식 그래프에서 만나도록 만들어졌습니다.
FAIR: 데이터를 위한 서비스 보증
온톨로지는 데이터에 의미를 부여합니다. **FAIR 원칙(FAIR principles)**은 데이터에 품질 기준을 부여합니다. 2016년에 발표된 FAIR는 약어로, **찾을 수 있고(Findable), 접근 가능하며(Accessible), 상호운용 가능하고(Interoperable), 재사용 가능하다(Reusable)**는 뜻입니다. 그리고 놓치기 쉬운 그 핵심 통찰은, 이 원칙들이 **기계 작동성(machine-actionability)**을 겨냥한다는 것입니다. 데이터는 사람의 도움을 최소화하면서 컴퓨터가 사용할 수 있어야 합니다. 현대 데이터의 양과 복잡성이 수작업 처리의 한계를 넘어섰기 때문입니다 [1].
온톨로지는 숫자에 합의된 하나의 의미를 부여합니다 — 데이터를 FAIR하게 만드는 토대입니다.
저자 원본 도해(AI 보조로 제작).
각 원칙을 바이오제조 사례와 함께 풀어 보면 다음과 같습니다 [1].
- 찾을 수 있음(Findable) — 모든 데이터셋은 전 세계적으로 유일하고 영속적인 식별자와 풍부한 메타데이터를 지녀, 위치를 찾을 수 있습니다. 배치 기록은 영구 ID를 지니고 그 제품, 사이트, 날짜와 함께 색인됩니다 — 어느 엔지니어의 노트북에
final_v3_REALfinal.xlsx로 파묻혀 있는 것이 아니라요. - 접근 가능(Accessible) — 일단 찾으면, 데이터는 그 식별자를 통해 표준 프로토콜로, 명확한 접근 규칙과 함께 검색할 수 있습니다. 감사관의 시스템은 문서화된 인터페이스를 통해 그 배치 기록을 요청할 수 있고, 자신이 그것을 가져도 되는지 명확하게 통보받습니다.
- 상호운용 가능(Interoperable) — 데이터는 공유되고 형식적인 어휘 체계 — 바로 위에서 본 온톨로지 — 를 사용하므로, 다른 데이터와 결합됩니다. 그 기록의
pH필드는 다른 모든 시스템이 사용하는 동일한 온톨로지 클래스를 가리키므로, 실험실과 공장의 측정값을 추측 없이 병합할 수 있습니다. - 재사용 가능(Reusable) — 데이터는 그 맥락, 출처(provenance, 어디서 왔고 어떻게 만들어졌는지), 그리고 명확한 사용 라이선스와 함께 풍부하게 기술되어, 다른 사람들이 신뢰하고 재사용할 수 있습니다. 나중의 기술 이전(tech-transfer) 팀은 배치 데이터의 조건, 계보, 사용 약관이 데이터와 함께 따라오기 때문에 그 데이터를 재사용할 수 있습니다.
FAIR는 공개(open)와 같은 것이 아닙니다. 접근 가능하다는 것은 접근 조건이 명확하고 검색 메커니즘이 표준적이라는 뜻이지, 누구나 모든 것을 읽을 수 있다는 뜻이 아닙니다 [1]. 고도로 기밀이며 규제 대상인 제조 데이터도 엄격히 제한된 상태를 유지하면서 온전히 FAIR일 수 있습니다 — 사실 그것은 통제된 상태를 유지해야만 합니다. 여기서 관장하는 기록들은 전자 기록 및 서명에 관한 미국 FDA 규정인 21 CFR Part 11과 그 유럽 대응물인 전산 시스템에 관한 EU Annex 11의 적용을 받으며, 이 규정들은 접근 통제, 감사 추적, 추적성을 의무화하기 때문입니다. 원칙은 잘 정의된 접근이지, 무료 접근이 아닙니다.
왜 중요한가
데이터 관리에서 온톨로지와 FAIR는 되풀이되는 값비싼 프로젝트를 영구적인 자산으로 바꿔 줍니다. 이것들이 없으면, 한 배치의 생물반응기 이력, 크로마토그래피 결과, 출하 시험을 결합하고 싶을 때마다 누군가가 어긋난 이름, 단위, ID를 맞추기 위해 일회용 코드를 작성해야 하고, 시스템이 바뀌면 그것을 다시 작성해야 합니다. 공유된 온톨로지가 있으면, 그 데이터셋들은 이미 하나의 언어로 말합니다. FAIR가 있으면, 그것들은 이미 찾을 수 있고, 검색 가능하며, 신뢰할 만큼 충분히 풍부하게 기술되어 있습니다. 통합은 더 이상 영웅적인 데이터 고고학 작업이 아니라 하나의 질의가 됩니다. 그것이 바로 당신이 가지고 있는 데이터와 실제로 쓸 수 있는 데이터의 차이입니다.
실제 산업 현장에서는
이것은 도입자를 기다리는 이론이 아닙니다. BFO는 발행된 ISO/IEC 표준이며 [4], RDF 1.1, OWL 2, SHACL은 여러 산업에 걸쳐 운영 중인 지식 그래프를 구동하는 확립된 W3C 권고안입니다 [7][8][9]. 그리고 OBO에서 IOF로 이어지는 계보는 2000년대 중반 이래로 협의회가 관장하는 모델이 대규모로 작동해 왔음을 보여 줍니다 [2][6]. 특히 바이오제약 분야에서는 BMIC 협의회가 2025년 11월에 IOF 바이오제약 제조 온톨로지를 공개 배포했으며, 앨로트로프 AFO는 이미 벤더 중립적인 실험실 데이터의 토대를 이루고 있습니다 — Agilent와 Shimadzu 분석 시스템 같은 장비에서 나온 크로마토그래피 및 질량분석 결과를 앨로트로프 데이터 형식(Allotrope Data Format)으로 내보내면, 어느 벤더가 만들어 냈든 하나의 공유된 의미로 읽을 수 있습니다. 미국의 NIIMBL 연구소와 그 빅데이터 프로그램(Big Data Program) — IOF 바이오제약 공개 배포를 뒷받침한 실시간 제조 데이터 및 온톨로지 작업 — 은 바로 이 지점에 자리합니다. 장비, 실험실, 협력 조직을 단순히 연결하는 데 그치지 않고 의미적으로 정렬되고 FAIR한 상태로 만들어, 한 번 측정된 숫자가 거쳐 가는 모든 곳에서 같은 뜻을 갖게 하는 것이죠.
핵심 용어
- 온톨로지(ontology) — 한 도메인에 무엇이 존재하고 그것들이 서로 어떻게 관계 맺는지에 대한, 형식적이고 공유되며 기계가 읽을 수 있는 모델.
- 클래스 / 인스턴스 / 관계 / 공리(class / instance / relation / axiom) — 대상의 범주; 구체적인 한 구성원; 대상들 사이의 연결; 추론을 제약하고 가능하게 하는 논리적 규칙.
- RDF(트리플, 지식 그래프) — 사실을 주어–술어–목적어 트리플로 표현해 그래프로 연결하는 W3C 모델.
- OWL — 형식 논리를 더해 추론기가 사실을 추론하고 모순을 찾을 수 있게 하는 W3C 웹 온톨로지 언어.
- SHACL — RDF 그래프가 필수 내용 규칙을 충족하는지 검증하는 W3C 형상 제약 언어.
- 상위 / 기초 온톨로지(upper / foundational ontology) — 모든 것이 특화하는, 가장 일반적인 범주들로 이루어진 작고 도메인 중립적인 어휘 체계.
- BFO(기초 형식 온톨로지, ISO/IEC 21838-2) — 실재를 지속체와 발생체로 나누는 표준화된 상위 온톨로지.
- OBO 파운드리(OBO Foundry) — 조율되고 원칙에 기반한 온톨로지 모델로 산업용 대응물에 영감을 준 생의학 공동체.
- IOF(산업 온톨로지 파운드리, Industrial Ontologies Foundry) / IOF 코어 — OBO를 본떠 만든 제조 온톨로지 모음으로, BFO 정렬 중간 계층 코어를 갖춘 것.
- IOF 바이오제약 제조 온톨로지(IOF biopharmaceutical-manufacturing ontologies) — BMIC 작업 그룹들이 개발하고 2025년에 공개 배포한, IOF 스택의 바이오제약 도메인 특화 부분.
- BMIC(바이오제약 제조 산업 협의회, Biopharmaceutical Manufacturing Industry Council) — 이 책의 용법에서, IOF 바이오제약 제조 온톨로지를 개발하고 관리하는 거버넌스 기구; 온톨로지 자체가 아니라 협의회.
- AFO(앨로트로프 재단 온톨로지, Allotrope Foundation Ontologies) — 분석 실험실 데이터에 벤더에 구애받지 않는 하나의 의미를 부여하는 온톨로지.
- FAIR(찾을 수 있고, 접근 가능하며, 상호운용 가능하고, 재사용 가능함) — 데이터를 기계가 사용할 수 있게 만드는 원칙; FAIR는 공개와 같은 것이 아님.
- 기계 작동성(machine-actionability) — 사람의 개입을 최소화하면서 컴퓨터가 사용할 수 있는 속성.
이 다음은
이제 우리는 완전한 도구 모음을 갖추었습니다. 연결된 시스템, 신뢰할 수 있는 기록, 관장되는 의미, 그리고 기계가 찾고 결합하고 신뢰할 수 있는 FAIR 데이터까지요. 다음 장 디지털 스레드와 디지털 트윈(The Digital Thread and the Digital Twin)은 그 연결되고 의미가 부여된 데이터가 제품 수명주기 전체에 걸쳐 엮였을 때 무엇이 가능해지는지를 보여 줍니다. **디지털 스레드(digital thread)**는 설계에서 환자에 이르기까지 이어 붙인, 하나의 연속되고 추적 가능한 기록입니다. **디지털 트윈(digital twin)**은 공정을 비추고 예측하는, 데이터로 살아 움직이는 모델입니다. 둘 다 새로운 기술이라기보다는 *귀결(consequence)*에 가깝습니다. 앞선 장들의 모든 것이 — 이번 장의 온톨로지와 FAIR 원칙으로 끝맺는 그 모든 것이 — 마침내 제자리에 놓였기 때문에 비로소 작동하는 것이니까요.