왜 숫자들은 서로 연결되지 않는가: 의미적 상호운용성 문제
📍 현재 위치: 3부에서는 데이터에 조직적 골격을 부여했습니다 — 거버넌스, 품질, 마스터 데이터. 이제 4부에서는 완벽한 배관과 깔끔한 기록이 갖추어졌는데도 왜 서로 다른 시스템의 숫자들이 여전히 들어맞지 않는지, 그리고 *의미(meaning)*가 시스템을 넘어 전달되게 하려면 무엇이 필요한지를 묻습니다.
지난 장에서 우리는 데이터를 둘러싼 사람과 정책의 골격을 세웠습니다 — 데이터 거버넌스(data governance)(누가 규칙을 정하는가), **데이터 품질(data quality)**의 여러 차원, 그리고 마스터 데이터 관리(master data management)(제품이나 원자재처럼 비즈니스가 중요하게 여기는 대상에 대한 하나의 신뢰할 수 있는 버전). 거버넌스는 모든 시스템의 기록을 깔끔하고, 소유 주체가 분명하며, 잘 기술된 상태로 만들 수 있지만, 그럼에도 한 가지 골치 아픈 문제는 손대지 못한 채 남겨 둡니다. 마침내 깔끔한 두 데이터셋을 나란히 끌어다 놓으면, 숫자들이 서로 연결되지 않는 것입니다. 배관은 완벽합니다. 펌프는 흠잡을 데 없이 물을 보냅니다. 그런데도 반대편 끝에서 나오는 결과는 아귀가 맞지 않습니다.
이 장은 바로 그 간극에 관한 것입니다. 그 간극에는 이름이 있습니다 — 의미적 상호운용성(semantic interoperability) 문제이며, 수십 년에 걸친 디지털화 이후에도 바이오의약품 제조사가 여전히 자기 자신의 데이터조차 쉽게 결합하지 못하는 가장 큰 단일 원인 중 하나입니다. 과학 데이터 관리를 위한 FAIR 원칙은 바로 이 어려움에 대한 직접적인 대응으로 정립되었습니다 [1].
같은 사건을 묘사하는 세 사람을 떠올려 보세요. 한 사람은 "회의는 정오에 있어"라고 말하고, 다른 사람은 "12:00"이라고 적으며, 세 번째 사람은 "12h00 GMT"라고 기록합니다. 사람은 어깨를 으쓱하며 셋 다 이해합니다. 컴퓨터는 그렇지 못합니다. 기계에게 "정오", "12:00", "12h00 GMT"는 서로 아무런 관련이 없는 세 개의 문자열일 뿐입니다 — 누군가가 이 셋이 같은 시각을 가리킨다고 형식적으로 일러 주기 전까지는 말이죠. 의미적 상호운용성은 철자가 다른 두 대상이 사실은 같은 것임을 기계에게 단번에 일러 주는 작업입니다.
이 장에서 다루는 내용
먼저 비슷하게 들리는 두 개념을 — 구문적(syntactic) 상호운용성과 의미적(semantic) 상호운용성을 — 구체적인 예시와 함께 구분하는 데서 시작합니다. 그런 다음 **이질성(heterogeneity)**의 원천들(같은 사실이 서로 다르게 기록되는 여러 방식)을 정리하고, "그냥 매핑하면 되지"라는 뻔한 해법이 시스템 수가 늘어날수록 무너지는 이유를 보인 뒤, 첫 번째 실질적 해법에 도달합니다 — 통제 어휘(controlled vocabularies), 즉 합의된 용어들의 공유 목록입니다. 마지막으로 더 깊은 해법 — 의미의 공유 모델 — 의 문턱에서 마무리하며, 이는 다음 장의 주제입니다.
두 종류의 "대화": 구문 대 의미
연결성(connectivity) 장에서 소개한 구분을 떠올려 보세요. **상호운용성(interoperability)**은 별개의 시스템들이 함께 작동하는 능력입니다. 그것은 여러 계층으로 이루어지며, 잘 알려진 모델인 **개념적 상호운용성 수준 모델(Levels of Conceptual Interoperability Model, LCIM)**이 이를 명명합니다. 무(無)/기술적(technical) 상호운용성에서부터 구문적(syntactic, 공유된 형식)과 의미적(semantic, 공유된 의미)을 다룹니다 [6]. 이후 확장 작업이 화용적(pragmatic)·동적(dynamic)·개념적(conceptual) 수준을 더해 성숙한 일곱 수준 모델이 되었습니다.
여기서는 그중 두 계층이 중요합니다. **구문적 상호운용성(syntactic interoperability)**은 시스템들이 형식에 합의하는 것을 의미합니다. 파일이 열리고, 메시지가 파싱되며, 필드가 들어맞습니다. **의미적 상호운용성(semantic interoperability)**은 시스템들이 의미에 합의하는 것을 의미합니다. 한 시스템의 값과 다른 시스템의 값이 같은 종류의 실세계 대상을, 같은 척도에서, 같은 조건 아래 기술한다는 것을 양쪽 모두 안다는 뜻입니다 [6]. 구문은 바이트를 옮깁니다. 의미는 뜻을 보존합니다. 첫 번째는 완전히 갖추고도 두 번째는 전혀 갖추지 못할 수 있습니다.
실제 공장에서는 다음과 같은 모습입니다. 세 시스템 — 공정 히스토리안(historian)(AVEVA PI System(옛 OSIsoft PI) 같은 시계열 데이터베이스), 제조실행시스템(manufacturing execution system, MES)(예: Emerson DeltaV MES(옛 Syncade)), 그리고 실험실 정보관리시스템(laboratory information management system, LIMS)(예: LabWare) — 이 각각 물리적으로는 하나인 측정값 — 바이오리액터(bioreactor) BR-101 내부의 온도 — 을 기록하는데, 저마다 다르게 기술합니다.
하나의 물리적 사실, 세 가지 기계 기술. 여기 모든 시스템은 내부적으로 옳지만, 이름·숫자·단위·시간 형식 어느 것에서도 서로 일치하지 않습니다. 저자 작성 도해.
모든 상자가 유효합니다. 모든 시스템이 내부적으로 일관되며 저마다의 데이터 품질 검사를 통과합니다. 세 타임스탬프조차 정확히 같은 시각을 가리킵니다 — epoch 1718271000, 05:30 EDT, 09:30Z는 하나의 순간을 세 가지 방식으로 적은 것입니다(여기에 미묘한 함정이 있습니다. 6월 13일은 일광 절약 시간제(daylight saving time) 기간이라 미국 동부는 EDT(UTC−4)이므로, 09:30Z에 해당하는 벽시계 시각은 05:30 EDT입니다. 이를 05:30 EST(표준시 오프셋, UTC−5)로 적으면 소리 없이 한 시간 뒤의 시각 — 09:30Z가 아니라 10:30Z — 을 가리키게 됩니다. 바로 이 장이 경고하는 위험입니다). 그런데도 "BR-101의 모든 온도 측정값을 찾아라"는 요청을 받은 프로그램은 그중 어느 것도 자동으로 찾지 못합니다. TIC101.PV, Temperature, temp_reactor가 같은 용기의 같은 속성이라는 것을 — 또는 37.0, 98.6, 310.15가 같은 시각에 기록된 섭씨, 화씨, 켈빈의 같은 값이라는 것을 — 일러 주는 것이 아무것도 없기 때문입니다. 데이터는 완벽하게 옮겨졌습니다. 의미는 그러지 못했습니다.
이를 구체적으로 보면, 세 측정값을 모두 실제로 가져오는 질의(query)는 시스템들이 암묵적으로 남겨 둔 모든 조정 작업을 손으로 일일이 부호화해야 합니다 — 가령 다음과 같습니다.
MATCH property IN { TIC101.PV, Temperature, temp_reactor }
AND vessel IN { BR-101, EQ-00457 }
NORMALIZE unit -> degC // 37.0 = (98.6 - 32) / 1.8 = 310.15 - 273.15
NORMALIZE time -> UTC // 1718271000 = 2024-06-13 05:30 EDT = 09:30Z
이 절(clause) 하나하나가 사람이 직접 공급해야 했던 사적인 지식입니다. 이것을 수백 개의 태그와 수십 개의 시스템에 곱하면, 그것이 바로 바이오제조 분석의 일상적 현실입니다 — 그리고 그것이 바로 의미의 공유 계층이 없애려는 것입니다.
이질성의 여러 얼굴
이 단 하나의 예시조차 이미 여러 개의 별개 문제를 감추고 있습니다. 의미적 이질성(semantic heterogeneity) — 그 간극을 가리키는 포괄 용어로, 같은 대상이 시스템과 사람에 따라 다르게 개념화되고 명명되는 것을 뜻합니다 — 은 식별 가능한 여러 형태로 나타나며, 그것들에 이름을 붙이는 것이 해결의 첫걸음입니다 [5].
- 명명(Naming). 같은 속성이 서로 다른 라벨을 답니다:
TIC101.PV,Temperature,temp_reactor. 반대로 — 더 나쁘게는 — 같은 라벨이 두 시스템에서 다른 것을 의미할 수 있습니다(한 공장의 "수율"은 질량이고, 다른 공장의 "수율"은 백분율입니다). - 측정 단위(Units of measure). 섭씨, 화씨, 켈빈; 리터당 그램 대 밀리리터당 밀리그램. 단위 없는 숫자는 의미가 없고, 단위가 암묵적으로 가정된 숫자는 함정입니다. 그래서 표준 기구들은 단위 자체를 형식적으로 정의합니다 — ISO/IEC 80000 시리즈는 물리량과 단위의 이름과 기호를 고정합니다 — 그리고 그래서 UCUM(측정 단위 통합 코드, Unified Code for Units of Measure) 같은 기계 판독 가능 코드 체계는 단위가 누군가의 기억 속에 머무는 대신 값과 함께 따라다니도록 데이터 형식에 단위를 실어 나르게 합니다.
- 식별자 체계(Identifier schemes). 그 용기는
BR-101인가,BR101인가,Bioreactor-1인가, 아니면 자산 태그EQ-00457인가? 두 시스템이 같은 물리적 바이오리액터에 대해 풍부한 데이터를 보유하고도, 그 대상을 부르는 이름이 결코 일치하지 않아 서로를 알아채지 못할 수 있습니다. - 타임스탬프와 시간대(Timestamps and time zones). epoch 초, 현지 벽시계 시각,
Z접미사가 붙은 UTC는 모두 같은 시각을 가리킬 수도 있고 — 또는 순진하게 읽으면 서로 다른 세 시각이 될 수도 있습니다. 시간대 누락은 거의 다른 어떤 단일 결함보다도 더 많은 분석을 소리 없이 망쳐 왔습니다. - 세분성(Granularity). 한 시스템은 매 초를 기록하고, 다른 시스템은 1분 평균을 저장하며, 또 다른 시스템은 배치당 단일 숫자 하나만 유지합니다. 이것들을 결합하려면 각 행이 실제로 무엇을 나타내는지를 알아야 합니다.
- 암묵적 맥락(Implicit context). 가장 치명적인 범주입니다. 보이지 않기 때문입니다.
temp라는 컬럼은 설정값(setpoint)을 의미할 수도, 측정값을 의미할 수도 있습니다. 어떤 결과는 시료가 먼저 여과되었다고 가정할 수도 있습니다. 이를 명확히 해 주는 지식은 데이터가 아니라 엔지니어의 머릿속에 있습니다.
FAIR 원칙 — 찾을 수 있고(Findable), 접근 가능하며(Accessible), 상호운용 가능하고(Interoperable), 재사용 가능한(Reusable) 데이터를 위한 널리 채택된 프레임워크 — 은 바로 이 점을 직접적으로 다룹니다. 그 I, 상호운용성은 데이터가 공유되고 형식적으로 정의된 어휘를 사용하고 기계가 처리 가능한 의미를 지닐 것을 요구합니다. 바로 위의 이질성이 우연히 맥락을 기억하는 사람이 아니라 소프트웨어에 의해 해소될 수 있도록 하기 위해서입니다 [1].
깔끔한 데이터가 곧 연결된 데이터는 아닙니다. 한 데이터셋이 지난 장의 품질 차원에서 완벽한 점수를 받을 수 있습니다 — 완전하고, 정확하며, 그 자체 안에서 일관됩니다 — 그러면서도 의미적으로 고립되어 있을 수 있습니다. 품질은 옳음에 관한 것이고, 상호운용성은 결합 가능함에 관한 것입니다. 둘은 서로 다른 문제이며, 하나를 통과한다고 해서 다른 하나를 통과하는 것은 아닙니다.
"그냥 매핑하면 되지"가 규모를 감당하지 못하는 이유
직관적인 해법은 변환 표입니다. 히스토리안(historian)의 어휘를 MES의 어휘로 바꾸는 변환기를 작성하고, MES-LIMS용으로 또 하나를 작성하는 식입니다. 이것들이 **점대점 매핑(point-to-point mappings)**이며, 연결성 장에서 점대점 연결이 실패한 것과 같은 이유로 실패합니다 — 그 수가 폭발적으로 늘어나는 것입니다.
의미를 쌍 단위로 해소하려면 모든 쌍마다 변환기가 필요하고 시스템 수의 제곱에 비례해 늘어납니다. 반면 각 시스템을 공유 모델에 한 번씩 매핑하면 선형으로 늘어납니다. 저자 작성 도해.
각 시스템을 공유 모델에 한 번씩만 매핑하면, 쌍별 매핑의 n² 엉킴이 n으로 줄어듭니다.
저자 원본 도해(AI 보조로 제작).
n개의 시스템이 있으면 쌍 단위 매핑에는 대략 n² 개의 변환기가 필요합니다. 네 개의 시스템에는 여섯 개, 열 개의 시스템에는 마흔다섯 개가 필요합니다. 각 변환기는 한 팀의 사적인 이해를 부호화하며, 시스템이 업그레이드되거나, 태그 이름이 바뀌거나, 단위 관례가 달라지는 순간 — 살아 움직이는 공장에서는 끊임없이 일어나는 일입니다 — 망가집니다. 그래서 그토록 많은 분석 노력이 분석이 아니라 **랭글링(wrangling)**에 들어갑니다. 즉 어떤 진짜 질문을 던지기도 전에 이름, 단위, 식별자, 타임스탬프를 손으로 일일이 맞추는 일입니다. 하나의 공유 참조 모델을 통해 의미를 매개하면, 그 n²의 엉킴이 n개의 매핑으로 바뀝니다 — 각 시스템은 공유 모델에 한 번씩만 정렬되고, 그러고 나면 다른 모든 시스템과 비교 가능해집니다 [4]. 그 경제 논리는 연결성 표준이 준 것과 같은 교훈을, 한 계층 더 깊이 적용한 것입니다. 즉 배선이 아니라 단어에 적용한 것입니다.
첫 번째 해법: 참조 데이터와 통제 어휘
공유된 의미를 향한 첫 번째 실질적 단계는 소박하면서도 강력합니다. 단어에 합의하는 것입니다. 지난 장에서 마스터 데이터와 함께 소개한 **참조 데이터(reference data)**는 한 필드가 가질 수 있는 표준적이고 승인된 값들의 집합이고, **통제 어휘(controlled vocabulary)**는 정의가 딸린, 합의되고 관리되는 용어 목록입니다 — 그래서 모두가 Celsius, °C, centigrade가 아니라 degC라고 적습니다. 어떤 숫자를 하나의 공식 목록에서 뽑은 단위로 반드시 보고해야 할 때, 비로소 두 시스템은 사람을 거치지 않고도 비교될 수 있습니다.
국제 표준들이 바로 그런 어휘를 공급합니다. IEC 62264로 표준화된 ISA-95는 기업-제조 데이터를 위한 정규적 객체 모델과 용어 집합을 정의합니다 — 생산 요청(production request), 원자재 로트(material lot), 설비(equipment) 요소가 형식적으로 무엇인지를 — 그래서 비즈니스 시스템과 공장 시스템 사이의 인터페이스가 저마다 정의를 협상하는 대신 하나의 정의를 공유합니다 [2]. 분석 실험실에서는 앨로트로프 재단(Allotrope Foundation) — Merck, GSK, Amgen 같은 대형 제약 회사들이 회원으로 참여하는 컨소시엄 — 이 공유 어휘와 온톨로지(특히 앨로트로프 재단 온톨로지, Allotrope Foundation Ontologies, AFO)를 유지·관리하여, 결과가 — 그리고 거기에 딸린 단위, 기법, 식별자가 — 어느 벤더의 장비에서 산출되었든 같은 것을 의미하게 하며, 위에서 말한 명명·단위·식별자 이질성을 직접 공략합니다 [8].
그러나 평면적 어휘 — 승인된 용어들의 단순한 목록 — 에는 한계가 있습니다. 목록은 기계에게 degC가 허용된 단위라고 알려 줄 수는 있지만, 섭씨와 켈빈이 둘 다 온도이고 고정된 공식으로 연결되어 있는 반면 리터당 그램은 전혀 다른 것이라는 사실은 알려 줄 수 없습니다. 허용된 설비 이름 목록은 바이오리액터가 용기의 일종이고, 그 용기가 상류(upstream) 공정실의 일부이며, 그 공정실이 발효에 참여한다는 것을 표현할 수 없습니다. 용어들 사이의 관계 — ~의 일종이다, ~의 일부이다, ~에 참여한다 — 는 용어 그 자체만큼이나 많은 의미를 담고 있는데, 평면적 목록에는 그것을 담을 자리가 없습니다 [5]. 관계를 담으려면 목록이 아니라 모델이 필요합니다.
그 약속: 의미의 공유 모델
그 모델이 바로 **온톨로지(ontology)**입니다. 어떤 도메인 내 개념들과 그들 사이의 관계에 대한 형식적이고 기계가 읽을 수 있는 명세 — 무엇이 존재하고 그것들이 어떻게 연결되는지에 대한 공유된 지도입니다 [5]. 실제로 이러한 모델은 W3C의 웹 온톨로지 언어(Web Ontology Language, OWL)로 작성되고, RDF 위에 구축되며, RDF/XML이나 더 읽기 쉬운 Turtle 같은 형식으로 직렬화(serialize)되어, 컴퓨터가 적재하고 추론할 수 있는 표준으로 의미가 표현됩니다. 어휘가 단어를 나열한다면, 온톨로지는 컴퓨터가 추론할 수 있는 사실을 진술합니다. 바이오리액터는 설비의 일종이다; 온도 측정값은 어떤 온도에 대한 측정이다; 섭씨와 켈빈은 같은 물리량을 잰다. 이러한 사실들이 일단 형식적으로 적히고 나면, 소프트웨어는 이 장 첫머리에서 사람이 손쉽게 해낸 일을 — 세 가지 다른 기술이 하나의 실체를 가리킨다고 인식하는 일을 — 사람을 거치지 않고 해낼 수 있습니다.
별개의 온톨로지들이 서로 호환되게 유지하기 위해, 이 분야는 그것들을 공유된 **최상위(또는 상부) 온톨로지(top-level (or upper) ontology)**에 고정합니다. 다른 모든 것이 상속받는, 가장 일반적인 범주들 — 객체, 과정, 질, 역할 — 의 작고 도메인 중립적인 집합입니다. 그러한 기반 중 하나에 대한 국제 표준이 ISO/IEC 21838-2로 표준화된 **기초 형식 온톨로지(Basic Formal Ontology, BFO)**이며, 이는 이질적인 시스템들 사이의 데이터 교환과 통합을 지원하도록 명시적으로 설계되었습니다 [7]. 이 공통 토대 위에 제조 온톨로지를 구축하는 것이 **산업 온톨로지 파운드리(Industrial Ontologies Foundry, IOF)**의 사명입니다. 제조 분야의 의미적 상호운용성 문제를 명확히 제기하고, 우연이 아니라 설계에 의해 상호운용되는 참조 온톨로지를 구축하기 위한 공유 원칙을 채택한 커뮤니티입니다 [3]. **IOF 코어 온톨로지(IOF Core Ontology, 이하 IOF Core)**는 이질적인 제조 데이터를 조화시키도록 설계된, BFO에 기반한 구체적인 중간 수준 모델입니다 — n²의 엉킴을 n개의 매핑으로 바꿀 수 있는 단일 공유 참조 모델을 향한 하나의 경로입니다 [4].
왜 중요한가
데이터 관리의 관점에서 이 장은 놓치기 쉬운 한 가지 분명한 선을 긋습니다. 이 책 앞부분의 모든 투자가 — 장비, 히스토리안, 통합 표준, 거버넌스, 무결성 통제가 — 흠잡을 데 없을 수 있는데도, 데이터가 같은 세계를 양립 불가능한 용어로 기술하기 때문에 시스템을 가로지르는 단순한 질문 하나에 답하지 못하게 될 수 있습니다. 연결성 표준은 바이트가 도착할 수 있는가를 풀었습니다. 거버넌스는 기록이 신뢰할 만하고 소유 주체가 있는가를 풀었습니다. 어느 쪽도 두 숫자가 같은 것을 의미하는가는 풀지 못합니다 — 그리고 그것 없이는 모든 분석 프로젝트가 매번 처음부터 랭글링 세금을 다시 치르고, 결합된 모든 데이터셋은 화씨와 섭씨를 소리 없이 평균 내 버릴 위험을 안습니다. 의미는 끝에 덧칠하는 마무리 광택이 아닙니다. 그것은 나머지 모든 데이터가 과연 함께 쓰일 수 있는지를 결정하는 계층입니다.
이 문제는 규제 측면에서도 걸려 있습니다. 배치 기록은 완전하고 추적 가능해야 합니다 — 미국에서는 21 CFR 211.192가 생산·관리 기록을 검토하고 모든 불일치를 완전히 조사하도록 요구합니다 — 그런데 의미가 이름·단위·타임스탬프에서 서로 어긋나는 여러 시스템에 흩어져 있는 기록은 처음부터 끝까지 쉽게 재구성될 수 없습니다. 기술 이전(technology transfer)은 이 위험을 가중시킵니다. 한 방법(method)이 사이트 간에 이동할 때, 분석 절차 검증에 관한 ICH Q2(R2)와 분석 절차 개발에 관한 ICH Q14는 모두 한 사이트에서 진술된 규격(specification)이 — 단위를 포함하여 — 다음 사이트에서도 같은 것을 의미한다고 전제합니다. 의미적 이질성은 바로 그 전제를 소리 없이 무너뜨립니다.
실제 현장에서는
이것은 이론이 아닙니다. ISA-95는 비즈니스-공장 통합의 사실상의 참조 모델로서, 기업 시스템과 제조 시스템 사이의 인터페이스가 기반으로 삼는 공유 객체 정의와 용어를 공급합니다 [2]. 그리고 앨로트로프 재단의 공유 온톨로지는, 어느 두 장비도 같은 방식으로 기술하지 않던 실험실 데이터에 대한, 제약 산업의 살아 있는 대응입니다 [8]. 산업 온톨로지 파운드리는 이 공유 모델에 한 번만 매핑하는 방식을 벤더와 기업을 가로질러 실용적으로 만들기 위해, BFO 토대 위에 제조 참조 온톨로지를 구축하고 있습니다 [3][4]. 그리고 이것이 바로 미국 NIIMBL 연구소의 실시간 실험실 데이터 개념 증명(proof of concept)이 풀고자 설계된 문제입니다. 그 노력은 이 장이 정리한 구체적 이질성을 정조준합니다. 한 파트너에서는 TIC101.PV로, 다른 파트너에서는 temp_reactor로 보고하는 센서를 하나의 합의된 속성으로 조정하고, 화씨 필드와 켈빈 필드를 단일한 섭씨 물리량으로 해소하며, EQ-00457 자산 태그와 BR-101 라벨을 같은 용기로 인식하고, epoch·현지·UTC 타임스탬프를 하나의 시각으로 정규화합니다 — 그리하여 질문을 한 번 던지면 조직 경계를 넘어 답을 얻을 수 있게 됩니다. 작동하게 된 FAIR 상호운용성 원칙입니다 [1]. (NIIMBL의 별도 시설인 SABRE는 첨단 바이오제조를 확장하고 위험을 줄이기 위해 바로 옆에 건설 중인 파일럿 규모 cGMP 바이오제조·인력양성 센터로, 이 데이터 작업을 보완하는 것이지 데이터 작업 자체는 아닙니다.)
핵심 용어
- 상호운용성(Interoperability) — 별개의 시스템들이 함께 작동하는 능력.
- 구문적 상호운용성(Syntactic interoperability) — 데이터 형식에 대한 합의: 메시지가 파싱되고 필드가 들어맞음.
- 의미적 상호운용성(Semantic interoperability) — 데이터 의미에 대한 합의: 두 값이 같은 종류의 실세계 대상을 기술한다는 것을 양쪽이 앎.
- LCIM(개념적 상호운용성 수준 모델, Levels of Conceptual Interoperability Model) — 기술적 연결에서부터 구문적·의미적 수준을 거쳐 화용적·동적·개념적 수준에 이르기까지 상호운용성을 명명하는 계층적 모델.
- 의미적 이질성(Semantic heterogeneity) — 같은 대상이 시스템과 사람에 따라 다르게 명명되고 개념화될 때 생기는 간극.
- 랭글링(Wrangling) — 데이터를 분석할 수 있기 전에 이름, 단위, 식별자, 타임스탬프를 수작업으로 맞추는 일.
- 점대점 매핑(Point-to-point mapping) — 시스템 쌍마다 두는 별도의 의미 변환기; n² 문제를 겪음.
- 참조 데이터(Reference data) — 한 필드가 가질 수 있는 표준적이고 승인된 값들의 집합.
- 통제 어휘(Controlled vocabulary) — 정의가 딸린, 관리되는 합의 용어 목록.
- 온톨로지(Ontology) — 어떤 도메인 내 개념들과 그들 사이의 관계에 대한 형식적이고 기계가 읽을 수 있는 모델.
- 최상위 / 상부 온톨로지(Top-level / upper ontology) — 도메인 온톨로지들이 상속받는, 가장 일반적인 범주들의 작고 도메인 중립적인 집합.
- BFO(기초 형식 온톨로지, Basic Formal Ontology, ISO/IEC 21838-2) — 이질적인 시스템들 사이의 데이터 통합을 지원하도록 구축된 표준화된 최상위 온톨로지.
- IOF(산업 온톨로지 파운드리, Industrial Ontologies Foundry) — 제조를 위한 공유되고 BFO에 기반한 참조 온톨로지를 구축하는 커뮤니티.
- IOF 코어 온톨로지(IOF Core Ontology, IOF Core) — 이질적인 제조 시스템들이 매핑할 하나의 공유 모델을 제공하는, IOF의 BFO에 기반한 중간 수준 온톨로지.
이 다음은
우리는 필연에 의해 온톨로지라는 단어에 도달했습니다. 평면적 어휘는 이름과 단위는 바로잡지만, 의미가 실제로 의존하는 관계는 담아낼 수 없기 때문입니다. 다음 장 온톨로지와 FAIR 데이터(Ontologies and FAIR Data)는 그 개념을 바닥에서부터 쌓아 올립니다 — 클래스(class)와 관계(relation)란 무엇인지, BFO와 IOF 스택이 어떻게 맞물리는지, 앨로트로프의 AFO와, BMIC(바이오의약품 제조 산업 협의회, Biopharmaceutical Manufacturing Industry Council) — 다음 장에서 정의하는 거버넌스 협의회 — 가 관리하는 IOF 바이오파마(Biopharma) 온톨로지가 이를 우리 분야에 어떻게 적용하는지, 그리고 FAIR 원칙이 이 모든 것을 의미의 철학에서 데이터 관리의 작동하는 규율로 어떻게 바꾸어 놓는지를 다룹니다.