FAIR의 실제: 그래프가 정말로 약속을 지키는지 측정하기

📍 현재 위치: 6부 · 그래프 전체 — 23장. 모델은 관장되고 있고 공장과 어긋나지 않게 유지됩니다. 이 장은 더 어려운 질문을 던집니다. 그것은 정말로 세상에 유용한가 — 진정으로 FAIR한가 — 아니면 서류상으로만 FAIR한가?

FAIR 원칙 — 데이터가 찾을 수 있고(Findable), 접근 가능하며(Accessible), 상호운용 가능하고(Interoperable), 재사용 가능해야(Reusable) 한다는 것 — 은 서문 이래로 북극성이었습니다. 우리는 전역 IRI, 공유 온톨로지, 타입 지정 단위, 그리고 거버넌스로 그것을 향해 쌓아 올렸습니다. 이제 승리를 선언하면 흐뭇하겠지요. 그러나 FAIR는 적합성 증명서가 아니라 일련의 원칙이며, 그래프는 통신선 위의 모든 표준을 만족시키면서도 그 표준들이 떠받치려는 목표를 조용히 저버릴 수 있습니다. 이 장은 FAIR를 열망에서 측정으로 바꾸고, 표준에 적합한 것과 실제로 FAIR한 것 사이의 불편하면서도 잘 기록된 간극을 정면으로 마주합니다.

쉽게 말하면

도서관은 모든 책을 소장하고도 여전히 쓸모없을 수 있습니다. 아무것도 목록화되어 있지 않고, 문은 아무 때나 잠겨 있으며, 책의 절반이 아무도 이름표를 붙이지 않은 언어로 되어 있다면요. "우리는 책을 가지고 있다"는 "당신은 그 책들을 찾고, 가져오고, 결합하고, 재사용할 수 있다"와 같은 말이 아닙니다. FAIR는 그 도서관이 실제로 작동한다는 약속이며 — 그것을 아는 유일한 길은 올바른 책장을 샀으니 약속이 지켜졌으리라 가정하는 것이 아니라 직접 시험해 보는 것입니다. 이 장은 그래프를 FAIR에 비추어 정직하게 시험하고, 그 시험 결과가 안내 책자보다 나쁘게 나오는 지점을 인정합니다.

이 장에서 다루는 내용

우리는 FAIR의 각 글자를 그래프에 대해 점검할 수 있는 구체적인 질문으로 바꾸고, FAIR 평가(FAIR assessment) 점수표를 해부하며, 이 시리즈 전체가 맴돌아 온 간극을 정면으로 마주합니다. 표준 적합성이 FAIR함을 보장하지 않으며, 상호운용성(interoperability)은 실제 데이터가 가장 자주 실패하는 차원이고, 그 원인은 거의 트리플스토어가 아니라 — 마감에 쫓기는 사람들이 공장 현장에서 통제 어휘 없이 작성한 메타데이터라는 점입니다.

FAIR의 각 글자는 실제로 점검할 수 있는 질문이다

FAIR의 힘은 그것이 구체적인 점검 항목으로 분해된다는 데 있으며, 바로 그 점이 FAIR를 단순히 주장하는 것이 아니라 측정할 수 있게 해 줍니다 [1][2]. 우리의 바이오공정 그래프에 적용하면 다음과 같습니다.

찾을 수 있음(Findable) — 모든 엔티티가 전 세계적으로 유일하고 영속적인 IRI와 풍부한 메타데이터를 지니고, 위치를 찾을 수 있게 색인되어 있는가? 영구 IRI와 제품·사이트·날짜 메타데이터를 지닌 배치는 통과하지만, 스프레드시트 셀에 파묻힌 숫자는 그러지 못합니다.
접근 가능(Accessible) — 데이터를 그 식별자를 통해 표준 프로토콜로, 명확한 접근 규칙과 함께 검색할 수 있는가? 문서화된 권한 부여를 갖춘 SPARQL 엔드포인트는 통과합니다. FAIR-접근 가능은 공개(open)를 뜻하지 않습니다 — 엄격하게 접근 통제된 기록도 그 접근 조건이 명확하고 검색 메커니즘이 표준적이라면 온전히 FAIR합니다.
상호운용 가능(Interoperable) — 값이 공유되고 형식적인 어휘와 한정되고 단위를 지닌 참조를 사용하여, 다른 데이터와 결합되는가? QUDT 단위를 지니고 공유 온톨로지 클래스를 가리키는 monomerPct는 통과하지만, 맨 문자열 "98.6"은 그러지 못합니다.
재사용 가능(Reusable) — 데이터가 출처(provenance), 맥락, 그리고 명확한 사용 라이선스와 함께 풍부하게 기술되어, 다른 사람들이 신뢰하고 재사용할 수 있는가? 방법과 시료 계보, 그리고 사용 약관을 함께 지닌 결과는 통과하지만, 고아가 된 숫자는 그러지 못합니다.

이것들은 우리 그래프에 대한 추상적인 개념이 아닙니다. 각 글자는 이미 데이터셋 안에 들어 있는 구체적인 산물 위에 내려앉습니다. 원료의약품 로트 DS-001이 찾을 수 있는 까닭은 그 CURIE가 하나의 전역적이고 영속적인 IRI로 펼쳐지기 때문입니다 — bp:DS-001은 https://example.org/bioproc#DS-001이며, 등장하는 모든 곳에서 같은 문자열입니다 — 그리고 그것은 익명의 셀로 존재하는 대신 색인된 메타데이터(레이블, 타입, 출하 상태)를 지닙니다.

@prefix bp:  <https://example.org/bioproc#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

bp:DS-001 a bp:DrugSubstance ; rdfs:label "DS-001" ;   # Findable: one persistent IRI, typed + labelled
    bp:derivedFrom bp:POLpool-001 ;                      # Reusable: provenance / lineage edge (one tier up)
    bp:releaseStatus "PASS" ;
    bp:monomerPct "98.611"^^xsd:float ;                  # convenience scalar...
    bp:monomerValue bp:DS-001-monomer .                  # ...Interoperable: qualified, unit-bearing value

상호운용 가능의 차이는 bp:monomerValue 엣지입니다. 맨 "98.6" 대신, 그 숫자는 단위와 양종(quantity kind)이 그 자체로 IRI인, 완전히 자기 기술적인 QUDT QuantityValue로 해소됩니다. 그래서 98.611은 결코 분수나 다른 단위로 잘못 읽힐 수 없습니다.

@prefix bp:    <https://example.org/bioproc#> .
@prefix qudt:  <http://qudt.org/schema/qudt/> .
@prefix unit:  <http://qudt.org/vocab/unit/> .
@prefix qkind: <http://qudt.org/vocab/quantitykind/> .
@prefix xsd:   <http://www.w3.org/2001/XMLSchema#> .

bp:DS-001-monomer a qudt:QuantityValue ;
    qudt:numericValue "98.611"^^xsd:float ;
    qudt:hasUnit unit:PERCENT ;
    qudt:hasQuantityKind qkind:DimensionlessRatio .

바로 그 bp:derivedFrom 엣지가 그 로트를 재사용 가능하게 만듭니다 — 그것은 OBO 관계 온톨로지의 derives from의 하위 속성이며 전이적이어서, 셀 뱅크까지 거슬러 올라가는 출처 사슬이 단지 주장되는 것이 아니라 복원될 수 있습니다. 결정적으로, FAIR 원칙은 기계 작동성(machine-actionability) — 사람의 도움을 최소화하면서 컴퓨터가 사용할 수 있는 것 — 을 겨냥합니다 [1]. 바로 그래서 사람은 읽을 수 있지만 기계에는 불투명한 기록은, 사람이 그 뜻을 이해할 수 있다 하더라도 FAIR에 실패합니다.

바이오공정 그래프에 대한 FAIR 평가 점수표의 식별 카드: 글자마다 한 줄씩 네 줄로, 각각 구체적인 점검 항목과 판정을 담습니다 — 찾을 수 있음(영속적 IRI와 색인된 메타데이터: 통과), 접근 가능(문서화되고 어쩌면 제한된 접근을 갖춘 SPARQL 엔드포인트: 통과, 접근 가능이 공개와 같지 않다는 주석과 함께), 상호운용 가능(맨 문자열 대 공유 온톨로지 클래스와 QUDT 단위를 사용하는 값: 위험에 처한 줄로, 부분 통과로 표시됨), 재사용 가능(출처, 계보, 라이선스가 갖추어짐: 통과). 맨 위를 가로지르는 기계 작동성 배너, 그리고 메타데이터가 통제 어휘 없이 손으로 작성되기 때문에 상호운용성이 가장 낮은 점수를 받을 가능성이 큰 차원임을 표시하는 콜아웃이 함께 있습니다. 구호가 아니라 점수표로서의 FAIR: 각 글자는 구체적인 점검 항목이 되고, 기계 작동성이 목표이며, 상호운용성은 실제 그래프가 가장 자주 실패하는 차원으로 표시됩니다 — 대개 엔진이 아니라 손으로 작성된 메타데이터 때문입니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

이 점수표는 슬라이드가 아니라 데이터셋에 적재 가능한 개체입니다. 그래프는 DS-001 기록에 대한 자체 FAIR 자기 평가를, bp:FAIRAssessment에 매달린 네 개의 bp:FAIRCheck 노드로 — 각각 판정을 지닌 채 — 실어 나르며, 여기에 재사용 가능 점검이 의존하는 사용 라이선스가 더해집니다.

@prefix bp:   <https://example.org/bioproc#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

bp:FAIR-DS-001 a bp:FAIRAssessment ; rdfs:label "FAIR assessment of the DS-001 record" ;
    bp:assesses bp:DS-001 ;
    bp:hasCheck bp:FC-F , bp:FC-A , bp:FC-I , bp:FC-R .
bp:FC-F a bp:FAIRCheck ; rdfs:label "Findable (global IRI)" ; bp:fairVerdict "PASS" .
bp:FC-A a bp:FAIRCheck ; rdfs:label "Accessible (resolves, with access conditions)" ; bp:fairVerdict "PASS" .
bp:FC-I a bp:FAIRCheck ; rdfs:label "Interoperable (shared vocab + QUDT units)" ; bp:fairVerdict "PARTIAL" .
bp:FC-R a bp:FAIRCheck ; rdfs:label "Reusable (method, lineage, licence)" ; bp:fairVerdict "PASS" .
bp:LICENSE-CC-BY a bp:UsageLicense ; rdfs:label "CC BY 4.0" .
bp:DS-001 bp:hasLicense bp:LICENSE-CC-BY .

이 모델의 정직함은 "PASS"가 아닌 단 하나의 판정에 있습니다. 상호운용 가능은 QUDT 단위나 공유 클래스 엣지가 빠져서가 아니라 — 다음 절이 측정하듯 — 이토록 세심하게 정렬된 그래프조차도 지역 용어 중 일부만을 검증된 외부 IRI로 위로 매핑하기 때문에 "PARTIAL"로 기록되며, 그것이 바로 실제 그래프가 가장 자주 실패하는 차원입니다.

미해결 과제: 통신선 위에서는 적합하나 실제로는 공허한

여기 이 시리즈가 데이터 책 이래로 이름 붙여 온, 그리고 이 장이 정면으로 측정하는 간극이 있습니다. 연구자들이 실제 데이터셋을 FAIR에 비추어 평가하면 일관된 패턴이 드러납니다. 거의 모든 것이 찾을 수 있는 반면 — 식별자와 검색은 쉽습니다 — 상호운용성은 가장 자주 낮은 점수를 받는 차원이며, 흔히 네 글자 중 최저점을 기록합니다 [2][3]. 그 이유는 이 책 전체가 맴돌아 온 것입니다. 메타데이터가 통제 어휘 없이 자유 텍스트로 손으로 작성되어, 필드는 존재하지만 어떤 공유 온톨로지도 가리키지 않고 단위는 맨 문자열입니다. 데이터는 찾을 수 있고 내려받을 수 있으면서도 여전히 결합 불가능합니다 — 적합성의 언어를 입은 의미적 늪입니다. "우리는 FAIR를 씁니다"는 구문 계층에서는 참이면서 의미 계층에서는 공허할 수 있습니다.

바이오제조는 이 간극을 그대로 물려받으며, 지식 그래프 장은 그 실패 양상에 이름을 붙였습니다. 한 공장이 적합한 트리플스토어를 세우고 완벽한 RDF를 내보내면서도, 어떤 하류 시스템도 병합할 수 없는 그래프를 만들어 낼 수 있습니다. 술어가 결코 공유 온톨로지에 정렬되지 않았고 단위가 결코 고정되지 않았기 때문입니다. 그 간극을 메우는 것은 트리플스토어가 아니라, 모든 지역 용어를 검증된 외부 IRI로 위로 매핑하는 별도의 정렬 파일입니다 — bp:DrugSubstance를 사적인 레이블에서 BFO에 근거한 시스템이 알아보는 무언가로 바꾸어 주는 그 줄입니다.

@prefix bp:   <https://example.org/bioproc#> .
@prefix obo:  <http://purl.obolibrary.org/obo/> .
@prefix iof:  <https://spec.industrialontologies.org/ontology/construct/> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

bp:Material      rdfs:subClassOf obo:BFO_0000040 .       # BFO 2020 'material entity'
bp:DrugSubstance rdfs:subClassOf iof:MaterialProduct .   # IOF Core 'material product'
bp:derivedFrom   rdfs:subPropertyOf obo:RO_0001000 .     # RO 'derives from'

이 세 줄이 없으면 앞의 bp:DS-001 트리플은 찾을 수 있고 내려받을 수 있으나 결합 불가능합니다. 이 세 줄이 있으면, 술어와 타입은 낯선 이의 추론기가 이미 지닌 의미를 실어 나릅니다. SHACL 게이트는 구조적 사례 — 빠진 필드, 잘못된 데이터타입 — 를 잡아내지만, 그럴듯해 보이는 용어로 필드를 자신만만하게 잘못 이름 붙이는 사람은 잡아낼 수 없습니다. 이는 출하 게이트가 지닌 것과 같은 완전함은 정확함이 아니다라는 한계입니다. 그러므로 FAIR함은 RDF를 채택한다고 해서 주어지는 것이 아닙니다. 그것은 공장 현장에서 작성된 메타데이터가 통제 어휘이고, 기계가 검사 가능하며, 주장이 아니라 사실로서 상호운용 가능하도록 보장하는 규율과 도구가 주는 것입니다. 그 규율은 기술적 문제인 만큼이나 조직과 변경 관리의 문제이며 — 솔직히 말해 — 이 분야가 여전히 진정으로 씨름하고 있는 지점입니다. 이 장이 세우는 기준은 FAIR함을 가정하는 것이 아니라 측정하는 것입니다. 그래프를 각 글자에 비추어 평가하고, 상호운용성이 약한 글자일 것이라 예상하며, 그 간극을 이미 체크된 항목이 아니라 앞으로 해야 할 일로 다루는 것입니다.

왜 중요한가

FAIR는 모델링 노력 전체의 정당화 근거입니다 — 그저 숫자를 저장하는 대신 온톨로지, IRI, 단위의 비용을 치를 이유 말입니다. 그러나 그 정당화는 FAIR함이 진짜일 때에만 성립하는데, 실제 데이터가 찾을 수는 있으나 상호운용 가능하지는 않다는 일관된 발견은 그 정당화가 으레 주장되기만 하고 지켜지지는 않는다는 뜻입니다. FAIR함을 측정하는 일 — 각 글자를 점검 항목으로 바꾸고 그래프를 정직하게 채점하는 일 — 은 표준을 채택하는 것이 곧 목표를 달성하는 것이라는 안락한 거짓말로부터 프로젝트를 지켜 줍니다. FAIR해 보이지만 그렇지 않은 그래프는 정직한 스프레드시트보다 오히려 나쁘다고 할 수 있습니다. 데이터가 얻어 내지 못한 신뢰를 불러들이기 때문입니다. 이 장은 북극성을 가정하지 말고 점검하라는, 이 책의 고집입니다.

실제 현장에서는

FAIR 평가는 원칙에서 실천으로 성숙했습니다. 조직이 적합성을 단언하는 대신 자신의 데이터를 채점할 수 있게 해 주는 발표된 지표, 성숙도 표지자, 해석 프레임워크가 존재합니다 [2][3]. 여러 분야에 걸친 일관되고 냉정한 결과는, 상호운용성과 풍부한 재사용 가능성이 찾을 수 있음에 한참 뒤처진다는 것입니다. 그것들은 손으로 작성된 메타데이터에는 없는 통제 어휘와 출처를 요구하기 때문입니다. 바이오제약에서는 상호운용성을 실제로 가져다줄 표준들 — IOF/BMIC, 앨로트로프(Allotrope), QUDT — 이 존재하고 수렴하고 있으므로, 병목은 빠진 기술이 아니라 공장 현장에서 실제로 그것들에 맞추어 작성하는 규율입니다. 그것이 바로 지난 장의 거버넌스 약속을, 그 약속이 떠받치는 목표의 관점에서 바라본 것이며, 이 책의 마지막 결산을 위한 정직한 무대 준비입니다.

핵심 용어

FAIR 원칙(FAIR principles) — 데이터가 찾을 수 있고, 접근 가능하며, 상호운용 가능하고, 재사용 가능해야 한다는 것으로, 기계 작동성을 명시적 목표로 삼음; 적합성 시험이 아니라 원칙.
기계 작동성(machine-actionability) — 사람의 도움을 최소화하면서 컴퓨터가 사용할 수 있는 속성; 사람은 읽을 수 있으나 기계에는 불투명한 기록이 실패하는 속성.
FAIR는 공개가 아니다(FAIR is not open) — 접근 가능이란 명확한 접근 조건과 표준 검색 메커니즘을 뜻하지, 누구나 모든 것을 읽을 수 있다는 뜻이 아님; 제한된 규제 데이터도 온전히 FAIR일 수 있음.
FAIR 평가(FAIR assessment) — 각 글자를 주장이 아니라 구체적이고 채점 가능한 점검 항목으로 바꾸는 일; 적합성과 FAIR함 사이의 간극을 드러내는 실천.
상호운용성 간극(the interoperability gap) — 실제 데이터가 찾을 수는 있으나 가장 자주 상호운용성에 실패한다는 일관된 발견. 메타데이터가 통제 어휘 없이 손으로 작성되기 때문.
적합한 것 대 실제로 FAIR한 것(compliant versus FAIR-in-fact) — 통신선 위로 유효한 RDF를 내보내는 것과, 진정으로 결합 가능한 데이터를 만들어 내는 것 사이의 차이; SHACL 게이트가 그럴듯한 오기를 잡아낼 수 없기에 메울 수 없는 간극.

다음 이야기

우리는 그래프가 약속을 지키는지 측정할 수 있고, 그것이 미치지 못하는 지점을 인정했습니다. 또한 이제 우리는 모델 전체 — 척추, 값, 공정, 스레드, 그 거버넌스와 FAIR함 — 를 다 지었습니다. 책이 평결을 내리기 전에, 앞의 여섯 부가 답을 전제했던 경험적 질문을 던지러 실행 예시 밖으로 나섭니다. 실제 산업은 이 가운데 무엇이라도 정말로 하고 있으며, 그것은 얼마나 성숙했는가? 7부는 표준 기관: 바이오파마의 공유 어휘를 실제로 만드는 주체로 열리며, 앞선 모든 장이 조용히 기대어 온 공유 어휘를 만들어 내는 사전 경쟁 컨소시엄 — Allotrope, Pistoia Alliance, ISA-88/95, OPC UA와 MTP, ISPE Pharma 4.0, BioPhorum, GS1, 그리고 OAGi/NIIMBL 바이오제조 온톨로지 노력 — 을 살펴봅니다.

이 장에서 다루는 내용​

FAIR의 각 글자는 실제로 점검할 수 있는 질문이다​

미해결 과제: 통신선 위에서는 적합하나 실제로는 공허한​

왜 중요한가​

실제 현장에서는​

핵심 용어​

다음 이야기​