데이터 거버넌스, 데이터 품질, 마스터 데이터

📍 현재 위치: 이전 장에서는 단일 컴퓨터 시스템이 목적에 적합함을 증명했고, 이번 장에서는 모든 시스템을 신뢰할 수 있게 유지하는 조직적 중추를 세웁니다. 즉, 이 파트의 앞부분에서 다룬 무결성 및 검증 통제가 실제로 자리 잡게 만드는 정책, 역할, 정의를 다룹니다.

이전 장 CSV에서 CSA로에서는 하나의 시스템을 검증하는 방법을 보였습니다. 그리고 의료기기 생산 및 품질 시스템 소프트웨어에 대한 FDA의 2025년 컴퓨터 소프트웨어 보증(Computer Software Assurance) 지침 — 의약품·생물의약품 산업이 유추를 통해 채택해 온 — 이 어떻게 그 노력을, 산더미 같은 문서 작업에서 실제 위험에 대한 비판적 사고로 옮기는지도 보였습니다. 그러나 공장은 개별적으로 검증된 수십 개의 시스템 — 생산 현장에서 일어나는 일을 지시하고 기록하는, 지멘스 Opcenter나 Körber PAS-X와 같은 제조 실행 시스템(manufacturing execution system, MES), 시험 결과를 포착하는 실험실 시스템, 자재·재고·주문을 추적하는 전사적 자원 관리(enterprise resource planning, ERP) 시스템 — 을 운영하면서도, 서로 모순되고 연결할 수 없는 데이터에 빠져 허우적댈 수 있습니다. 그 시스템들 전반에 걸친 데이터를 규율하는 규칙에 아무도 합의하지 않았기 때문입니다. 이 빈틈을 메우는 것이 바로 데이터 거버넌스(data governance)의 역할입니다.

쉽게 말하면

큰 도서관을 떠올려 보세요. 좋은 책꽂이와 작동하는 대출 스캐너(기술 시스템)를 갖추는 것만으로는 충분하지 않습니다. 누군가는 누가 책을 추가할 수 있는지, 모든 책에 어떻게 라벨을 붙이고 어디에 꽂는지, 같은 책의 세 가지 판본이 들어왔을 때 무엇을 "같은" 책으로 볼지, 잘못 분류된 도서를 누가 바로잡을지를 결정해야 합니다. 그런 규칙과 그런 사람들이 없으면, 건물은 아무도 찾을 수 없는 책들로 가득 차게 됩니다. 데이터 거버넌스는 공장 전체 데이터를 위한 사서의 규칙집입니다.

이 장에서 다루는 내용

먼저 데이터 거버넌스와 그 세 가지 관리 역할을 정의하고, 데이터가 쓸 만한지 알려주는 데이터 품질의 차원(dimensions of data quality)을 살펴본 다음, 원시 숫자에 의미를 부여하는 메타데이터(metadata)를 다루고, 이어서 식별자 혼란을 막아주는 자재, 장비, 제품에 대한 공유 정의인 마스터 데이터 관리(master data management)를 살펴보며, 아직 진정으로 풀리지 않은 문제 — 공급망 파트너들 전반에 걸친 마스터 데이터 조화 — 로 넘어가기 전에 거버넌스된 하나의 마스터 레코드 해부도를 분해해 봅니다. 이 모든 것을 하나로 묶는 핵심은 이것입니다. 먼저 거버넌스하지 않은 데이터는 연결할 수 없다는 것입니다.

역할과 품질: 데이터를 누가 소유하며 얼마나 좋은가

데이터 거버넌스: 규칙과 그것을 소유한 사람들

데이터 거버넌스(data governance)는 데이터 관리에 대한 권한과 통제를 행사하는 것입니다. 즉, 누가 어떤 데이터로 어떤 규칙 아래 무엇을 할 수 있는지를 정하는 의사결정권과 책임의 체계입니다 [1]. 이는 소프트웨어가 아니라, 소프트웨어 위에 있는 조직적 계층입니다. 데이터 관리 지식 체계(DAMA-DMBOK)는 이것들을 별개의 책임으로 규정하며 [1], 이 주제에 관한 연구는 거버넌스를 의사결정 영역들의 집합으로 규정합니다. 원칙(principles), 품질(quality), 메타데이터(metadata), 접근(access), 수명주기(lifecycle) — 각각은 "누가 결정하는가?"에 대한 명확한 답, 즉 명시된 책임 소재(locus of accountability)와 짝을 이룹니다 [3].

규제 대상 바이오 제조에서 거버넌스는 선택적인 정리정돈이 아닙니다. 세계보건기구(WHO)는 상위 경영진(senior management)이, 회사의 품질 시스템에 내재되어 무결성 원칙을 전체 데이터 수명주기에 걸쳐 적용하는 효과적인 데이터 거버넌스 시스템에 대한 책임이 있음을 명확히 합니다 [8]. ISPE의 제약 엔지니어링 지침(GAMP 기록 및 데이터 무결성 프레임워크) 역시 데이터 거버넌스 프레임워크를 데이터 무결성 통제가 자리 잡는 우산으로 비슷하게 규정합니다 [5]. 다시 말해, 거버넌스는 "데이터는 무결성을 가져야 한다"는 추상적 요구와, 그것을 실현하는 구체적 통제 — 감사 추적(audit trail), 접근 제한, 검증 — 사이를 잇는 연결 조직입니다.

세 가지 역할: 소유자, 스튜어드, 커스터디언 (그리고 이를 혼동하면 왜 실패하는가)

세 가지 역할이 업무를 나누어 맡으며, 이들을 혼동하는 것은 전형적인 실패 양상입니다 [1]. 실패는 업무를 건너뛰어서 생기는 경우가 드뭅니다. 잘못된 사람에게 그 일을 맡기기 때문에 생깁니다. 비즈니스적 의미에 관한 질문("이 자재가 저 자재와 같은가?")을 커스터디언에게 넘기면 기술적으로는 깔끔하지만 생물학적으로는 틀린 답을 얻게 되고, 소유자에게 필드를 손으로 고치라고 하면 그 수정이 IT가 통제하는 시스템들에 결코 전파되지 않습니다. 각 임무에는 저마다의 자리가 필요합니다:

데이터 소유자(data owner)는 책임을 지는(accountable) 사람입니다. 특정 데이터 영역(예: "모든 배치 기록")에 대해 답을 책임지고 그에 대한 규칙을 정하는 현업 담당자입니다.
데이터 스튜어드(data steward)는 실무를 담당하는(responsible) 사람입니다. 데이터를 일상적으로 관리하고, 각 필드의 의미를 정의하며, 품질 문제를 해결하는 주제 전문가(subject-matter expert)입니다.
데이터 커스터디언(data custodian)은 기술적 관리자(technical caretaker) — 일반적으로 IT — 로서, 저장소, 백업, 접근 통제를 운영하지만 데이터의 비즈니스적 의미를 결정하지는 않습니다.

수직적 거버넌스 캐스케이드: 상위 경영진이 거버넌스 권한을 부여하고, 이는 정책과 표준이 되어 데이터 소유자(책임을 지고 규칙을 정함)에게 권한을 부여하며, 소유자는 두 역할 — 데이터 스튜어드(의미를 정의하고 품질을 바로잡음)와 데이터 커스터디언(IT의 기술적 관리자로 저장소·접근·백업을 운영) — 으로 분기하고, 두 역할이 함께 모여 신뢰할 수 있고 연결 가능한 데이터를 만들어냅니다. 거버넌스는 경영진의 권한 부여에서 시작해, 정책을 거쳐, 세 가지 뚜렷한 역할 — 책임, 스튜어드십, 기술적 관리 — 로 흐르며, 이들이 함께 신뢰할 수 있는 데이터를 만들어냅니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

노트

유용한 약식 표현: 소유자는 책임을 지고(그 이름이 거기에 걸려 있고), 스튜어드는 실무를 담당하며(직접 일을 하고), 커스터디언은 열쇠를 관리합니다(인프라를 운영합니다). 작은 실험실에서는 한 사람이 두 가지 역할을 겸할 수 있지만, 세 가지 임무는 각각 반드시 맡을 곳이 있어야 합니다.

데이터 품질의 여섯 가지 차원

"좋은 데이터"는 관리하기에는 너무 막연합니다. 이 분야는 품질을 측정 가능한 차원(dimensions)으로 나눕니다. 한 번에 하나씩 점검할 수 있는 별개의 속성들입니다. 데이터를 실제로 사용하는 사람들에게 데이터 품질이 무엇을 의미하는지를 다룬 기념비적 연구는 이것들을 네 가지 부류로 묶었습니다. 본질적(intrinsic)(데이터 자체가 올바른가?), 맥락적(contextual)(당면한 작업에 적합한가?), 표현적(representational)(명확하게 제시되었는가?), 접근성(accessibility)(접근할 수 있는가?) [2]. 국제 데이터 품질 표준인 ISO 8000 역시 품질을 데이터가 명시된 요구사항을 충족하는 정도로 규정합니다 [9]. 바이오프로세싱에서 가장 크게 작용하는 차원은 다음과 같습니다:

정확성(accuracy) — 값이 실제와 일치하는가? pH 측정값 7.2는 드리프트되고 보정되지 않은 프로브가 아니라 실제 배양액을 반영해야 합니다.
완전성(completeness) — 빠진 것이 있는가? 공정 중 결과가 비어 있는 배치 기록은 단지 정돈되지 않은 것에 그치지 않습니다. cGMP(current Good Manufacturing Practice, 현행 우수 제조 관리 기준) 하에서 이는 데이터 무결성 결함입니다 [6]. 미국 규정은 이를 구체적으로 명시합니다. 21 CFR 211.188 — 의약품 제조에 대한 법적 구속력을 가진 규칙집인 미국 연방 규정집(Code of Federal Regulations)의 한 절 — 은 배치 생산 및 관리 기록이 모든 공정 중 시험과 결과를 문서화하도록 요구하므로, 결과가 들어가야 할 곳의 빈 필드는 스타일의 문제가 아니라 규정 위반입니다.
일관성(consistency) — 같은 사실이 시스템 전반에서 일치하는가? 공정 히스토리언(AVEVA PI System, 구 OSIsoft PI 등)은 배치가 14:03에 끝났다고 하고 제조 시스템은 15:03이라고 한다면, 적어도 하나는 틀린 것입니다.
적시성(timeliness) — 데이터가 필요할 때 사용 가능하며, 사건이 일어났을 때 기록되는가? 무결성 지침은 이를 동시 기록(contemporaneous) — 나중에 재구성하는 것이 아니라 활동 시점에 기록되는 것 — 이라고 부릅니다 [6].
고유성(uniqueness) — 각 실세계 대상이 정확히 한 번만 표현되는가? 같은 자재 로트에 대한 두 개의 기록은 잘못된 구성 요소를 혼합하게 되는 화근입니다.
유효성(validity) — 값이 그 규칙을 따르는가? "−500 °C"의 온도나 "2026-13-40"이라는 날짜는 그 자체로 유효하지 않습니다.

이러한 차원들은 데이터 무결성(data integrity)의 품질 측면입니다. 규제 기관은 데이터 무결성을 수명주기 전반에 걸쳐 완전하고, 일관되며, 정확한 데이터로 정의합니다 [6]. ALCOA+ 속성 — 신뢰할 수 있는 기록의 표식에 대한 규제 기관의 약식 표현으로, 귀속 가능(Attributable), 가독(Legible), 동시 기록(Contemporaneous), 원본(Original), 정확(Accurate)에 더해 완전(Complete), 일관(Consistent), 영속(Enduring), 가용(Available) — 과 이러한 품질 차원은 의도적으로 겹칩니다. ALCOA+는 이를 기록이 충족해야 할 무결성 요구사항으로 규정하는 반면, 차원은 이를 점수로 매길 수 있는 측정 가능한 속성으로 규정합니다. 속성으로서의 완전(Complete)과 차원으로서의 완전성(Completeness)은 서로 다른 두 가지가 아니라, 같은 개념을 두 각도에서 본 것입니다. GxP 무결성 지침 — GxP는 "우수 x 관리 기준(Good x Practice)" 규정(제조, 시험, 임상 등)을 아우르는 포괄적 용어입니다 — 은 동일한 개념을 ALCOA 원칙을 통해 규정하며, 데이터 중요도 및 위험 평가(data criticality and risk assessment) — 잘못된 숫자가 환자나 제품을 가장 크게 위협할 곳에 품질 노력을 가장 많이 쏟는 것 — 를 강조합니다 [7].

주의

품질 차원들은 서로 충돌할 수 있습니다. 더 많은 완전성(모든 것을 포착)을 요구하면 적시성(더 오래 걸림)을 해칠 수 있고, 사소한 모든 필드에서 완벽한 정확성을 추구하는 것은 중요한 필드에 더 잘 쓰일 노력을 낭비합니다. 좋은 거버넌스는 데이터를 중요도(criticality)에 따라 순위를 매기고 차원들을 비례적으로 적용합니다 [7]. 이는 이전 장의 CSA 사고방식을 그대로 반영하는 위험 기반 입장입니다. 예를 들어, 포유류 세포 배양 바이오리액터의 온도 센서 드리프트는 제품 역가(titer)와 환자 안전에 직접 영향을 미치는 반면(높은 중요도, 100% 검토를 요함), 저장실의 습도 기록(낮은 중요도)은 표본 추출 기반 점검에 의존할 수 있습니다.

중요도 기반 데이터 품질: 위험에 비례하는 노력

위의 충돌은 더 열심히 일한다고 해결되지 않습니다. 선택적으로 일함으로써 해결됩니다. 거버넌스된 모든 레코드는, 각 품질 차원을 어느 정도까지 강제할지를 결정하는 중요도(criticality) 등급을 지녀야 합니다. 이전 장이 시스템 검증에 적용한 동일한 위험 논리가 여기서는 데이터 등급 매기기에 적용됩니다. 오류가 환자에게까지 도달할 수 있는 레코드는 가장 무거운 검토 — 전체 감사 추적 검토, 이중 서명, 100% 검증 — 를 받는 반면, 편의용 대시보드에만 정보를 제공하는 레코드는 가벼운 처리를 받습니다. 이것이, 생산 바이오리액터에서의 역가와 그 바이오리액터의 물리적 운전이, 둘 다 "그저 센서 측정값"임에도 저장실 습도 기록과 다르게 거버넌스되는 이유입니다. 중요도는 숫자의 속성이 아니라, 그 숫자가 무엇을 결정하는지의 속성이며, 커스터디언이 아니라 데이터 소유자와 스튜어드만이 그것을 설정할 수 있습니다. 분석 및 제형 개발에서 태어나는 출하 결정용 분석 결과 역시 그 순위의 맨 위에 놓이며, 그래서 그들의 거버넌스와 Part 11 통제 — 전자 기록과 전자 서명을 규율하는 FDA 규칙 — 가 공장에서 가장 엄격합니다.

하류 예시: 정제 레코드 거버넌스

바이오리액터는 거버넌스를 그려보기에 가장 쉬운 곳이지만, 중요도 논리는 하류, 즉 정제에서도 똑같이 강하게 작용하며, 그곳에서는 단위공정 자체가 어떤 필드가 고중요도인지를 결정합니다. 프로테인 A 포획(Protein A capture)(포획 크로마토그래피에서 설명한, 수확물에서 항체를 그 Fc 줄기로 붙잡는 친화성 단계)을 예로 들어 보겠습니다. 이 단계의 거버넌스된 레코드는 숫자 하나가 아니라 작은 패널입니다. 동적 결합 용량(dynamic binding capacity, DBC — 운전 유속에서 수지 1리터가 붙들 수 있는 항체 그램 수, 대개 40–80 g/L), 그것이 달성하는 숙주세포단백질(HCP) 제거(단 한 번의 통과로 2–3 로그), 유리 프로테인 A(leached Protein A) 수준(비드에서 떨어져 나오는 리간드로, 백만분율 수준까지 추적), 그리고 작업자의 거두는 구간(pooling window) 컷 포인트(용출 봉우리의 어느 부분을 제품으로 거둘지)입니다. 이들 하나하나가 고중요도입니다. 각각이 로트의 안전 여부에 곧장 들어가기 때문이며, 그래서 각각은 가장 무거운 품질 처리 — 100% 검토, 귀속 가능한 서명, 변조 방지 감사 추적 — 를 받습니다. 같은 크로마토그래피 스키드의 편의용 대시보드 필드는 그렇지 않습니다.

한 단계 뒤인 저pH 바이러스 불활성화(low-pH viral inactivation)(바이러스 불활성화에서 다룬, 외피 보유 바이러스를 죽이는 산성 유지)에서도 마찬가지입니다. 그 거버넌스된 레코드는, 맨숫자가 아니라 메타데이터야말로 거버넌스가 보호하는 대상인 이유를 공장에서 가장 깔끔하게 보여줍니다. pH 측정값 3.5는 그 자체로는 무의미합니다. 레코드는 설정값(setpoint, SP — 제어 루프가 겨냥한 값)과 공정값(process value, PV — 보정된 프로브가 실제로 측정한 값)을 함께 지닙니다. 유지의 증거가 목표값이 아니라 측정된 추적선에 있기 때문입니다. 또 레코드는 스트림이 pH와 온도를 둘 다 창 안에 둔 채 실제로 보낸 유지 시간을 지니고, 측정 시스템이 프로브 자신의 상태로부터 부여하는 품질 플래그(quality flag)(Good, Uncertain, 또는 Bad)를 지닙니다. SP는 여전히 목표값을 가리키는데 pH PV는 검증된 상한 위로 표류하는 상황이야말로 정확성과 일관성 차원이 존재하는 이유인 조용한 실패이며, 거버넌스된 레코드가 홀로 놓인 숫자가 결코 아니라 값과 메타데이터와 플래그의 묶음인 이유입니다. 이 하류 레코드들은 바이오리액터의 것과 다른 거버넌스 분야가 아닙니다. 같은 여섯 가지 차원과 같은 중요도 등급 매기기를, 상류가 아니라 정제 단위공정에 적용한 것입니다.

의미와 정체성: 메타데이터와 마스터 데이터

메타데이터: 데이터에 의미를 부여하는 맥락

1장 생물의약품과 그 데이터 그림자(The Biologic and Its Data Shadow)에서, 우리는 맨숫자 — 37 — 이 그 맥락 없이는 무의미함을 보았습니다. 메타데이터(metadata)는 "데이터에 관한 데이터"입니다. 그 숫자가 바이오리액터 BR101에서, 14:03:22에, 운영자 J. Lee가 기록한, 섭씨 단위의 온도임을 알려주는 둘러싼 맥락입니다. 현대 시스템에서 그 동일한 측정값은 홀로 놓인 37이 아니라, 자체 맥락을 지닌 구조화된 객체로 저장됩니다:

{
  "value": 37,
  "unit": "°C",
  "equipment_id": "BR101",
  "timestamp": "2026-06-14T14:03:22Z",
  "operator": "J. Lee",
  "sensor_id": "TEMP-001"
}

이러한 둘러싼 맥락이 없으면 그 숫자는 해석되거나, 감사되거나, 신뢰될 수 없습니다. 무결성 지침들은 메타데이터가 기록의 일부임을 분명히 합니다. 메타데이터가 없는 데이터는 완전한 데이터가 아닙니다 [6][7].

따라서 메타데이터를 거버넌스하는 것은 명시된 거버넌스 영역 중 하나이며 [3], 이를 잘 관리하는 것이야말로 데이터를 쓰기 전용 무덤이 아니라 검색 가능하고 재사용 가능(findable and reusable)하게 만드는 것입니다. 널리 채택된 FAIR 원칙 — 데이터는 검색 가능(Findable), 접근 가능(Accessible), 상호운용 가능(Interoperable), 재사용 가능(Reusable)해야 한다는 원칙 — 은 풍부하고 기계가 처리할 수 있는 메타데이터(rich, machine-actionable metadata)를 그 한가운데에 둡니다. 데이터는 사람뿐 아니라 컴퓨터가 읽을 수 있는 메타데이터를 지닐 때에만 검색 가능하고 재사용 가능합니다 [4]. 이것은 FAIR 접점(FAIR touchpoint)이자 이 장 전체의 경첩입니다. FAIR의 상호운용 가능(Interoperable)과 재사용 가능(Reusable)이라는 두 절반은, 바로 이 장이 세우는 거버넌스된 메타데이터와 마스터 데이터 없이는 닿을 수 없습니다. 오늘 거버넌스된 메타데이터가, 내일 기계가 당신의 데이터를 다른 누군가의 데이터와 연결하게 해줍니다.

원시 값과 의미를 잇는 연결 고리로서의 메타데이터

메타데이터는 값 위에 얹힌 장식이 아닙니다. 원시 숫자와, 그것에 의미를 부여하는 모든 것 사이를 잇는 조인 키(join key)입니다. equipment_id는 측정값을 거버넌스된 장비 마스터 레코드에 묶고, unit은 거버넌스된 측정 단위에 묶으며, operator는 ALCOA의 귀속 가능한(attributable) 정체성에 묶습니다. 메타데이터를 벗겨내면 그 숫자는 무엇에도 조인될 수 없습니다. 어떤 쿼리도 닿을 수 없고 어떤 감사관도 신뢰할 수 없는 미아가 됩니다. 다시 말해, 거버넌스된 메타데이터는 값 더미를 연결되고 해석 가능한 사실들의 그래프(graph)로 바꾸는 것입니다. 무결성 지침들이 메타데이터를 선택적 부록이 아니라 기록의 일부로 취급하는 이유가 바로 이것입니다.

마스터 데이터 관리: "같은 것"에 대한 하나의 정의

메타데이터가 단일 값에 의미를 부여한다면, 마스터 데이터는 그 값들이 가리키는 개체에 대해 같은 일을 합니다. 그리고 여기서 그 효과는 이 장에서 가장 구체적으로 드러납니다. 마스터 데이터(master data)는 비즈니스가 운영되는 핵심 개체 — 자재, 장비, 제품, 분석 방법, 공급업체 — 를 기술하는 공유 참조 데이터입니다. 트랜잭션 데이터(transaction data)(예: "배치 4471 시작"과 같은 사건을 기록하는 데이터)와 달리, 마스터 데이터는 지속되는 것을 기록하며 어디서나 참조됩니다.

마스터 데이터가 해결하는 문제는 식별자 혼란(identifier chaos)입니다. 같은 원자재가 제조 시스템에서는 "Glucose", 실험실 시스템(LabWare, Waters NuGenesis, Labguru와 같은 LIMS나 ELN)에서는 "Dextrose", 재고 시스템에서는 "GLC-001"일 수 있습니다. 사람에게는 이것이 명백히 같은 당류이지만, 소프트웨어에게는 서로 관련 없는 세 개의 문자열이며, 사용량을 합산하거나, 로트를 추적하거나, 배치를 비교하려는 모든 시도가 소리 없이 망가집니다. 같은 함정은 더 복잡한 항목도 사로잡습니다. 세포 배양 배지가 MES에서는 "CHO growth medium", 작업대에서는 "CD-CHO base medium", ERP에서는 "RAW-MAT-2847"일 수 있습니다. 하나의 자재에 대한 세 가지 이름이며, 로트 추적성을 조정할 방법이 없습니다. 마스터 데이터 관리(Master Data Management, MDM)는 그러한 각 개체에 대해 단일하고 권위 있으며 거버넌스된 정의를 유지하고, 이를 사용하는 모든 시스템에 일관되게 전파하는 분야입니다 [1].

마스터 데이터 관리 전후 비교: 왼쪽은 같은 자재가 MES에서는 Glucose, LIMS에서는 Dextrose, ERP에서는 GLC-001로 불리는 — 서로 연결되지 않은 세 가지 이름; 오른쪽은 MES, LIMS, ERP가 모두 참조하는 하나의 거버넌스된 마스터 레코드 MAT-00042. 마스터 데이터 관리는 하나의 자재에 대한 세 개의 시스템 로컬 이름을, 모든 시스템이 가리키는 단일한 거버넌스된 마스터 레코드로 대체합니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

원래 일반 산업용 데이터 품질 표준이었던 국제 표준 ISO 8000은, 생물의약품 산업이 바로 이를 위해 채택한 프레임워크를 제공합니다. 데이터 품질 원칙과, 마스터 데이터를 위한 구조, 그리고 조직 간에 이를 깔끔하게 교환하기 위한 프레임워크입니다. ISO 8000은 하나의 시리즈를 기술하며, 그 마스터 데이터 부분인 ISO 8000-100 시리즈(ISO 8000-110:2021 포함)가 조직 간 마스터 데이터 교환을 규정합니다 [9][10]. 이 조직 간 도달 범위가 중요한 이유는, 생물의약품 제품이 협력사들의 망 — 원료의약품은 여기서, 충전·마감은 저기서, 시험은 또 다른 곳에서 — 에 의해 만들어지며, 각 자재와 방법이 무엇인지에 먼저 합의하지 않으면 그들의 데이터를 결합할 수 없기 때문입니다.

거버넌스된 마스터 레코드의 해부도

지금까지 MDM은 하나의 개념이었습니다. 이것이 그것을 데이터의 한 행으로 본 모습입니다. 아래는 거버넌스된 단일 마스터 레코드 — gov.material_master 테이블의 한 행 — 의 해부도이며, 앞서 세 가지 이름을 가졌던 바로 그 "Glucose"에 대한 것입니다. 그 criticality_level이 High로 읽히는 데 주목하세요. 편의용 대시보드 필드와 달리, 제품에 물리적으로 들어가는 원자재는 역가와 환자 안전을 좌우하기 때문입니다. 나머지는 신분증으로 읽으세요. 레코드를 명명하는 인디고색 헤더, MES·LIMS·ERP 이름을 이 하나의 개체로 매핑하는 system_aliases를 담은 녹색 핵심 블록, 그리고 로트나 배치가 이 레코드로 되짚어 해소될 수 있게 하는 유형이 지정된 관계들의 보라색 패널.

거버넌스된 마스터 레코드 MAT-00042의 신분증 해부도: 레코드 id가 담긴 인디고색 헤더; entity_name Glucose, criticality_level High, unit_of_measure kg, storage_condition, supplier_id 행; MES 이름 Glucose, LIMS 이름 Dextrose, ERP 이름 GLC-001을 하나의 개체로 매핑하는 system_aliases를 나열한 녹색 핵심 블록; data_owner, data_steward, created_by와 modified_ts의 거버넌스 행; 그리고 audit_log_link, 배치 모델, s88.genealogy, 태그 사전과의 관계를 담은 보라색 패널. 거버넌스의 한가운데에 있는 데이터 포인트: 하나의 거버넌스된 마스터 레코드, 그것이 조정하는 세 개의 시스템 로컬 별칭, 그 소유자와 스튜어드, ALCOA 계보, 그리고 그것을 단일 진실 출처로 만드는 유형이 지정된 링크들. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

이 레코드가 이 장 전체를 어떻게 그 안에 담고 있는지 주목하세요. criticality_level 필드는 위험에 비례하는 차원이고, data_owner와 data_steward는 세 가지 역할 중 둘이며, created_by와 modified_ts는 ALCOA 계보이고, system_aliases는 바로 마스터 데이터 조정이며, audit_log_link는 Part 11로의 무결성 고리입니다. 오픈소스 구현에서, 이 레코드가 거버넌스하는 개체들은 구체적인 행이 됩니다. 배치와 그 계보는 배치 및 장비 모델에 s88.batch와 s88.genealogy로 존재하고, 명명 거버넌스 측면 — 각 별칭을 하나의 정규 이름에 매핑된 상태로 유지하는 것 — 은 통합 네임스페이스와 명명 계층의 gov.tag_dictionary이며, 자재 마스터 행 자체는 그 테이블들이 전제하는 참조 데이터 개념입니다. 여기의 도해는 개념이고, 그 테이블들은 코드입니다.

제약된 트리플로서의 마스터 레코드

그 "연결된 사실들의 그래프"는 단지 비유가 아닙니다. 그것은 문자 그대로 다음 장입니다. 일단 거버넌스된 각 레코드가 노드가 되고 각 system_alias가 간선이 되면, 마스터 레코드는 RDF(Resource Description Framework — 데이터를 주어-술어-목적어 트리플(triple)로 표현하는 표준 모델)로 쓸 수 있고, 그것을 신뢰할 수 있게 만드는 거버넌스 규칙은 기계가 점검할 수 있는 제약으로 쓸 수 있습니다. 정규 정체성과 그 시스템 별칭들은 Turtle(RDF의 텍스트 구문)에서 몇 개의 트리플이 됩니다. 여기서 gov:는 우리의 거버넌스 네임스페이스이고, a는 "~이다"로 읽힙니다:

# 세 개의 시스템 별칭을 조정하는 정규 정체성: 거버넌스된 자재 마스터 하나를 RDF로
gov:MAT-00042 a gov:MaterialMaster ;
    gov:entityName     "Glucose" ;
    gov:criticality    "High" ;
    gov:systemAlias     "Glucose" , "Dextrose" , "GLC-001" ;  # MES, LIMS, ERP names
    gov:dataOwner       gov:role-MaterialsOwner ;
    gov:wasGeneratedBy  gov:reconciliation-2026-03 .          # PROV-O provenance of the merge

그러면 고유성 차원 — "각 실세계 대상이 정확히 한 번만 표현된다" — 은 더 이상 바람이 아니라 점검 가능한 규칙이 됩니다. SHACL(형상 제약 언어, 그래프 데이터가 요구된 구조를 갖췄는지 검증하는 W3C 표준)에서, 하나의 형상이 마스터 레코드가 정규 이름을 정확히 하나, 소유자를 최소 하나 지녀야 한다는 제약을 강제하며, 그렇지 않은 레코드는 적재를 거부합니다. 이는 온톨로지 책이 출하 규격을 위해 세우는 것과 같은 닫힌 세계 게이트이며, 거기서 누락된 필수 결과는 미결 질문이 아니라 지금 당장의 실패입니다 — 출하 게이트와 SHACL을 보십시오. 그리고 이 시스템 간 조정은 자연스러운 역량 질문(competency question) — 데이터가 답할 수 있어야 하는 질문이자 실행 가능한 ORSD에서의 규격 단위 — 을 던집니다. "어떤 시스템 별칭들이 하나의 정규 자재로 해소되며, 누가 그것을 소유하는가?" — 이는 하나의 SPARQL(RDF를 위한 질의 언어) 질의로 답할 수 있습니다. 바로 그 별칭들이 먼저 단일 노드로 거버넌스되었기 때문입니다. 이 레코드에서 두 갈래의 시맨틱 흐름이 곧장 나옵니다. 그 wasGeneratedBy 간선은 PROV-O 출처(누가 또는 무엇이 레코드를 만들었는지에 대한 W3C 온톨로지)로, created_by/modified_ts ALCOA 계보의 형식화된 판본이며 — 관계와 계보의 주제입니다. 그리고 레코드가 명명하는 것의 종류가 중요합니다. 자재는 continuant(시간을 통해 지속하며 quality를 지니는 개체)인 반면, 그것을 만들어낸 조정은 occurrent(일어났다 끝나는 프로세스)입니다 — 클래스와 분류 체계의 상위 온톨로지 구분으로, 자재 마스터가 그것을 빚어낸 사건과 결코 혼동되지 않게 합니다. 오늘 거버넌스된 메타데이터가 내일 이 모든 것을 표현 가능하게 만들며, 의미적 상호운용성 장이 바로 이 이어받기를 받아 갑니다.

종합하기: 다중 시스템 공장에서의 거버넌스

마스터 레코드는 한 번 만들어지고 고정되는 것이 아니라, 거버넌스된 생애주기(lifecycle)를 삽니다. 아래의 다섯 단계는 우리의 Glucose 레코드에 대한 그 루프를 따라갑니다. 소유자와 스튜어드가 그것을 정의(define)하고, 각 공장 시스템이 자신의 로컬 별칭을 포착(capture)하며, 스튜어드가 필드를 관리(steward)하고 결함을 바로잡고, MDM이 별칭을 하나의 권위 있는 레코드로 조정(reconcile)하며, 그 결과가 모든 시스템에 게시(publish)됩니다. 결정적으로, 게시된 각 버전은 발효일(effective date)에 고정(pin)되고 덮어쓰이는 대신 대체(supersede)됩니다. 그래서 지난 3월의 배치 기록은 오늘이 아니라 지난 3월에 유효했던 마스터 정의로 여전히 해소됩니다.

다섯 단계 루프로 표현된 마스터 데이터 거버넌스 생애주기: 소유자가 규칙을 정하고 스튜어드가 개체를 명명하는 정의(Define); 시스템들이 로컬 별칭을 기록하는 포착(Capture); 스튜어드가 필드를 큐레이션하고 품질 결함을 바로잡는 관리(Steward); 별칭을 하나의 권위 있는 레코드로 매핑하는 조정(Reconcile); 그리고 버전과 발효일에 고정되어 모든 시스템으로 전파되는 게시(Publish). 점선 반환 경로는 변경 요청이 주기를 다시 여는 것을 보여주며, 모든 버전이 발효일을 갖고 덮어쓰이는 대신 대체됩니다. 마스터 레코드의 거버넌스된 생애주기: 정의, 포착, 관리, 조정, 게시 — 모든 버전이 발효일을 갖고 덮어쓰이는 대신 대체됩니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

일상적으로 그 생애주기는 되풀이되는 하나의 결정으로 귀결됩니다. 새 레코드가 들어올 때, 그것이 이미 승인된 마스터 레코드와 일치하는가? 아래 그림이 그 루프를 따라갑니다. 일치하면 시스템이 자동으로 승인하고 전파합니다. 일치하지 않으면 — 커스터디언이 아니라 — 데이터 소유자가 그것을 새로운 거버넌스 개체로 추가할지 거부할지를 결정하며, 어느 쪽이든 그 결과는 타임스탬프가 찍혀 MES, LIMS, ERP로 동기화되거나, 사유가 로깅된 채 거부됩니다. 소유자·스튜어드·커스터디언 역할 칩은 어떤 판단을 누가 내릴 수 있는지를 보여줍니다.

마스터 데이터 거버넌스 결정 흐름: 새 레코드가 들어와 승인된 마스터 레코드들과 대조되고, 일치하면 시스템이 승인하고 전파하며, 일치하지 않으면 데이터 소유자가 그것을 새 개체로 추가할지 거부할지를 결정하고, 승인된 레코드는 갱신·타임스탬프되어 MES, LIMS, ERP로 동기화되며, 거부된 레코드는 사유와 함께 로깅되고, 소유자·스튜어드·커스터디언 역할 칩이 각 단계를 누가 결정하는지 표시합니다. 일상의 거버넌스 결정: 들어오는 레코드를 승인된 마스터와 대조한 뒤, 승인하고 전파하거나 소유자가 추가하거나 거부하도록 두며 — MES, LIMS, ERP로 동기화되거나 로깅됩니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

이것이 거버넌스가 연결의 후속편이 아니라 전제 조건인 이유입니다. Part 11과 Annex 11의 기술적 통제는 레코드가 일단 존재한 뒤에 그것을 보호하지만, 위의 생애주기와 결정 흐름은 그 레코드가 무엇인지를 결정하고 모든 시스템이 같은 버전을 가리키도록 유지합니다. 이를 건너뛰면, 가장 신중하게 검증된 감사 추적이라도 아무도 합의하지 않은 정의에 대한 변경을 기록할 뿐입니다.

조직 간 과제: 아무도 소유하지 않는 마스터 데이터

한 회사 안에서 MDM은 풀린 분야입니다. 소유자를 정하고, 마스터 테이블을 구축하고, 게시하면 됩니다. 완제품과 일련번호가 부여된 품목에 대해서는, 산업계에 이미 조직 간 식별자가 존재하기까지 합니다. 미국의 의약품 공급망 보안법(Drug Supply Chain Security Act, DSCSA)과 EU의 위조의약품 지침(Falsified Medicines Directive)이 의무화한 GS1의 GTIN, GLN, SSCC가 그것이며, 덕분에 판매 단위의 추적성은 대체로 풀린 셈입니다 [12]. 여전히 풀리지 않은 것은 공정에 대한 마스터 데이터입니다. 원자재 등급, 분석 방법, 그리고 특히 각 파트너 고유의 중요도 순위 — GS1이 다루지 않는 것들입니다. 그 진정으로 풀리지 않은 문제는 회사 경계에서 나타납니다. 생물의약품 제품은 한 조직이 만드는 경우가 드뭅니다. 위탁 개발·제조 기관(CDMO)이 원료의약품을 만들고, 충전·마감 파트너가 바이알에 담고, 위탁 시험소가 출하 판정을 하고, 유통업체가 배송합니다. 이 파트너들 각각은 자신만의 자재 마스터, 자신만의 식별자, 그리고 — 더 나쁘게는 — 자신만의 중요도 순위를 운영합니다. 법인을 넘어 단일 정의를 명령할 권한을 가진 공유 소유자가 없으므로, MDM이 공장 안에서 자동화하는 조정이 공장 사이에서는 수작업 스프레드시트 대조로 되돌아갑니다. 오늘날 "당신의 RAW-MAT-2847이 우리의 MAT-00042와 같습니까?"를 공급망 전반에서 조화시키는 일은 여전히 대체로 사람의, 이메일과 스프레드시트의 작업이며, 그 취약성이 바로 로트 추적성 공백과 공급업체 데이터 불일치가 발생하는 지점입니다 [11].

이 빈틈을 메우려는 세 가지 흐름이 있으나, 어느 것도 완성되지 않았습니다:

조직 간 표준. ISO 8000-110:2021은 구문, 의미 인코딩, 데이터 명세에의 적합성(conformance)에 대한 명시적이고 기계가 점검할 수 있는 요구사항과 함께 마스터 데이터를 교환하는 방법을 규정합니다. 바로 두 조직이 사람을 거치지 않고 자재가 무엇인지에 합의할 수 있게 하기 위함입니다 [10]. (데이터 출처(provenance)는 별도의 부분인 ISO 8000-120의 주제입니다.) 이는 합의의 형식을 정의하지만, 파트너들에게 그것을 채택하라고 강제할 수는 없습니다.
공유된 중립 인프라. 산업 컨소시엄은 탈중앙화된 블록체인형 원장을 시범 운영하여, 공급망 파트너들이 어느 한쪽이 데이터베이스를 소유하지 않고도 제품이나 자재에 대한 공유된 정체성을 참조할 수 있게 했습니다. EU의 PharmaLedger 프로젝트(2020–2022) — IMI/Horizon 2020 사업 — 가 가장 잘 알려져 있으며, 이후 회원 기금으로 운영되는 PharmaLedger Association으로 분리되었으나, 운영급 조직 간 인프라로서의 채택은 아직 초기 단계입니다(저자들의 평가).
의미 계층. 공유된 식별자조차 공유된 의미를 보장하지는 않으며, 그래서 이 문제는 의미적 상호운용성에 관한 다음 장으로 곧장 넘겨집니다.

솔직한 현황은 이렇습니다. 네 벽 안에서는 거버넌스가 작동하지만, 공급망 전반에서 아무도 소유하지 않는 마스터 데이터는 이 분야의 진짜 미해결 문제 중 하나입니다.

왜 중요한가

데이터 관리에서 거버넌스는 데이터를 가지는 것과 그것을 사용할 수 있는 것 사이의 차이입니다. 이전 세 장의 기술적 통제 — 검증된 시스템, 감사 추적, 접근 제한 — 는 필수적이지만, 규칙과 정의를 결정하는 인적 계층 없이는 무력합니다. 세 가지 역할은 책임을 배정하고, 여섯 가지 품질 차원은 "좋다"를 측정 가능하게 만들며, 메타데이터는 숫자를 해석 가능하게 하고, 마스터 데이터는 "같은 것"을 모든 시스템에서 실제로 같게 만듭니다. 거버넌스를 건너뛰면 이 분야에서 최악의 결과를 얻게 됩니다. 즉, 신뢰할 수 없고 연결할 수 없는 데이터를 효율적으로 옮기는, 빠르고 잘 검증된 파이프라인입니다. 이후의 모든 야망 — 분석, 디지털 트윈, 문서가 아닌 데이터에 의한 규제 제출 — 은 이 토대 위에 놓여 있습니다.

거버넌스는 모델이 딛고 서는 기반이다

그 의존성이 가장 강하게 작용하는 곳은 머신러닝입니다. 여기서 가장 값비싼 실패는 곧장 거버넌스되지 않은 데이터로 거슬러 올라갑니다. 모델은 그것이 학습한 라벨과 계보만큼만 신뢰할 수 있으며, 세 가지 거버넌스 공백이 각각 구체적이고 잘 알려진 모델링 재앙을 낳습니다. 첫째, 거버넌스된 배치 정체성(batch identity) — 바로 마스터 데이터가 확보하는 것 — 이 없으면, 모델은 바이오공정 검증이 요구하는 배치 그룹화 분할(batch-grouped split)을 지킬 수 없습니다. 한 배치의 행들은 학습 쪽이나 시험 쪽에 온전히 떨어져야 하며 결코 양쪽 모두여서는 안 됩니다. 그렇지 않으면 거의 중복인 배치 내 이웃들이 누수(leak)되어(학습 집합과 시험 집합이 정보를 공유하여) 보고된 점수를 부풀리고, 그 점수는 다음 실제 배치에서 무너집니다. 같은 거버넌스된 정체성이, 행을 섞는 대신 교차검증이 배치로 그룹화 — GroupKFold 또는 배치 하나 빼기(leave-one-batch-out) — 하게 해 주며, 모델과 검증 장이 바로 그 실패를 보여줍니다. 둘째, 마스터 레코드의 거버넌스된 운전 범위(operating range) — 값이 유효한 검증된 창 — 는 모델의 적용 범위(applicability domain) 점검이 추론 시점에 읽는 것입니다. 거버넌스된 레코드는 모델이 학습한 영역 밖에 놓인 스펙트럼이나 설정을, 그 숫자가 신뢰되기 전에 표시할 수 있는 반면, 거버넌스되지 않은 레코드는 그러지 못합니다. 셋째, 공정 드리프트(process drift)(살아 있는 공정이 진짜로 움직이는 것 — 새로운 세포주 계대, 배지 로트 변경)는, 비교할 거버넌스되고 버전 고정된 마스터 데이터 없이는 보이지 않습니다. 위의 발효일 고정이야말로 드리프트 모니터가 "공정이 변했다"를 "마스터 정의가 내 밑에서 변했다"와 구별하게 해 주는 것입니다. 그리고 모델 자체가 거버넌스된 개체가 됩니다. MLOps와 라이프사이클의 계보 간선 — 어느 고정된 데이터셋으로 학습되었고, 어느 계획 아래 검증되었으며, 어느 버전을 대체하는지 — 은 이 장이 자재에 적용하는 것과 같은 소유자/스튜어드/버전 고정 규율을, 이제 모델에 적용한 것입니다. 데이터를 거버넌스하면 모델을 거버넌스할 수 있고, 그것을 건너뛰면 모델은 아무도 합의하지 않은 데이터에 대한 자신만만한 추측이 됩니다.

이것이 또한 거버넌스와 검증이 별개의 잡무가 아니라 하나의 통제의 두 절반인 이유입니다. 이전 장의 CSV(컴퓨터 시스템 검증 — 철저하고 모든 것을 문서화하는 증명)에서 CSA(컴퓨터 소프트웨어 보증 — 위험 기반의 비판적 사고, CSV에서 CSA로)로의 이동은, 위의 중요도 등급 매기기가 데이터에 적용하는 것과 같은 위험 비례 논리입니다. 중요한 레코드는 중요한 기능이 IQ/OQ/PQ(설치·운전·성능 적격성 평가 — 시스템이 규격대로 설치·운전·성능을 발휘함을 증명하는 단계들) 하에서 받는 무거운 처리를 받는 반면, 사소한 것은 가벼운 점검을 받습니다. 거버넌스는 그 통제들이 필요로 하는 입력을 공급합니다. ALCOA+ 속성(신뢰할 수 있는 기록의 표식에 대한 규제 기관의 표현 — 귀속 가능, 가독, 동시 기록, 원본, 정확에 더해 완전, 일관, 영속, 가용)은 data_owner, created_by, modified_ts 필드가 모든 거버넌스된 레코드에 대해 참으로 만드는 것이고, Part 11 / Annex 11 전자 기록 통제(미국의 21 CFR Part 11, EU GMP Annex 11)는 audit_log_link가 닿아 들어가는 것입니다. 검증은 시스템이 신뢰할 수 있음을 증명하고, 거버넌스는 레코드가 무엇을 의미하는지와 누가 그것을 소유하는지를 결정합니다 — 그리고 모델이든, 출하든, 제출이든 둘 다를 필요로 합니다.

실제 현장에서는

규제 기관들은 거버넌스를 부수적인 것이 아니라 최일선의 기대사항으로 만들었습니다. FDA의 데이터 무결성 지침은 cGMP 준수를, 검토된 감사 추적과 함께 데이터가 완전하고 일관되며 정확한 것에 결부시킵니다 [6]. MHRA는 데이터 중요도 및 위험(data criticality and risk)에 맞게 규모가 조정된, 문서화된 데이터 거버넌스 시스템을 요구합니다 [7]. 그리고 WHO는 궁극적 책임을 상위 경영진(senior management)에게 둡니다 [8]. 표준 측면에서, ISO 8000은 마스터 데이터 작업에 국제적으로 합의된 기반을 제공하고 [9], FAIR는 과학 데이터를 재사용을 향해 거버넌스하기 위한 공유 어휘가 되었습니다 [4]. 흔한 실패 사례는 그러한 거버넌스가 없을 때 어떤 일이 벌어지는지를 보여줍니다. 실험실이 새로운 원자재 변형을 도입하지만 MES는 결코 갱신되지 않아, 스튜어드가 조용히 두 개의 스프레드시트를 손으로 대조합니다. 소유자에게는 MES 변경을 명령할 명확한 권한이 없고, 배치 기록이 더 이상 실제 로트 번호로 추적될 수 없다는 사실을 누군가 알아차리기까지 몇 달이 지나갑니다. 해법은 더 많은 소프트웨어가 아니라, 더 명확한 책임 소재입니다. 물리적 제조 세계는 이와 동일한 추적성 상실을 품질 사건(quality event)이라 부르며, 제조 책의 품질, 규제, 데이터 중추가 존재하는 것은 바로 이를 방지하기 위함입니다. 거버넌스는 그것의 데이터 측 대응물입니다.

이것이 바로 실험실 기기 데이터를 위한 SiLA 2와 Allotrope Framework, 그리고 공장 현장의 OPC UA와 같은 표준이 다루는 영역입니다. 즉, 기기와 협력 조직이 실시간으로 데이터를 공유하려면, 먼저 소유자, 정의, 마스터 레코드에 합의해야 합니다. 거버넌스가 먼저이고, 연결은 그 다음입니다. "데이터를 연결하는 것"의 가장 어려운 부분은, 단 한 바이트가 옮겨지기 전에 이루어져야 하는 인간 사이의 합의로 밝혀집니다.

핵심 용어

데이터 거버넌스(data governance) — 데이터에 대한 의사결정권과 책임의 체계: 누가 어떤 데이터로 어떤 규칙 아래 무엇을 할 수 있는지.
데이터 소유자(data owner) — 특정 데이터 영역과 그 규칙에 대해 책임을 지는(accountable) 현업 담당자.
데이터 스튜어드(data steward) — 의미를 정의하고 일상적으로 품질을 바로잡는 일을 담당하는(responsible) 주제 전문가.
데이터 커스터디언(data custodian) — 저장소, 백업, 접근을 운영하는 기술적 관리자(일반적으로 IT).
데이터 품질 차원(data quality dimension) — 정확성이나 완전성과 같이, 데이터의 별개이며 점검 가능한 속성.
데이터 무결성(data integrity) — 수명주기 전반에 걸쳐 완전하고, 일관되며, 정확한 데이터.
데이터 중요도(data criticality) — 데이터 오류가 환자나 제품을 얼마나 위협하는지. 품질 노력을 집중하는 데 사용됨.
메타데이터(metadata) — 데이터에 관한 데이터. 원시 값을 해석 가능하고 신뢰할 수 있게 만드는 맥락.
FAIR — 검색 가능, 접근 가능, 상호운용 가능, 재사용 가능(Findable, Accessible, Interoperable, Reusable). 풍부하고 기계가 처리할 수 있는 메타데이터를 중심에 둔 원칙.
마스터 데이터(master data) — 핵심 개체(자재, 장비, 제품, 방법)를 기술하는 지속적 참조 데이터.
마스터 데이터 관리(Master Data Management, MDM) — 각 개체에 대한 단일한 거버넌스된 정의를 유지하고 이를 어디서나 전파하는 것.
ISO 8000 — 조직 간 교환을 포함한, 데이터 품질과 마스터 데이터를 위한 국제 표준.
시스템 별칭(system alias) — 개체에 대한 시스템 로컬 이름(예: 하나의 자재에 대한 MES·LIMS·ERP 이름)으로, 마스터 레코드가 이를 단일한 정규 정체성으로 조정함.
발효일/버전 고정(effective date / version pinning) — 어느 시점에 마스터 정의의 어느 버전이 유효했는지를 기록하여, 과거 기록이 최신 정의가 아니라 그 당시 적용되던 정의로 해소되게 하는 것.
조직 간 마스터 데이터(cross-organizational master data) — 각자 자신의 식별자를 유지하는 공급망 파트너들 전반에 걸친 자재·방법·제품의 공유 정의. 오늘날 가장 어렵고 여전히 미해결인 거버넌스 문제.
설정값(SP) 대 공정값(PV)(setpoint vs. process value) — 제어 루프가 겨냥한 값 대 보정된 프로브가 실제로 측정한 값. 거버넌스된 레코드는 둘 다를 지니는데, 증거가 측정된 PV 추적선에 있기 때문이다.
품질 플래그(quality flag) — 측정 시스템이 값에 붙이는 데이터 품질 판정(Good, Uncertain, 또는 Bad)으로, 값이 결코 홀로 읽히지 않게 한다.
RDF 트리플(RDF triple) — 주어-술어-목적어 사실. 거버넌스된 레코드를 질의가 순회할 수 있는 노드-간선 그래프로 표현하는 표준 방법.
SHACL 형상(SHACL shape) — 그래프 데이터(마스터 레코드 등)가 요구된 구조를 충족하는지를 적재 전에 닫힌 세계로 점검하는 기계 검증 가능한 제약.
역량 질문(competency question) — 거버넌스된 데이터가 답할 수 있어야 하는 질문("어떤 별칭들이 하나의 정규 자재로 해소되는가?" 등)으로, 데이터 모델이 지원해야 할 것을 규격화하는 데 사용된다.
PROV-O 출처(PROV-O provenance) — 누가 또는 무엇이 레코드를 만들었는지 기록하는 W3C 온톨로지. 마스터 레코드의 created-by 및 modified-timestamp 계보의 형식화된 판본.
배치 그룹화 분할(batch-grouped split) — 모델 평가에서 한 배치의 모든 행을 학습 쪽이나 시험 쪽에 온전히 두어, 거의 중복인 배치 내 행이 누수되어 점수를 부풀리지 않게 하는 것. 거버넌스된 배치 정체성에 의존한다.
적용 범위(applicability domain) — 모델이 유효한 검증된 영역. 거버넌스된 운전 범위는 모델이 그 밖에 놓인 입력을, 예측이 신뢰되기 전에 표시하게 해 준다.
공정 드리프트 대 데이터 드리프트(process drift vs. data drift) — 살아 있는 공정이 진짜로 변하는 것(새 계대나 배지 로트) 대 마스터 정의가 변하는 것. 버전 고정된 마스터 데이터가 드리프트 모니터로 하여금 둘을 구별하게 해 준다.

이 다음은

이제 우리는 데이터를 거버넌스했습니다. 데이터에는 소유자가 있고, 측정 가능한 품질이 있으며, 풍부한 메타데이터가 있고, 각각이 무엇인지에 합의하는 마스터 레코드가 있습니다. 이것으로 연결 문제가 끝나리라 기대할 수도 있겠지만, 사실 이는 시작일 뿐입니다. 두 시스템이 흠 없는 구문적 상호운용성(syntactic interoperability)(바이트가 파싱되고, 필드가 정렬됨)으로 데이터를 교환하더라도, 같은 실세계 대상이 서로 다른 곳에서 서로 다르게 — 다른 단위, 다른 식별자, 다른 타임스탬프, 다른 어휘로 — 기술되기 때문에 숫자들은 여전히 연결되지 않을 수 있습니다. 다음 장 왜 숫자들은 연결되지 않는가: 의미적 상호운용성 문제(Why Numbers Don't Connect: The Semantic Interoperability Problem)는 이 이질성을 정면으로 명명하고, 그것이 왜 결국 이 분야를 온톨로지와 FAIR로 향하게 하는지를 보여줍니다.

이 장에서 다루는 내용​

역할과 품질: 데이터를 누가 소유하며 얼마나 좋은가​

데이터 거버넌스: 규칙과 그것을 소유한 사람들​

세 가지 역할: 소유자, 스튜어드, 커스터디언 (그리고 이를 혼동하면 왜 실패하는가)​

데이터 품질의 여섯 가지 차원​

중요도 기반 데이터 품질: 위험에 비례하는 노력​

하류 예시: 정제 레코드 거버넌스​

의미와 정체성: 메타데이터와 마스터 데이터​

메타데이터: 데이터에 의미를 부여하는 맥락​

원시 값과 의미를 잇는 연결 고리로서의 메타데이터​

마스터 데이터 관리: "같은 것"에 대한 하나의 정의​

거버넌스된 마스터 레코드의 해부도​

제약된 트리플로서의 마스터 레코드​

종합하기: 다중 시스템 공장에서의 거버넌스​

조직 간 과제: 아무도 소유하지 않는 마스터 데이터​

왜 중요한가​

거버넌스는 모델이 딛고 서는 기반이다​

실제 현장에서는​

핵심 용어​

이 다음은​