데이터 거버넌스, 데이터 품질, 마스터 데이터
📍 현재 위치: 이전 장에서는 단일 컴퓨터 시스템이 목적에 적합함을 증명했고, 이번 장에서는 모든 시스템을 신뢰할 수 있게 유지하는 조직적 중추를 세웁니다. 즉, 이 파트의 앞부분에서 다룬 무결성 및 검증 통제가 실제로 자리 잡게 만드는 정책, 역할, 정의를 다룹니다.
이전 장에서 우리는 하나의 시스템을 신뢰하는 방법을 배웠습니다. **컴퓨터 시스템 검증(Computerized System Validation, CSV)**은 특정 소프트웨어가 그 역할에 적합함을 증명하고, GAMP 5 프레임워크 — 소프트웨어 범주와 각 요구사항을 그에 대응하는 테스트와 짝짓는 **V-모델(V-model)**을 중심으로 구성된, 제약 산업의 위험 기반 지침서 — 는 어느 정도의 증거가 충분한지를 알려주며, 새롭게 떠오르는 접근법인 컴퓨터 소프트웨어 보증(Computer Software Assurance, CSA) — 2025년에 발표된 FDA 지침으로 공식화됨 — 은 산더미 같은 문서 작업에서 실제 위험에 대한 비판적 사고로 강조점을 옮깁니다. 그러나 시스템을 하나씩 검증하는 것만으로는 빈틈이 남습니다. 공장은 개별적으로 검증된 수십 개의 시스템 — 지멘스 Opcenter나 Körber PAS-X와 같은 제조 실행 시스템(manufacturing execution system, MES), 실험실 시스템, 전사적 자원 관리(enterprise resource planning, ERP) 시스템 — 을 운영하면서도, 서로 모순되고 추적할 수 없으며 연결할 수 없는 데이터에 빠져 허우적댈 수 있습니다. 그 시스템들 전반에 걸친 데이터를 규율하는 규칙에 아무도 합의하지 않았기 때문입니다. 이 빈틈을 메우는 것이 바로 **데이터 거버넌스(data governance)**의 역할입니다.
큰 도서관을 떠올려 보세요. 좋은 책꽂이와 작동하는 대출 스캐너(기술 시스템)를 갖추는 것만으로는 충분하지 않습니다. 누군가는 누가 책을 추가할 수 있는지, 모든 책에 어떻게 라벨을 붙이고 어디에 꽂는지, 같은 책의 세 가지 판본이 들어왔을 때 무엇을 "같은" 책으로 볼지, 잘못 분류된 도서를 누가 바로잡을지를 결정해야 합니다. 그런 규칙과 그런 사람들이 없으면, 건물은 아무도 찾을 수 없는 책들로 가득 차게 됩니다. 데이터 거버넌스는 공장 전체 데이터를 위한 사서의 규칙집입니다.
이 장에서 다루는 내용
먼저 데이터 거버넌스와 그 세 가지 관리 역할을 정의하고, 데이터가 쓸 만한지 알려주는 **데이터 품질의 차원(dimensions of data quality)**을 살펴본 다음, 원시 숫자에 의미를 부여하는 **메타데이터(metadata)**를 다루고, 마지막으로 식별자 혼란을 막아주는 자재, 장비, 제품에 대한 공유 정의인 **마스터 데이터 관리(master data management)**를 살펴봅니다. 이 모든 것을 하나로 묶는 핵심은 이것입니다. 먼저 거버넌스하지 않은 데이터는 연결할 수 없다는 것입니다.
데이터 거버넌스: 규칙과 그것을 소유한 사람들
**데이터 거버넌스(data governance)**는 데이터 관리에 대한 권한과 통제를 행사하는 것입니다. 즉, 누가 어떤 데이터로 어떤 규칙 아래 무엇을 할 수 있는지를 정하는 의사결정권과 책임의 체계입니다 [1]. 이는 소프트웨어가 아니라, 소프트웨어 위에 있는 조직적 계층입니다. 이 주제에 관한 연구는 거버넌스를 의사결정 영역들의 집합으로 규정합니다. 원칙(principles), 품질(quality), 메타데이터(metadata), 접근(access), 수명주기(lifecycle) — 각각은 "누가 결정하는가?"에 대한 명확한 답, 즉 명시된 *책임 소재(locus of accountability)*와 짝을 이룹니다 [3].
규제 대상 바이오 제조에서 거버넌스는 선택적인 정리정돈이 아닙니다. 세계보건기구(WHO)는 **상위 경영진(senior management)**이, 회사의 품질 시스템에 내재되어 무결성 원칙을 전체 데이터 수명주기에 걸쳐 적용하는 효과적인 데이터 거버넌스 시스템에 대한 책임이 있음을 명확히 합니다 [8]. ISPE의 제약 엔지니어링 지침(GAMP 기록 및 데이터 무결성 프레임워크) 역시 데이터 거버넌스 프레임워크를 데이터 무결성 통제가 자리 잡는 우산으로 비슷하게 규정합니다 [5]. 다시 말해, 거버넌스는 "데이터는 무결성을 가져야 한다"는 추상적 요구와, 그것을 실현하는 구체적 통제 — 감사 추적(audit trail), 접근 제한, 검증 — 사이를 잇는 연결 조직입니다.
세 가지 역할이 업무를 나누어 맡으며, 이들을 혼동하는 것은 전형적인 실패 양상입니다 [1]:
- **데이터 소유자(data owner)**는 책임을 지는(accountable) 사람입니다. 특정 데이터 영역(예: "모든 배치 기록")에 대해 답을 책임지고 그에 대한 규칙을 정하는 현업 담당자입니다.
- **데이터 스튜어드(data steward)**는 실무를 담당하는(responsible) 사람입니다. 데이터를 일상적으로 관리하고, 각 필드의 의미를 정의하며, 품질 문제를 해결하는 주제 전문가(subject-matter expert)입니다.
- **데이터 커스터디언(data custodian)**은 기술적 관리자(technical caretaker) — 일반적으로 IT — 로서, 저장소, 백업, 접근 통제를 운영하지만 데이터의 비즈니스적 의미를 결정하지는 않습니다.
거버넌스는 경영진의 권한 부여에서 시작해, 정책을 거쳐, 세 가지 뚜렷한 역할 — 책임, 스튜어드십, 기술적 관리 — 로 흐르며, 이들이 함께 신뢰할 수 있는 데이터를 만들어냅니다. 저자 작성 그림.
유용한 약식 표현: 소유자는 책임을 지고(그 이름이 거기에 걸려 있고), 스튜어드는 실무를 담당하며(직접 일을 하고), 커스터디언은 열쇠를 관리합니다(인프라를 운영합니다). 작은 실험실에서는 한 사람이 두 가지 역할을 겸할 수 있지만, 세 가지 임무는 각각 반드시 맡을 곳이 있어야 합니다.
마스터 데이터 거버넌스 생애주기는 흩어진 기록을 하나의 신뢰된 출처로 만듭니다.
저자 원본 도해(AI 보조로 제작).
데이터 품질의 차원
"좋은 데이터"는 관리하기에는 너무 막연합니다. 이 분야는 품질을 측정 가능한 **차원(dimensions)**으로 나눕니다. 한 번에 하나씩 점검할 수 있는 별개의 속성들입니다. 데이터를 실제로 사용하는 사람들에게 데이터 품질이 무엇을 의미하는지를 다룬 기념비적 연구는 이것들을 네 가지 부류로 묶었습니다. 본질적(intrinsic)(데이터 자체가 올바른가?), 맥락적(contextual)(당면한 작업에 적합한가?), 표현적(representational)(명확하게 제시되었는가?), 접근성(accessibility)(접근할 수 있는가?) [2]. 국제 데이터 품질 표준인 ISO 8000 역시 품질을 데이터가 명시된 요구사항을 충족하는 정도로 규정합니다 [9]. 바이오프로세싱에서 가장 크게 작용하는 차원은 다음과 같습니다:
- 정확성(accuracy) — 값이 실제와 일치하는가? pH 측정값 7.2는 드리프트되고 보정되지 않은 프로브가 아니라 실제 배양액을 반영해야 합니다.
- 완전성(completeness) — 빠진 것이 있는가? 공정 중 결과가 비어 있는 배치 기록은 단지 정돈되지 않은 것에 그치지 않습니다. cGMP(current Good Manufacturing Practice, 현행 우수 제조 관리 기준) 하에서 이는 데이터 무결성 결함입니다 [6]. 미국 규정은 이를 구체적으로 명시합니다. 21 CFR 211.188은 배치 생산 및 관리 기록이 모든 공정 중 시험과 결과를 문서화하도록 요구하므로, 결과가 들어가야 할 곳의 빈 필드는 스타일의 문제가 아니라 규정 위반입니다.
- 일관성(consistency) — 같은 사실이 시스템 전반에서 일치하는가? 공정 히스토리언(AVEVA PI System, 구 OSIsoft PI 등)은 배치가 14:03에 끝났다고 하고 제조 시스템은 15:03이라고 한다면, 적어도 하나는 틀린 것입니다.
- 적시성(timeliness) — 데이터가 필요할 때 사용 가능하며, 사건이 일어났을 때 기록되는가? 무결성 지침은 이를 동시 기록(contemporaneous) — 나중에 재구성하는 것이 아니라 활동 시점에 기록되는 것 — 이라고 부릅니다 [6].
- 고유성(uniqueness) — 각 실세계 대상이 정확히 한 번만 표현되는가? 같은 자재 로트에 대한 두 개의 기록은 잘못된 구성 요소를 혼합하게 되는 화근입니다.
- 유효성(validity) — 값이 그 규칙을 따르는가? "−500 °C"의 온도나 "2026-13-40"이라는 날짜는 그 자체로 유효하지 않습니다.
이러한 차원들은 **데이터 무결성(data integrity)**의 품질 측면입니다. 규제 기관은 데이터 무결성을 수명주기 전반에 걸쳐 완전하고, 일관되며, 정확한 데이터로 정의합니다 [6]. 9장의 ALCOA+ 속성과 이러한 품질 차원은 의도적으로 겹칩니다. ALCOA+는 이를 기록이 충족해야 할 무결성 요구사항으로 규정하는 반면, 차원은 이를 점수로 매길 수 있는 측정 가능한 속성으로 규정합니다. 속성으로서의 *완전(Complete)*과 차원으로서의 *완전성(Completeness)*은 서로 다른 두 가지가 아니라, 같은 개념을 두 각도에서 본 것입니다. GxP 무결성 지침 — GxP는 "우수 x 관리 기준(Good x Practice)" 규정(제조, 시험, 임상 등)을 아우르는 포괄적 용어입니다 — 은 동일한 개념을 ALCOA 원칙을 통해 규정하며, 데이터 중요도 및 위험 평가(data criticality and risk assessment) — 잘못된 숫자가 환자나 제품을 가장 크게 위협할 곳에 품질 노력을 가장 많이 쏟는 것 — 를 강조합니다 [7].
품질 차원들은 서로 충돌할 수 있습니다. 더 많은 완전성(모든 것을 포착)을 요구하면 적시성(더 오래 걸림)을 해칠 수 있고, 사소한 모든 필드에서 완벽한 정확성을 추구하는 것은 중요한 필드에 더 잘 쓰일 노력을 낭비합니다. 좋은 거버넌스는 데이터를 **중요도(criticality)**에 따라 순위를 매기고 차원들을 비례적으로 적용합니다 [7]. 이는 이전 장의 CSA 사고방식을 그대로 반영하는 위험 기반 입장입니다. 예를 들어, 포유류 세포 배양 바이오리액터의 온도 센서 드리프트는 제품 역가(titer)와 환자 안전에 직접 영향을 미치는 반면(높은 중요도, 100% 검토를 요함), 저장실의 습도 기록(낮은 중요도)은 표본 추출 기반 점검에 의존할 수 있습니다.
메타데이터: 데이터에 의미를 부여하는 맥락
1장 **생물의약품과 그 데이터 그림자(The Biologic and Its Data Shadow)**에서, 우리는 맨숫자 — 37 — 이 그 맥락 없이는 무의미함을 보았습니다. **메타데이터(metadata)**는 "데이터에 관한 데이터"입니다. 그 숫자가 바이오리액터 BR-101에서, 14:03:22에, 운영자 J. Lee가 기록한, 섭씨 단위의 온도임을 알려주는 둘러싼 맥락입니다. 현대 시스템에서 그 동일한 측정값은 홀로 놓인 37이 아니라, 자체 맥락을 지닌 구조화된 객체로 저장됩니다:
{
"value": 37,
"unit": "°C",
"equipment_id": "BR-101",
"timestamp": "2026-06-14T14:03:22Z",
"operator": "J. Lee",
"sensor_id": "TEMP-001"
}
이러한 둘러싼 맥락이 없으면 그 숫자는 해석되거나, 감사되거나, 신뢰될 수 없습니다. 무결성 지침들은 메타데이터가 기록의 일부임을 분명히 합니다. 메타데이터가 없는 데이터는 완전한 데이터가 아닙니다 [6][7].
따라서 메타데이터를 거버넌스하는 것은 명시된 거버넌스 영역 중 하나이며 [3], 이를 잘 관리하는 것이야말로 데이터를 쓰기 전용 무덤이 아니라 **검색 가능하고 재사용 가능(findable and reusable)**하게 만드는 것입니다. 널리 채택된 FAIR 원칙 — 데이터는 **검색 가능(Findable), 접근 가능(Accessible), 상호운용 가능(Interoperable), 재사용 가능(Reusable)**해야 한다는 원칙 — 은 *풍부하고 기계가 처리할 수 있는 메타데이터(rich, machine-actionable metadata)*를 그 한가운데에 둡니다. 데이터는 사람뿐 아니라 컴퓨터가 읽을 수 있는 메타데이터를 지닐 때에만 검색 가능하고 재사용 가능합니다 [4]. 이것이 이 장 전체의 경첩입니다. 오늘 거버넌스된 메타데이터가, 내일 기계가 당신의 데이터를 다른 누군가의 데이터와 연결하게 해줍니다.
마스터 데이터 관리: "같은 것"에 대한 하나의 정의
메타데이터가 단일 값에 의미를 부여한다면, 마스터 데이터는 그 값들이 가리키는 개체에 대해 같은 일을 합니다. 그리고 여기서 그 효과는 이 장에서 가장 구체적으로 드러납니다. **마스터 데이터(master data)**는 비즈니스가 운영되는 핵심 개체 — 자재, 장비, 제품, 분석 방법, 공급업체 — 를 기술하는 공유 참조 데이터입니다. 트랜잭션 데이터(transaction data)(예: "배치 4471 시작"과 같은 사건을 기록하는 데이터)와 달리, 마스터 데이터는 지속되는 것을 기록하며 어디서나 참조됩니다.
마스터 데이터가 해결하는 문제는 **식별자 혼란(identifier chaos)**입니다. 같은 원자재가 제조 시스템에서는 "Glucose", 실험실 시스템(LabWare, Waters NuGenesis, Labguru와 같은 LIMS나 ELN)에서는 "Dextrose", 재고 시스템에서는 "GLC-001"일 수 있습니다. 사람에게는 이것이 명백히 같은 당류이지만, 소프트웨어에게는 서로 관련 없는 세 개의 문자열이며, 사용량을 합산하거나, 로트를 추적하거나, 배치를 비교하려는 모든 시도가 소리 없이 망가집니다. 같은 함정은 더 복잡한 항목도 사로잡습니다. 발효 배지가 MES에서는 "CHO growth medium", 작업대에서는 "Buffer A", ERP에서는 "RAW-MAT-2847"일 수 있습니다. 하나의 자재에 대한 세 가지 이름이며, 로트 추적성을 조정할 방법이 없습니다. **마스터 데이터 관리(Master Data Management, MDM)**는 그러한 각 개체에 대해 단일하고 권위 있으며 거버넌스된 정의를 유지하고, 이를 사용하는 모든 시스템에 일관되게 전파하는 분야입니다 [1].
마스터 데이터 관리는 하나의 자재에 대한 세 개의 시스템 로컬 이름을, 모든 시스템이 가리키는 단일한 거버넌스된 마스터 레코드로 대체합니다. 저자 작성 그림.
원래 일반 산업용 데이터 품질 표준이었던 국제 표준 ISO 8000은, 생물의약품 산업이 바로 이를 위해 채택한 프레임워크를 제공합니다. 데이터 품질 원칙과, 마스터 데이터를 위한 구조, 그리고 조직 간에 이를 깔끔하게 교환하기 위한 프레임워크입니다. ISO 8000은 하나의 시리즈를 기술하며, 그 마스터 데이터 부분인 ISO 8000-100 시리즈(ISO 8000-110:2021 포함)가 조직 간 마스터 데이터 교환을 규정합니다 [9]. 이 조직 간 도달 범위가 중요한 이유는, 생물의약품 제품이 협력사들의 망 — 원료의약품은 여기서, 충전·마감은 저기서, 시험은 또 다른 곳에서 — 에 의해 만들어지며, 각 자재와 방법이 무엇인지에 먼저 합의하지 않으면 그들의 데이터를 결합할 수 없기 때문입니다.
왜 중요한가
데이터 관리에서 거버넌스는 데이터를 가지는 것과 그것을 사용할 수 있는 것 사이의 차이입니다. 이전 세 장의 기술적 통제 — 검증된 시스템, 감사 추적, 접근 제한 — 는 필수적이지만, 규칙과 정의를 결정하는 인적 계층 없이는 무력합니다. 세 가지 역할은 책임을 배정하고, 여섯 가지 품질 차원은 "좋다"를 측정 가능하게 만들며, 메타데이터는 숫자를 해석 가능하게 하고, 마스터 데이터는 "같은 것"을 모든 시스템에서 실제로 같게 만듭니다. 거버넌스를 건너뛰면 이 분야에서 최악의 결과를 얻게 됩니다. 즉, 신뢰할 수 없고 연결할 수 없는 데이터를 효율적으로 옮기는, 빠르고 잘 검증된 파이프라인입니다. 이후의 모든 야망 — 분석, 디지털 트윈, 문서가 아닌 데이터에 의한 규제 제출 — 은 이 토대 위에 놓여 있습니다.
실제 현장에서는
규제 기관들은 거버넌스를 부수적인 것이 아니라 최일선의 기대사항으로 만들었습니다. FDA의 데이터 무결성 지침은 cGMP 준수를, 검토된 감사 추적과 함께 데이터가 완전하고 일관되며 정확한 것에 결부시킵니다 [6]. MHRA는 **데이터 중요도 및 위험(data criticality and risk)**에 맞게 규모가 조정된, 문서화된 데이터 거버넌스 시스템을 요구합니다 [7]. 그리고 WHO는 궁극적 책임을 **상위 경영진(senior management)**에게 둡니다 [8]. 표준 측면에서, ISO 8000은 마스터 데이터 작업에 국제적으로 합의된 기반을 제공하고 [9], FAIR는 과학 데이터를 재사용을 향해 거버넌스하기 위한 공유 어휘가 되었습니다 [4]. 흔한 실패 사례는 그러한 거버넌스가 없을 때 어떤 일이 벌어지는지를 보여줍니다. 실험실이 새로운 원자재 변형을 도입하지만 MES는 결코 갱신되지 않아, 스튜어드가 조용히 두 개의 스프레드시트를 손으로 대조합니다. 소유자에게는 MES 변경을 명령할 명확한 권한이 없고, 배치 기록이 더 이상 실제 로트 번호로 추적될 수 없다는 사실을 누군가 알아차리기까지 몇 달이 지나갑니다. 해법은 더 많은 소프트웨어가 아니라, 더 명확한 책임 소재입니다.
이것이 바로 미국 NIIMBL 연구소와 그 빅데이터 프로그램(Big Data Program) 및 실시간 실험실 데이터·상호운용성 노력이 다루는 영역입니다. 즉, 기기와 협력 조직이 실시간으로 데이터를 공유하려면, 먼저 소유자, 정의, 마스터 레코드에 합의해야 합니다. 거버넌스가 먼저이고, 연결은 그 다음입니다. "데이터를 연결하는 것"의 가장 어려운 부분은, 단 한 바이트가 옮겨지기 전에 이루어져야 하는 인간 사이의 합의로 밝혀집니다.
핵심 용어
- 데이터 거버넌스(data governance) — 데이터에 대한 의사결정권과 책임의 체계: 누가 어떤 데이터로 어떤 규칙 아래 무엇을 할 수 있는지.
- 데이터 소유자(data owner) — 특정 데이터 영역과 그 규칙에 대해 책임을 지는(accountable) 현업 담당자.
- 데이터 스튜어드(data steward) — 의미를 정의하고 일상적으로 품질을 바로잡는 일을 담당하는(responsible) 주제 전문가.
- 데이터 커스터디언(data custodian) — 저장소, 백업, 접근을 운영하는 기술적 관리자(일반적으로 IT).
- 데이터 품질 차원(data quality dimension) — 정확성이나 완전성과 같이, 데이터의 별개이며 점검 가능한 속성.
- 데이터 무결성(data integrity) — 수명주기 전반에 걸쳐 완전하고, 일관되며, 정확한 데이터.
- 데이터 중요도(data criticality) — 데이터 오류가 환자나 제품을 얼마나 위협하는지. 품질 노력을 집중하는 데 사용됨.
- 메타데이터(metadata) — 데이터에 관한 데이터. 원시 값을 해석 가능하고 신뢰할 수 있게 만드는 맥락.
- FAIR — 검색 가능, 접근 가능, 상호운용 가능, 재사용 가능(Findable, Accessible, Interoperable, Reusable). 풍부하고 기계가 처리할 수 있는 메타데이터를 중심에 둔 원칙.
- 마스터 데이터(master data) — 핵심 개체(자재, 장비, 제품, 방법)를 기술하는 지속적 참조 데이터.
- 마스터 데이터 관리(Master Data Management, MDM) — 각 개체에 대한 단일한 거버넌스된 정의를 유지하고 이를 어디서나 전파하는 것.
- ISO 8000 — 조직 간 교환을 포함한, 데이터 품질과 마스터 데이터를 위한 국제 표준.
이 다음은
이제 우리는 데이터를 거버넌스했습니다. 데이터에는 소유자가 있고, 측정 가능한 품질이 있으며, 풍부한 메타데이터가 있고, 각각이 무엇인지에 합의하는 마스터 레코드가 있습니다. 이것으로 연결 문제가 끝나리라 기대할 수도 있겠지만, 사실 이는 시작일 뿐입니다. 두 시스템이 흠 없는 구문적 상호운용성(syntactic interoperability)(바이트가 파싱되고, 필드가 정렬됨)으로 데이터를 교환하더라도, 같은 실세계 대상이 서로 다른 곳에서 서로 다르게 — 다른 단위, 다른 식별자, 다른 타임스탬프, 다른 어휘로 — 기술되기 때문에 숫자들은 여전히 연결되지 않을 수 있습니다. 다음 장 왜 숫자들은 연결되지 않는가: 의미적 상호운용성 문제(Why Numbers Don't Connect: The Semantic Interoperability Problem)는 이 이질성을 정면으로 명명하고, 그것이 왜 결국 이 분야를 온톨로지와 FAIR로 향하게 하는지를 보여줍니다.