데이터 무결성과 ALCOA+
📍 현재 위치: 우리는 구조와 의미를 갖춘 채로 시스템 사이에서 데이터를 옮기는 법을 배웠습니다. 이제 더 어려운 질문을 던질 차례입니다 — 데이터가 도착했을 때 그 기록을 신뢰할 수 있을까요?
이전 장 *연결성과 상호운용성 표준(Connectivity and Interoperability Standards)*에서는 바이오 의약품 제조 데이터가 기계와 협력사 사이에서 어떻게 흐르는지를 — OPC UA, MTP, SiLA 2, AnIML과 Allotrope, B2MML/ISA-95 — 보여 주었고, 바이트를 옮기는 일과 의미를 보존하는 일 사이에 뚜렷한 선을 그었습니다. 그러나 그보다 더 깊은 선이 하나 더 있습니다. 어떤 기록은 완벽하게 형식이 갖춰지고, 의미적으로 풍부하면서도, 전혀 신뢰할 수 없는 상태로 도착할 수 있습니다. 센서 측정값이 슬그머니 수정되었다면, 불합격 시험을 합격할 때까지 반복했다면, 두 명의 작업자가 하나의 로그인을 공유해서 누가 무엇을 했는지 아무도 모른다면 — 그 데이터는 잘 다듬어진 거짓말입니다. 이 장은 데이터를 단지 전송 가능하게 만드는 것이 아니라 참되게 만드는 일에 관한 것입니다.
데이터 무결성(data integrity)을 법정에서 증거의 보관 연속성(chain of custody)에 비유해 보세요. 증거가 존재하는 것만으로는 충분하지 않습니다 — 누가, 언제 그것을 다루었는지, 한 번도 조작되지 않았는지, 그리고 배심원이 보는 것이 진품인지를 입증해야 합니다. 배치 기록(batch record)은 어떤 의약품이 올바르게 만들어졌다는 증거입니다. 데이터 무결성은 그 증거를 믿을 수 있게 만드는 보관 연속성입니다.
이 장에서 다루는 내용
우리는 데이터 무결성을 정의하고, 규제 당국이 왜 그것을 제품 품질의 토대로 다루는지를 살펴봅니다. 신뢰할 수 있는 데이터의 아홉 가지 속성인 **ALCOA+**를 구체적인 바이오공정 사례와 함께 풀어 봅니다. 데이터 무결성이 무너지는 흔한 방식들, 이를 해결하기 위해 한데 모인 전 세계적 지침의 물결, 그리고 사후에 단속하기보다 설계 단계에서부터 무결성을 갖춰 넣는다는 개념을 두루 살펴봅니다.
데이터 무결성이 의미하는 바, 그리고 그것이 토대인 이유
**데이터 무결성(data integrity)**은 데이터가 생성되는 순간부터 처리와 저장을 거쳐 최종적으로 보관(archiving)되고 검색되기까지 — 그 전체 수명 동안 — 완전하고, 일관되며, 정확하게 유지되는 정도입니다 [2]. 규제 당국은 이를 사무적인 사소한 절차로 다루지 않습니다. 그들은 이를 제품 품질의 기반암으로 다루는데, 어떤 의약품이 안전하게 만들어졌다는 증거란 결국 그것을 만드는 동안 생성된 데이터이기 때문입니다. 환자는 항체를 직접 검사할 수 없습니다. 규제 당국은 1년간의 제조를 다시 돌려볼 수 없습니다. 둘 다 기록에 의존해야 합니다. 기록을 신뢰할 수 없다면, 안전성이나 유효성에 관한 어떤 주장도 신뢰할 수 없습니다 [1].
세계보건기구(World Health Organization)는 이를 분명하게 표현합니다. 데이터 무결성을 보증하려면 적절한 품질 및 리스크 관리 시스템과 우수 문서화 관행(good documentation practices)이 데이터 수명 주기 전반에 걸쳐 적용되어야 한다는 것입니다 [4]. 유럽 의약품청(European Medicines Agency)은 한 걸음 더 나아가, 데이터 무결성을 제약 품질 시스템의 근본적 요건이라고 부르며, 이것이 종이 기록과 전자 기록에 똑같이 적용되고, 고위 경영진과 조직의 품질 문화가 책임져야 할 사안이라고 말합니다 [5].
ALCOA와 ALCOA+: 신뢰할 수 있는 데이터의 해부
ALCOA라는 약어는 1990년대에 미국 FDA 내부에서 우수 실험실 관리 기준(Good Laboratory Practice, 21 CFR Part 58에 따른 비임상 안전성 시험 규정)을 담당하던 관리자 스탠 울런(Stan Woollen)이, 좋은 데이터가 어떤 모습인지에 관한 자신의 발표를 정리하기 위한 개인적 기억법으로 만들었습니다 — 원래는 데이터 품질을 돕는 수단이었으나 이후의 지침이 이를 데이터 무결성의 근간으로 채택했습니다 [8]. 이는 **귀속 가능(Attributable), 판독 가능(Legible), 동시 기록(Contemporaneous), 원본(Original), 정확(Accurate)**을 뜻합니다. 이후의 지침은 네 가지 속성을 더 추가했는데 — 완전(Complete), 일관(Consistent), 영속(Enduring), 가용(Available) — 이로써 **ALCOA+**가 됩니다 [2]. 각각을 바이오리액터에 근거해 살펴보겠습니다.
- 귀속 가능(Attributable) — 누가 무엇을 하거나 기록했는지, 그리고 언제 했는지를 알 수 있습니다. 작업자가 공급 속도(feed rate)를 조정하면, 기록은 그 사람의 이름을 밝혀야 합니다. 이것이 공유 로그인이 금지되는 이유이며, 전자 서명(electronic signature) — 요구되는 통제가 충족될 때 손으로 쓴 서명과 법적으로 동등한 것 — 이 읽을 수 있는 평이한 형태로 서명자의 정자 이름, 날짜와 시각, 그리고 서명의 의미(예: 검토(reviewed), 승인(approved), 작성(authored))를 반드시 표시해야 하는 이유입니다 [3].
- 판독 가능(Legible) — 기록은 읽을 수 있고 영구적이며, 보존 기간 내내 그 상태를 유지합니다. 지울 수 있는 연필 기재나, 10년 뒤에 아무도 열 수 없는 파일 형식은 이 시험을 통과하지 못합니다 [7].
- 동시 기록(Contemporaneous) — 기록은 작업이 일어나는 바로 그때 작성되며, 몇 시간 뒤 기억으로부터 재구성되지 않습니다. pH 측정값은 측정한 시점에 기록되어야지, 교대 종료 시점에 소급해 채워 넣어서는 안 됩니다 [2].
- 원본(Original) — 데이터는 최초로 수집된 것(또는 그것의 검증된 "진본 사본(true copy)")이지, 전사된 것이 아닙니다. 크로마토그래피 장비 자체의 원시 데이터 파일은 원본이지만, 노트에 손으로 베껴 적은 숫자는 그렇지 않습니다 [1].
- 정확(Accurate) — 데이터는 올바르고, 진실되며, 오류가 없어서 실제로 일어난 일을 반영합니다 [4].
"플러스" 속성들이 그림을 완성합니다. 완전(Complete)(불합격 실행과 반복을 포함해 아무것도 삭제되지 않음), 일관(Consistent)(동기화된 시계로 사건이 진정한 시간 순서대로 기록됨), 영속(Enduring)(접착식 메모지가 아니라 내구성 있는 매체에 기록됨), 그리고 가용(Available)(수명 내내 검토를 위해 검색 가능함)입니다 [2].
귀속 가능과 동시 기록을 하나로 묶고 — 원본에 가해지는 모든 변경을 기록함으로써 그 원본을 보호하는 — 메커니즘이 바로 **감사 추적(audit trail)**입니다 — 누가, 언제, 무엇을, 그리고 (관련이 있는 경우) 왜 했는지를 안전하게 기록하는, 컴퓨터가 생성한 타임스탬프 기록으로서, 끄거나 슬그머니 변경할 수 없도록 보호되며, 거기에 가해진 어떤 변경도 그 자체로 기록됩니다 [3]. 구체적으로, 하나의 감사 추적 항목은 변경된 필드, 그 이전 값과 새 값, 변경한 사람, 정확한 타임스탬프, 그리고 사유를 기록합니다 — 예를 들면 태그 BR101.Temp.SP가 j.okoye에 의해 2026-06-13 14:07:22 UTC에 37.0 °C에서 36.5 °C로 변경됨; 사유: 일탈(deviation) DEV-2206 정정과 같은 식입니다. 감사 추적은 "날 믿어"를 "로그를 확인해"로 바꿉니다.
ALCOA+ 수명 주기: 모든 사건이 포착되고, 귀속되며, 검토 가능합니다 — 그래서 최종 기록을 신뢰할 수 있습니다. 저자 원본 도해(AI 보조로 제작).
통제된 청정실(cleanroom). 물리적 환경을 통제해 제품을 보호하는 것과 꼭 마찬가지로, 데이터 통제는 제품을 입증하는 기록의 무결성을 보호합니다.
청정실. 이미지: UCL Mathematical and Physical Sciences, CC BY 2.0, Wikimedia Commons.
데이터 무결성은 어떻게 무너지는가
규칙을 알면 실패 양상을 더 쉽게 알아챌 수 있습니다. 규제 지침과 수년간의 실사 적발 사례는 반복적으로 등장하는 문제들의 면면을 보여 줍니다 [1][3].
- 공유 로그인. 여러 사람이 하나의 계정을 사용하면 귀속이 무너집니다 — 누가 기재했는지 알 수 없어 귀속 가능이 무력화됩니다 [1].
- 비활성화되거나 검토되지 않는 감사 추적. 감사 추적이 꺼져 있거나, 켜져 있더라도 한 번도 검토되지 않으면 변경이 눈에 띄지 않습니다. 이제 지침은 감사 추적을 데이터 자체와 동일한 엄밀함으로 검토할 것을 기대합니다 [1].
- "합격할 때까지 시험하기(testing into compliance)." 합격 결과가 나올 때까지 시험을 반복한 뒤, 그 결과만 보고하고 불합격은 폐기하는 것입니다. FDA는 이를 명시적으로 금지합니다. 불합격 실행을 삭제하는 것은 완전과 원본을 위반합니다 [1].
- 고아 데이터(orphaned data). 배치도, 샘플도, 명확한 소유자도 없이 기록된 결과 — 공식 기록과 대조할 수 없는, 머무를 곳이 없는 데이터입니다 [3].
- 시계 조작. 시스템 시계를 바꿔 기재를 소급 처리하거나, 동기화되지 않은 시계를 운영해 사건의 진정한 순서를 알 수 없게 만드는 것으로, 동시 기록과 일관을 공격합니다 [3].
이러한 실패의 다수는 극적인 사기가 아닙니다. 그것들은 마감 압박 속에서 지름길로 시작됩니다 — "오늘 밤만" 한 번 공유한 비밀번호, "컬럼이 평형화 중이었으니까" 한 번 다시 돌린 실행. 건강한 데이터 무결성 문화는 정직한 길을 쉬운 길로 만들어, 지름길이 결코 유혹이 되지 않게 합니다 [7].
산업을 재편한 지침의 물결
2010년대에 잇따른 세간의 이목을 끈 데이터 무결성 적발 사례들이 전 세계 규제 당국으로 하여금 서로 수렴하는 지침을 발표하도록 촉발했습니다. 그 결과는 놀라우리만치 일관된 전 지구적 기대치입니다 [6].
| 지침 | 기관 | 연도 |
|---|---|---|
| Questions and Answers: GMP — Data Integrity [5] | EMA (EU) | 2016 |
| Data Integrity and Compliance with Drug CGMP: Q&A [1] | FDA (US) | 2018 |
| 'GXP' Data Integrity Guidance and Definitions [2] | MHRA (UK) | 2018 |
| Guideline on Data Integrity (TRS 1033, Annex 4) [4] | WHO | 2021 |
| Good Practices for Data Management and Integrity (PI 041-1) [3] | PIC/S | 2021 |
이 지침 문서들은 홀로 서 있지 않습니다 — 그것들은 그 아래에 깔린 구속력 있는 규정들을 해석하고 보강합니다. 미국에서 전자 기록과 전자 서명은 21 CFR Part 11의 규율을 받고, 유럽 연합에서 제조에 사용되는 컴퓨터화 시스템은 EU GMP Annex 11에 해당합니다. 데이터 무결성 지침은 그 규칙들을 실무에서 어떻게 충족할지를 설명하며, 바로 그렇기 때문에 두 가지는 대개 함께 읽힙니다(다음 장에서 Part 11과 Annex 11을 직접 다룹니다).
설계에 의한 무결성
현대적 사고에서 가장 중요한 전환은, 무결성이 사후에 검사로 들어오는 것이 아니라 설계 단계에서부터 갖춰 넣어져야 한다는 것입니다 [6]. 지침은 두 층위의 통제를 구분합니다. **기술적(시스템) 통제(technical controls)**는 컴퓨터 자체에 의해 강제됩니다. 고유한 사용자 계정, 역할 기반 접근, 동기화된 시스템 시계(시간 동기화, time sync), 끌 수 없는 감사 추적, 그리고 일상적인 감사 추적 검토가 그것입니다 [2]. **행동적(절차적) 통제(behavioral controls)**는 사람에 의해 강제됩니다. 교육, 우수 문서화 관행, 그리고 직원들이 오류를 숨기기보다 안전하게 보고할 수 있다고 느끼는 열린 문화가 그것입니다 [7]. 기술적 통제는 의지력에 의존하지 않기 때문에 더 강력하지만 — 어느 한 층위만으로는 충분하지 않습니다 [3].
왜 중요한가
데이터 관리에 있어서 ALCOA+는 추상적인 철학이 아닙니다 — 그것은 시스템이 어떻게 구축되고 운영되어야 하는지에 대한 구체적인 명세입니다. 규제 환경 안의 모든 데이터베이스, 히스토리언(historian, 공정 데이터를 보관하는 시계열 데이터베이스), 실험실 시스템은 이 요건들을 물려받습니다. 그것은 행위를 개인에게 귀속시키고, 신뢰할 수 있는 시계에 맞춰 타임스탬프를 찍으며, 원본을 보존하고, 변경 불가능한 감사 추적을 유지해야 합니다 [6]. ALCOA+를 염두에 두지 않고 데이터 아키텍처를 설계하면 값비싼 재작업을 보장하게 됩니다 — 혹은 규제 당국이 "이것이 참이라는 것을 어떻게 압니까?"라고 물을 때 방어할 수 없는 기록을 보장하게 됩니다.
현실 세계에서
이것이 바로 상호운용성과 무결성을 함께 설계해야 하는 이유입니다. AnIML이나 Allotrope 같은 표준은 장비의 원시 데이터와 그 전체 맥락을 담아내어 원본과 완전을 충족하는 데 도움을 줄 수 있습니다 — 그러나 이는 파이프라인이 그 과정에서 필드를 슬그머니 변형하거나 누락시키지 않을 때에만 가능합니다 [6]. 미국 NIIMBL 연구소의 실시간 실험실 데이터 통합 작업 — 공유 온톨로지(ontology)를 기준으로 장비 데이터를 실시간으로 스트리밍하는 NIIMBL–NIST 개념 증명(proof of concept)을 포함하여 — 은 바로 이 긴장에 직면해 있습니다. 여러 장비와 협력사로부터 데이터를 실시간으로 끌어오면서도 귀속, 시간 순서, 그리고 ALCOA+가 요구하는 끊김 없는 감사 추적을 보존하는 것입니다. 실시간 데이터는 그것이 실시간으로 신뢰할 수 있는 데이터일 때에만 자산이 됩니다.
핵심 용어
- 데이터 무결성(data integrity) — 데이터가 전체 수명 주기 동안 완전하고, 일관되며, 정확하게 유지되는 정도.
- ALCOA — 귀속 가능(Attributable), 판독 가능(Legible), 동시 기록(Contemporaneous), 원본(Original), 정확(Accurate); 좋은 데이터의 원래 다섯 가지 속성.
- ALCOA+ — ALCOA에 완전(Complete), 일관(Consistent), 영속(Enduring), 가용(Available)을 더한 것.
- 감사 추적(audit trail) — 누가, 언제, 무엇을, 왜 했는지에 대한 안전하고 타임스탬프가 찍힌, 컴퓨터가 생성한 로그로서, 끄거나 슬그머니 변경할 수 없도록 보호됨.
- 전자 서명(electronic signature) — 손으로 쓴 서명과 법적으로 동등한 컴퓨터 기재로서, 서명자의 정자 이름, 날짜와 시각, 그리고 서명의 의미(검토, 승인, 또는 작성)를 표시함.
- 우수 문서화 관행(Good Documentation Practices) — 데이터를 올바르고 동시적으로 기록하기 위한 행동 규칙.
- 기술적 통제(technical controls) — 시스템에 의해 강제되는 무결성 안전장치(고유 로그인, 시간 동기화, 감사 추적).
- 행동적 통제(behavioral controls) — 사람에 의해 강제되는 무결성 안전장치(교육, 문화, 절차).
- 합격할 때까지 시험하기(testing into compliance) — 합격할 때까지 시험을 반복하고 합격만 보고하는, 금지된 관행.
- 리스크 상응 통제(risk-commensurate controls) — 환자 안전에 미치는 영향이 더 큰 데이터에 더 엄밀한 통제를 적용하는 것.
이 다음은
감사 추적, 원본, 귀속된 서명은 법이 전자 기록을 서명된 종이와 동등하게 다룰 때에만 무게를 갖습니다. 다음 장 *기록, 서명, 그리고 법: 21 CFR Part 11과 EU Annex 11(Records, Signatures, and the Law: 21 CFR Part 11 and EU Annex 11)*은 ALCOA+를 좋은 관행에서 법적 의무로 바꿉니다 — 무엇이 전자 기록과 전자 서명을 신뢰할 수 있고 종이 위 잉크와 법적으로 동등하게 만드는지, 그리고 폐쇄 시스템과 개방 시스템, 감사 추적, 사본, 보존, 검증이 어떻게 그 동등성을 성립시키는지를 설명합니다.