데이터 한 점의 생애주기
📍 현재 위치: 바이오의약품과 그 데이터 그림자(1장)에서 우리는 데이터 그림자(data shadow)를 만났습니다. 이제 우리는 데이터 한 점을 그 생애 전체에 걸쳐 따라갑니다. 그 여정이 데이터 관리 전체를 떠받치는 척추이기 때문입니다.
지난 장에서 우리는 *데이터 그림자(data shadow)*를 만났습니다. 모든 바이오의약품(biologic)을 뒤따르는 센서 추적값, 배치 기록(batch record), 시험 결과, 서명들로서, 분자 그 자체만큼이나 제품에 필수적인 것들입니다. 그러나 그림자는 하나의 덩어리가 아닙니다. 그것은 수백만 개의 개별 데이터 점(data point)이며, 각각 어딘가에서 태어나 어떤 일을 수행한 뒤, 수년간 살아남아야 하는 기록으로 나이를 먹습니다. 그림자를 이해하려면 우리는 하나의 점을 그 생애 전체에 걸쳐 따라가야 합니다.
그 생애에는 형태가 있고, 규제 당국은 거기에 이름을 붙였습니다. 바로 **데이터 생애주기(data lifecycle)**입니다. 그들은 이를 대략 데이터의 생성과 기록부터 처리, 사용, 보존, 보관/검색, 폐기에 이르는 데이터 생애의 모든 단계로 정의합니다 [1]. 여러분이 다루게 될 모든 점은 이와 똑같은 길을 따라갑니다.
데이터 점은 결혼식 사진과 같습니다. 누군가는 그것을 찍어야 합니다(생성). 사진은 현상되고 잘립니다(처리). 그것은 누가, 어디서, 언제 찍었는지 표시될 때에만 비로소 의미를 갖습니다(맥락화). 사람들은 무언가를 결정하려고 그것을 들여다봅니다(사용). 사진은 나중에 찾을 수 있는 앨범으로 들어갑니다(보존과 보관). 그리고 수십 년이 지난 어느 날, 결국 버려질 수도 있습니다(폐기). 서랍 속에 라벨도 없이 굴러다니는 사진은 거의 쓸모가 없습니다. 아무 이야기도 붙어 있지 않은 숫자도 마찬가지입니다.
이 장에서 다루는 것
우리는 하나의 측정값, 즉 7.0이라는 pH 값을 그것이 생성되는 순간부터 폐기되는 날까지 추적할 것입니다. 그 과정에서 원시(raw) 데이터와 처리된(processed) 데이터의 차이, 무엇보다 중요한 *메타데이터(metadata)*라는 개념, 그리고 맨숫자가 그저 잡음(noise)에 불과한 이유를 만나게 됩니다. 마지막으로 바이오공정(bioprocess) 데이터를 진정으로 어렵게 만드는 "4V"와, 이 책의 나머지 부분이 존재하는 이유인 그 간극을 살펴보며 마무리합니다.
모든 데이터 점이 거치는 길
데이터 점은 무언가가 세상을 측정하는 그 순간에 *생성(generated)*됩니다. 바이오리액터(bioreactor) — 살아 있는 세포가 항체를 키우는 탱크로 — 오늘날에는 대개 일회용 플라스틱·필름 용기이며, 예를 들어 Sartorius Ambr, Thermo Scientific HyPerforma 단일사용 바이오리액터(S.U.B.), Eppendorf BioBLU 또는 Sartorius Biostat STR 같은 것들 — 속의 우리 pH 프로브(probe)는 배양액의 산성도를 감지하고 7.0을 보고합니다. 그 생성의 순간은 동시에 *포착(capture)*의 순간이기도 합니다. 그 값은 어딘가 영속적인 곳에 기록되어야 하며, 그렇지 않으면 그것은 애초에 존재하지 않은 것과 같습니다. 포착은 자동으로(센서가 제어 시스템에 기록하는 것) 일어나거나 수기로(분석자가 결과를 로그북에 입력하는 것) 일어납니다. 포착된 값은 어떤 형식으로 저장되는데 — 흔히 벤더 고유 형식입니다(Agilent ChemStation HPLC에서 나오는 .ch 파일, Applied Biosystems qPCR 계측기에서 나오는 .eds 파일 또는 .rdml 내보내기(개방형 Real-time PCR Data Markup Language 표준), 바이오리액터 제어기에서 나오는 독자적 히스토리언(historian) 기록 등) — AnIML(Analytical Information Markup Language)이나 Allotrope Foundation의 Allotrope Data Format(ADF) 같은 개방형 표준을 향한 움직임이 점점 커지면서, 어떤 계측기가 만들었든 그 포착된 데이터를 수십 년 뒤에도 판독할 수 있도록 하는 것을 목표로 합니다.
다음은 *처리(processing)*입니다. 원시 신호는 변환되고, 평균이 내어지고, 보정되거나 계산되어 사용 가능한 결과가 됩니다. 그다음 *맥락화(contextualization)*가 의미를 붙입니다. 그러고 나면 그 점은 *검토되고 사용(reviewed and used)*됩니다 — 사람이나 알고리즘이 그것을 확인하고 그에 따라 행동합니다. 결과는 *보고(reported)*됩니다. 마지막으로 그 기록은 *보존과 보관(retention and archival)*으로 들어가, 합법적인 *폐기(disposal)*가 이루어질 때까지 검색 가능한 상태로 머무릅니다.
데이터 생애주기: 프로브에서 파쇄기까지, 모든 측정값이 거치는 일곱 단계.
보존은 얼마나 오래 지속될까요? 의약품의 경우, 아주 오랫동안입니다. 현행 우수의약품제조관리기준(Current Good Manufacturing Practice) — 의약품을 어떻게 만드는지에 관한 법으로 강제되는 규정 — 은 기록이 배치 출하(batch release)를 한참 넘어선 시점까지 보관되고 판독 가능한 상태로 유지될 것을 요구합니다. 미국의 경우, 구체적인 규정 — 21 CFR 211.180(eCFR Title 21, Part 211, 기록 및 보고에 관한 Subpart J) — 은 그 하한을 배치 유효기한이 지난 후 최소 1년으로 설정하는데, 이것은 어디까지나 최솟값입니다. 유럽연합(EU)의 GMP 기대치(문서화에 관한 EudraLex Volume 4, Chapter 4, 그리고 전자 기록이 어떻게 판독 가능한 상태로 유지되는지를 규율하는, 전산화 시스템에 관한 EU Annex 11 규정 — 미국 21 CFR Part 11에 상응하는 유럽 규정)는 배치 문서를 배치 유효기한 후 최소 1년 또는 적격자(QP)가 배치를 인증한 후 최소 5년 중 더 긴 기간 동안 보관할 것을 요구합니다. 일본을 비롯한 다른 지역은 각자의 보존 일정을 운영합니다. 1년은 단지 미국 규제 대상 제품의 하한일 뿐이며, 많은 기업은 사업 방침이나 지역 법규에 따라 훨씬 더 오래 보관합니다. 결정적으로, 데이터 점의 소유자와 그에 대한 통제는 그 점이 막 생성되었을 때만이 아니라 모든 단계에 걸쳐 그 점을 따라다닙니다 [3].
원시, 처리, 그리고 그것을 진짜로 만드는 메타데이터
우리의 7.0은 태어나는 순간에는 원시 데이터(raw data) — 계측기가 처음 기록한 그대로의, 변경되지 않은 원본 값 — 입니다 [1]. 원시 데이터는 신성합니다. 그것으로부터 우리는 처리된 데이터(processed data), 즉 사람들이 실제로 사용하는 보정·평균·계산된 결과를 도출합니다. 이 둘은 서로 다른 대상이며, 규제 당국은 어떤 결과든 그 출처로 다시 추적할 수 있도록 원시 형태를 보관할 것을 강력히 요구합니다 [6].

분석자가 유가식(fed-batch) 배양에서 시료를 채취합니다 — 오프라인 데이터 점을 생성하는 물리적 행위로, 이 점은 이후 포착되고 맥락화되어 배치에 연결되어야 합니다.
유가식(fed-batch) 시료 채취. 이미지: Luis Fernando Flores LAB, CC BY-SA 4.0 라이선스(https://creativecommons.org/licenses/by-sa/4.0/), Wikimedia Commons; 수정 없이 사용. 이 이미지는 CC BY-SA 4.0 라이선스에 따라 배포되며 동일 라이선스로 재사용할 수 있습니다. 이 라이선스는 이미지에만 적용되며 이 책의 나머지 부분에는 적용되지 않습니다.
이 둘을 둘러싸고 있는 것이 메타데이터(metadata) — 말 그대로 "데이터에 관한 데이터" — 입니다. 값에 의미와 이력을 부여하는 정보입니다 [1]. 단위, 타임스탬프, 계측기의 신원과 보정 상태, 누가 기록했는지, 사용된 방법 — 이 모두가 메타데이터입니다. 크로마토그래피 계측기가 피크 면적 4527.3을 보고한다면, 그와 함께 따라다니는 메타데이터에는 단위(mAU·s), 타임스탬프, 계측기 ID, 보정 상태, 배치 ID, 방법, 작업자, 그리고 측정 대상 물질이 포함됩니다. 이 모두를 벗겨내면 그 숫자는 고아가 됩니다.
두 개의 용어가 책의 뒷부분을 준비시켜 줍니다. **원본 기록(original record)**은 데이터가 생성된 형식 그대로, 데이터를 처음으로 영속적으로 포착한 것입니다 [2]. **진본 사본(true copy)**은 메타데이터를 포함하여 정확하고 검증된 복제본으로, 전체 의미를 보존하며 원본을 대신할 수 있습니다 [4]. 원본, 사본, 그리고 손상된 반쪽짜리 사본의 차이는 방어 가능한 배치와 거부된 배치의 차이입니다.
1장에서 우리는 ALCOA — 귀속 가능(Attributable), 판독 가능(Legible), 동시 기록(Contemporaneous), 원본(Original), 정확(Accurate) — 을 만났습니다. 규제 당국은 이제 이를 **ALCOA+**로 확장하여, 그 다섯 가지에 네 가지 특성을 더 덧붙입니다. 완전(Complete), 일관(Consistent), 지속(Enduring), **이용 가능(Available)**입니다 [2]. (전체 내용은 데이터 무결성과 ALCOA+에서 살펴봅니다.) 이것들이 생애주기에 얼마나 자연스럽게 대응되는지 보십시오. 귀속 가능과 동시 기록은 포착에 관한 것이고, 지속과 이용 가능은 보존에 관한 것이며, 원본과 정확은 원시 대 처리의 경계에 관한 것입니다.
숫자 하나만으로는 잡음인 이유
이것이 이 장의 핵심입니다. 7.0은 무엇일까요?
그것은 pH일 수 있습니다. 리터당 7.0그램의 포도당일 수도, 밀리리터당 700만 개의 세포일 수도, 아니면 일곱 시일 수도 있습니다. 그 자체로는 아무런 진실도 담고 있지 않습니다 — 그저 숫자일 뿐입니다. 데이터 더하기 맥락은 정보(information)와 같습니다 [7]. 우리의 측정값을 사람이 신뢰하고 그에 따라 행동할 수 있는 무언가로 바꾸려면, 우리는 거기에 다음을 묶어야 합니다.
- 단위 — pH (그것이 어떤 차원을 측정하는지 알기 위해);
- 타임스탬프 — 운전 7일차 06:14 (그래서 언제인지 알 수 있고, 동시에 기록되었음을 증명할 수 있도록);
- 장비 ID — 바이오리액터 BR-204, 프로브 PRB-17, 마지막 보정은 어제;
- 배치 ID — 이것이 속한 의약품 원료의 특정 로트(lot);
- 방법 — 측정값을 어떻게 취하는지 규정하는 표준 절차.
이제서야 7.0은 정보가 됩니다. "BR-204의 배양액이 배치 L-22-0417의 150시간차에 보정된 프로브로, 방법 SOP-pH-03에 따라 pH 7.0을 유지했다." 실제 시스템에서 바로 그 사실은 문장이 아니라 구조화된 기록으로 저장되며, 각 필드가 맥락의 한 조각씩을 담습니다.
{
"measurement": "pH",
"value": 7.0,
"unit": "pH units",
"timestamp": "2022-06-10T06:14:32Z",
"equipment_id": "BR-204",
"sensor_id": "PRB-17",
"batch_id": "L-22-0417",
"method": "SOP-pH-03",
"recorded_by": "analyst_15"
}
그 문장은 — 그리고 그 기록은 — 의사결정을 뒷받침할 수 있습니다. 맨숫자 7.0은 그럴 수 없습니다. 이것이 바로 맥락화는 서류 작업이 아니라, 측정값을 증거로 전환하는 것인 이유입니다 [3]. 여러분의 배치 파일을 검토하는 규제 검사관은 맨숫자를 받아들이지 않습니다. 그들은 그것이 어디서, 언제, 어떤 조건에서 나왔는지 증명하라고 요구할 텐데, 그 맥락이 없으면 여러분은 그것을 증명할 수 없습니다.
미묘하지만 결정적인 규칙: 마음에 들지 않는 숫자를 조용히 삭제할 수는 없습니다. 실패, 의심스러운(suspect), 규격 외(out-of-specification) 결과 또한 데이터이며, 나머지와 함께 보존되고 검토되어야 합니다 — 배치를 깔끔해 보이게 하려고 결코 폐기해서는 안 됩니다 [4]. 생애주기는 불리한 점도 유리한 점만큼이나 충실하게 보존합니다.
4V, 구체적으로
바이오공정 데이터는 네 가지 차원에서 까다로운데, 이것이 "4V"입니다. 빅데이터(big data)라는 더 넓은 세계에서 빌려온 렌즈입니다. 실제로 풀어보면 다음과 같은 모습입니다.
규모(Volume). 단일 바이오리액터 운전 한 번에는 열에서 스무 개의 프로브가 1주에서 3주 동안 몇 초마다 표본을 채취합니다. 여기에 오프라인 실험실 분석, 영상, 유전체학(genomics)까지 더하면, 배치 한 건이 기가바이트 단위의 정형·비정형 기록을 생성할 수 있습니다.
속도(Velocity). 그 데이터의 일부는 실시간으로 도착하여 지금 조치해야 합니다 — 내일 검토하려고 미뤄둔 pH 이탈은 이미 오늘의 세포를 망쳐버렸을 수도 있습니다.
다양성(Variety). 데이터는 여러 형태로 들어옵니다. 연속적인 센서 추적값, 단일 실험실 결과, 자유 텍스트 형식의 작업자 메모, 크로마토그램(chromatogram), 전자 서명. 일부는 기계가 생성하고 일부는 손으로 입력하며, 둘 다 하나의 일관된 무결성(integrity) 규칙 아래에서 관리되어야 합니다 [8].
진실성(Veracity). 모든 점은 신뢰할 수 있어야 합니다 — 진정으로 귀속 가능하고, 정확하며, 완전해야 합니다 — 환자의 안전이 거기에 달려 있기 때문입니다 [2]. 진실성은 주관적인 것이 아닙니다. 그것은 이 이질적인 데이터의 홍수 전반에 걸쳐 정의되고, 점수화되며, 심지어 자동으로 모니터링될 수도 있습니다 [8].
왜 중요한가
생애주기가 척추라면, 데이터를 관리한다는 것은 바로 그 척추를 처음부터 끝까지 관리하는 것입니다. 포착되었지만 결코 맥락화되지 않은 측정값은 쓸모가 없습니다. 사용되었지만 결코 보존되지 않은 측정값은 방어할 수 없습니다. 보존되었지만 충실한 원본이나 진본 사본의 형태가 아닌 측정값은 검사관에게 가치가 없습니다. 좋은 데이터 관리란 모든 점을 일곱 단계 전체에 걸쳐 — 그 메타데이터를 온전히 지킨 채로 — 요구되는 생애 내내 깨끗하게 옮기는 규율, 그뿐입니다 [5].
현실 세계에서는
산업계는 이 생애주기를 관리하는 일이 선택 사항이 아님을 호된 대가를 치르며 배웠습니다. 기록 및 데이터 무결성에 관한 ISPE GAMP 지침은 이를 품질 시스템의 척추로 다룹니다 — 데이터가 태어나는 순간부터 파기되는 날까지, 통제가 데이터를 따라다닙니다 [5]. 더 넓은 데이터 관리 지식 체계인 DAMA-DMBOK은 어떤 산업이든 이 여정을 묘사하는 데 쓰는 어휘를 제공합니다: 포착, 맥락화, 사용, 보존, 보관 [7]. 검사 당국은 한 걸음 더 나아가 제조업체에게 **데이터 흐름을 지도화(map their data flows)**할 것을 요구합니다 — 각 측정값이 어디서 태어나고, 어디를 거치며, 어디서 변경되거나 손실될 수 있는지를 점 하나하나 그려내도록 말입니다 [3].
그리고 여기에 이 책의 나머지를 이끄는 간극이 있습니다. 우리의 pH 점은 단순했습니다. 그러나 실제 배치는 수십 군데에서, 수십 가지 형태로, 서로 대화하지 못하는 경우가 많은 시스템 위에서 데이터를 생성합니다 — 여기에는 공정 제어 시스템(Siemens나 Emerson의 DCS), 저기에는 크로마토그래피 데이터 시스템(Waters Empower), 그리고 LIMS, 히스토리언(historian), 제조실행시스템(MES, 예를 들어 Siemens Opcenter나 Dassault Systèmes DELMIA), 또 어딘가에는 협력사의 스프레드시트. 각각은 자기만의 메타데이터 관례로 자기만의 데이터 섬을 포착합니다. 이 섬들에 공통의 형태를 부여하기 위한 표준들이 존재합니다 — ANSI/ISA-88은 배치와 레시피(recipe) 데이터가 어떻게 구조화되는지를 정의하고, ISA-95는 현장(plant-floor) 데이터가 그 위의 경영 시스템과 어떻게 연결되는지를 정의합니다 — 그러나 모든 실제 계측기를 거기에 대응시키는 것이 어려운 부분입니다. 그 섬들을 하나의 신뢰할 수 있고 연결된 기록으로 꿰매어 — 그림자 전체를 하나의 이야기로 읽을 수 있도록 — 하는 것이 바이오의약품 데이터 관리의 핵심 문제입니다. 이 데이터 통합(integration) 문제야말로 미국 NIIMBL 같은 민관 협력 연구소가 이 분야의 현대화 과정에서 풀어내고자 하는 바로 그런 종류의 과제입니다. 그러한 사명과 더불어, NIIMBL 인근에 자리한 SABRE 센터(SABRE, Securing American Biomanufacturing Research and Education) — 델라웨어 대학교(University of Delaware)에 현재 건설 중인 파일럿 규모의 cGMP 바이오제조 및 인력 양성 시설 — 는 첨단 바이오제조를 규모 확대하고 위험을 줄이며, 그것을 운영할 인력을 양성하는 것을 목적으로 합니다.
핵심 용어
- 데이터 생애주기(data lifecycle) — 데이터 점의 전체 여정: 생성/포착, 처리, 맥락화, 검토/사용, 보고, 보존/보관, 폐기.
- 원시 데이터(raw data) — 계측기나 사람이 처음 기록한 그대로의, 변경되지 않은 원본 값.
- 처리된 데이터(processed data) — 원시 데이터로부터 도출된 보정·평균·계산된 결과.
- 메타데이터(metadata) — "데이터에 관한 데이터"; 값에 의미와 이력을 부여하는 단위, 타임스탬프, 장비, 배치, 방법, 작성자 정보.
- 원본 기록(original record) — 데이터가 생성된 형식 그대로 처음 영속적으로 포착한 것.
- 진본 사본(true copy) — 전체 의미를 보존하며 원본을 대신할 수 있는, (메타데이터를 포함한) 정확하고 검증된 복제본.
- 맥락화(contextualization) — 숫자가 정보가 되도록 단위, 시각, 장비, 배치, 방법을 붙이는 것.
- 정보(information) — 데이터 더하기 맥락; 실제로 신뢰하고 그에 따라 행동할 수 있는 숫자.
- ALCOA+ — 1장의 ALCOA 특성(귀속 가능(Attributable), 판독 가능(Legible), 동시 기록(Contemporaneous), 원본(Original), 정확(Accurate))에 네 가지를 더 확장한 것: 완전(Complete), 일관(Consistent), 지속(Enduring), 이용 가능(Available).
- 보존(retention) — 요구되는 생애 동안 기록을 판독 가능한 상태로 유지하는 것(의약품의 경우 배치 유효기한이 지난 후 최소 1년, 종종 더 길게).
- 4V — 규모(volume), 속도(velocity), 다양성(variety), 진실성(veracity); 바이오공정 데이터를 어렵게 만드는 차원들.
이 다음은
우리는 하나의 점을 그 생애에 걸쳐 따라왔지만, 그 탄생지를 단일한 프로브로 취급했습니다. 실제로 바이오의약품은 여러 단위 작업(unit operation)에 걸쳐 만들어지며, 각각이 측정값으로 분주한 공장입니다. 다음 장 공정 데이터가 태어나는 곳으로의 여행에서는 단일클론항체(monoclonal antibody) 공정 전체 — 상류(upstream), 하류(downstream), 충전·마감(fill-finish), 품질관리(quality control) — 를 걸어보되, 이를 전적으로 데이터를 생성하는 정거장들의 사슬로 재구성하여, 그림자 속 모든 점이 처음으로 숨을 들이쉬는 곳을 정확히 볼 수 있게 합니다.