데이터 소스로서의 계측기와 센서

📍 현재 위치: 여기서 2부가 열립니다 — 공정 데이터가 어디서 태어나는지를 둘러보았으니, 이제 그것을 실제로 만들어내는 물리적 계측기들, 곧 우리 데이터 공급망의 첫 번째 진짜 소스들을 만나봅니다.

지난 장 공정 데이터가 태어나는 곳을 둘러보다(A Tour of Where Process Data Is Born)에서 우리는 단일클론항체(monoclonal antibody) — 살아 있는 세포가 키워내는 Y자 모양의 단백질 의약품 — 를 만드는 여정 전체를 걸으며, 모든 정거장을 데이터를 내보내는 장소로 다시 바라보았습니다. 그러나 우리는 그 데이터를 마치 저절로 나타나는 것처럼 다루었습니다. 데이터는 저절로 나타나지 않습니다. 모든 숫자, 스펙트럼(spectrum), 크로마토그램(chromatogram)은 물리적 장치 안에서 태어납니다. 탱크에 담근 프로브(probe), 용기에 빛을 쏘는 레이저, 품질 실험실에서 윙윙거리는 계측기 말입니다. 이 장은 바로 그 장치들 — 모든 제조 데이터가 흘러나오는 최초의 소스들 — 에 관한 것입니다.

쉽게 말하면

현대의 자동차를 떠올려 보세요. 어떤 계기는 운전하는 내내 연속적으로 값을 읽습니다 — 속도, 연료, 엔진 온도 — 결코 대시보드를 떠나는 법이 없습니다. 또 어떤 것들은 정비소를 찾아가야 합니다. 거기서 정비공이 장비를 연결해, 주행 중에는 할 수 없는 더 깊은 진단을 돌립니다. 바이오리액터(bioreactor)도 마찬가지입니다. 어떤 계측기는 단 한 방울도 빼내지 않고 살아 있는 공정을 매 순간 지켜보고, 또 어떤 것은 시료를 뽑아 전용 장비로 가져갈 것을 요구합니다. 핵심은 각 계측기가 어떤 질문에 답할 수 있는지, 그리고 그것이 돌려주는 데이터가 어떤 모양인지를 아는 것입니다.

이 장에서 다루는 것

우리는 먼저 계측기를 공정에 대해 어디서 측정하는지에 따라 분류하는 법을 배웁니다. 그다음 프로브의 두 거대한 계열 — 단순한 단일 숫자 센서와 풍부한 분광(spectroscopic) 센서 — 를 만나고, 단일 원시 측정값의 해부학을 들여다본 뒤, 그 신호를 제어로 바꾸어 주는 PAT라는 프레임워크를 만납니다. 마지막으로 품질 실험실의 오프라인(off-line) 분석 계측기들을 둘러보고, 각 계측기가 어째서 특유의 데이터 모양(data shape)을 만들어내며 하류(downstream) 시스템이 그것을 담을 수 있도록 설계되어야 하는지를 살펴보고, 그 모양들이 통합되는 방식에 남아 있는 미해결 문제를 마주합니다.

계측기가 측정하는 방식과 위치

계측기가 측정하는 위치: 네 가지 장소

엔지니어는 모든 측정을 공정 흐름(process stream)과의 물리적 관계에 따라 분류합니다. 이 주제에 대한 규제 당국의 기초 지침 — 미국 FDA의 2004년 공정 분석 기술(Process Analytical Technology) 프레임워크 — 이 이 용어를 공식화했고, Rathore와 동료들의 널리 인용되는 리뷰가 이를 바이오의약품에 맞게 깔끔하게 정리했습니다 [1][2]. 네 가지 장소가 있습니다.

인라인(In-line) — 센서가 공정 흐름 안에 자리 잡고, 시료를 빼내지 않은 채 그 자리에서 측정합니다. 바이오리액터 액체에 잠긴 pH 프로브가 인라인입니다. 아무것도 빼내지 않으며, 측정은 액체가 사는 바로 그곳에서 일어납니다.
온라인(On-line) — 작은 곁가지 흐름(side-stream)이 공정에서 자동으로 빠져나와 측정되고, (흔히) 되돌아갑니다. 제품은 닫힌 무균(sterile) 시스템을 결코 떠나지 않지만, 측정은 주 흐름 안이 아니라 바로 그 옆에서 일어납니다. (배기가스 분석기(off-gas analyzer)도 느슨하게 여기에 묶이지만, 그것은 되돌아가는 액체 곁가지 흐름이 아니라 용기 상부 공간(headspace)을 떠나는 배기가스를 측정합니다.)
앳라인(At-line) — 시료가 공정에서 물리적으로 빠져나와 근처에서, 보통 장비 바로 옆에서, 수초에서 수분 안에 측정됩니다. 시료는 흐름을 떠나지만 방을 떠나지는 않습니다.
오프라인(Off-line) — 시료가 빠져나와 별도의 실험실로 옮겨지고, 거기서 크고 전용화된 계측기로 수 시간 또는 수일 뒤에 측정될 수도 있습니다.

이 차이는 학문적인 것이 아닙니다. 그것은 데이터가 얼마나 신선한지, 얼마나 자동으로 도착하는지, 그리고 결과가 공정이 아직 돌아가는 동안 그것을 조종할 수 있는지 아니면 끝난 뒤에 판정만 할 수 있는지를 좌우합니다. 1권은 이러한 인라인·온라인 프로브 대부분이 실제로 자리 잡는 물리적 생산 바이오리액터를 자세히 다룹니다. 여기서 우리가 신경 쓰는 것은 각 위치가 거기서 나오는 데이터에 무엇을 하는가입니다.

분기-수렴 흐름: 바이오리액터 공정 흐름이 네 가지 측정 위치로 갈라집니다 — 인라인(pH, DO, 온도), 온라인(자동 샘플러, 배기가스 분석기), 앳라인(벤치탑 분석기), 오프라인(HPLC, 질량분석) — 각각 시료를 어떻게 뽑는지로 표시되며, 인라인과 온라인은 실시간 제어에 더 가까운 더 빠른 데이터로 수렴하고, 앳라인과 오프라인은 더 풍부하거나 더 결정적인 더 느린 데이터로 수렴합니다. 측정 위치 분류 체계: 흐름에 가까울수록 데이터는 더 빠르고 더 연속적이며, 멀어질수록 더 결정적이지만 지연됩니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

두 프로브 계열: 단일 숫자와 분광

인라인과 온라인의 세계 안에서 프로브는 크게 두 종류로 나뉘는데, 이 구분은 데이터에 있어 엄청나게 중요합니다.

단변량 프로브(univariate probe)는 한 번에 하나의 숫자를 돌려줍니다. ("단변량(univariate)"은 그저 변수가 하나라는 뜻입니다.) 고전적인 사총사는 온도, pH(액체가 얼마나 산성인지), 용존 산소(dissolved oxygen) 또는 DO(세포가 숨 쉬는 데 쓸 산소가 얼마나 있는지), 그리고 용존 이산화탄소를 측정합니다. 정전용량 프로브(capacitance probe) — 세포 배양 현장에서 오래 쓰여 온 예로 Aber Instruments Futura 계열이 있습니다 — 는 다섯 번째를 더합니다. 액체가 미세한 교류 전기장에 어떻게 반응하는지를 감지함으로써 — 온전하고 손상되지 않은 막을 가진 세포만이 전하를 저장하므로(각 세포가 작은 축전기처럼 작동합니다), 그 신호는 살아 있는 세포를 세고 죽은 세포와 부스러기는 무시합니다 — 아무도 세지 않아도 생존 세포 밀도(viable cell density) / 바이오매스(biomass) — 대략, 살아 있는 세포가 얼마나 있는지 — 를 추정합니다. 이들 프로브 각각은 시간에 따라 단일 측정값의 꾸준한 흐름을 만들어냅니다. 바로 스칼라 시계열(scalar time-series), 존재하는 가장 단순한 데이터 모양입니다 [2].

실제로 그 시계열은 히스토리언(historian)이나 평평한 파일(flat file)에 평범한 행(row)들로 떨어집니다. 한 바이오리액터에서 몇 초간의 값은 이렇게 보일 수 있습니다 — 타임스탬프 하나, 그다음 프로브당 한 열(column)씩입니다.

timestamp,pH_PV,DO_percent,temperature_C
2026-06-13T09:00:00Z,7.02,48.5,36.99
2026-06-13T09:00:05Z,7.01,48.2,37.00
2026-06-13T09:00:10Z,7.02,47.9,37.01
2026-06-13T09:00:15Z,7.00,47.6,37.00

열들은 태그(tag) 형식의 이름을 지닙니다 — pH_PV는 pH 루프의 현재값(present value)이며 — 같은 측정값이 다른 곳에서는 BR101.pH.PV 같은 태그로 지정될 수도 있습니다. 이 태그 관례는 자동화 장에서 만납니다.

여러 프로브가 장착된 바이오리액터가 제어 및 데이터 시스템으로 신호를 보내는 모식도 계측화된 바이오리액터의 모식도: 온도, pH, 용존 산소 등을 위한 프로브들이 제어 및 데이터 시스템으로 연속 신호를 보냅니다. 산업용 바이오리액터 모식도. 이미지: NIST, 퍼블릭 도메인, Wikimedia Commons.

분광 프로브(spectroscopic probe)는 훨씬 더 풍부합니다. 하나의 숫자 대신, 액체에 빛을 쏘고 시료가 수백에서 수천 개의 파장에 걸쳐 그 빛을 어떻게 흡수하거나 산란시키는지를 한꺼번에 기록합니다 — 바로 스펙트럼(spectrum)입니다. 스펙트럼은 많은 화학종을 동시에 반영하므로, 이들은 다변량(multivariate)("여러 변수") 계측기입니다. Lourenço와 동료들의 리뷰는 바이오리액터에서 쓰이는 주요 유형들을 살핍니다. UV-Vis(자외선과 가시광선), 근적외선(near-infrared, NIR) 광, 형광(fluorescence), 그리고 라만(Raman) 분광법입니다 [3]. 완전한 라만, NIR, 또는 형광 스캔은 같은 일반적 데이터 모양을 돌려줍니다. 강도(intensity) 값들의 긴 벡터(vector)로, 파장 하나당 숫자 하나입니다. 짚고 넘어갈 예외는 UV-Vis입니다. 전체 스펙트럼 UV-Vis 계측기는 다변량이지만, 많은 인라인 UV/Vis 프로브는 단 하나 또는 몇 개의 고정된 파장에서만 값을 보고합니다 — 600 nm에서의 광학 밀도 바이오매스 측정값(nm는 나노미터로 빛의 파장입니다; OD600)이나 280 nm에서의 단백질 농도(A280) — 그래서 빛을 쓰면서도 사실상 단변량 스칼라입니다.

라만은 바이오공정 엔지니어가 가장 자주 손을 뻗는 분광법입니다. 그것은 분자가 레이저광을 산란시키는 희미하고 특징적인 방식을 측정합니다. 물은 약한 라만 산란체이므로 수용액 시료는 깨끗한 스펙트럼을 줍니다 — 물이 강하게 흡수하여 신호를 뒤덮어 버리는 적외선 방법에 비한 이점입니다 — 다만 생물학적 매트릭스(matrix, 배양액을 이루는 세포·영양분·노폐물의 복잡한 혼합물)에서 간섭을 일으킬 수 있는 형광 배경(background) — 어떤 분자가 레이저에 맞으면 내뿜는, 경쟁하는 빛 — 을 대가로 치릅니다. 바이오리액터를 위해 만들어진 상용 인라인 라만 시스템은 이제 익숙한 장비가 되었습니다 — Kaiser Optical Systems의 RamanRxn 프로브(현재 Endress+Hauser 소속)와 Tornado Spectral Systems의 분석기(현재 Bruker 소속)가, 공장 엔지니어라면 알아볼 두 가지 예입니다. 2011년의 획기적인 연구에서 Abu-Absi와 동료들은 단 하나의 인라인 라만 프로브가 포유류 세포 바이오리액터 안에서 글루코스(glucose)(세포의 먹이), 젖산(lactate)(노폐물), 글루타민(glutamine)(세포가 소비하는 또 다른 영양분 — 아미노산), 그리고 생존 세포 밀도 / 바이오매스 — 정전용량 프로브가 추정하는 바로 그 양 — 를 실시간으로 동시에 추적할 수 있음을 보였습니다 [4]. 이 네 가지 출력 각각 — 글루코스, 젖산, 글루타민, 바이오매스 — 은 학습 데이터로 구축된 저마다의 다변량 보정 모델(multivariate calibration model)을 필요로 합니다. 하나의 라만 스펙트럼은 네 개의 별도로 검증된 모델이 그것을 추출해 내기 전까지는 네 개의 측정값을 "담고" 있지 않습니다(이 점은 PAT에서 다시 다룹니다). 이후 권위 있는 리뷰들은 라만을 초기 개발부터 상업적 제어에 이르기까지 제약 제조와 바이오공정 전반의 주류 도구로 확립했습니다 [5][6]. 더 폭넓은 조사들은 상류(upstream)와 하류(downstream)를 막론하고 분광 계열 전체에 대해 같은 패턴을 확인합니다 [7].

원시 센서 측정값의 해부: 결코 벌거벗고 다니지 않는 여섯 필드

위의 CSV는 중요한 무언가를 숨기고 있습니다. 하나의 측정값이 인라인 프로브를 떠날 때, 그것은 벌거벗은 숫자가 아닙니다 — 또는 데이터가 신뢰받을 수 있으려면 그래서는 안 됩니다. 잘 형성된 원시 측정값은 함께 묶인 여섯 개의 필드를 지니며, 그중 하나라도 떨어뜨리면 기록이 슬그머니 손상됩니다. DO 프로브 측정값 하나를 분해해 보면 그 골격 전체가 드러납니다.

용존 산소 프로브에서 나온 원시 센서 측정값 하나의 신원 카드 해부도: 소스 타임스탬프(센서가 샘플링한 시각)와 별도의 수집 타임스탬프(히스토리언이 기록한 시각), asset.measurement.role로 해독되는 태그 신원 BR101.DO.PV, 값 47.9를 단위 %sat에 묶는 초록색 핵심 블록, Good을 뜻하는 192 품질 플래그와 레거시 OPC DA 코드 192 Good 64 Uncertain 0 Bad, 배치 결합 키 BATCH-2026-001, 그리고 이 행이 ts, tag, value, unit, quality, batch_id 열을 가진 ts.sensor_reading 행으로 이어진다는 것을 보여주는 보라색 패널. 완전히 펼쳐 본 하나의 원시 측정값: 두 개의 타임스탬프, 태그 신원, 단위에 묶인 값, 품질 플래그, 그리고 배치 결합 키 — 프로브에서 데이터베이스까지 반드시 함께 다녀야 하는 여섯 필드. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

여섯 필드는 다음과 같습니다.

소스 시각(source time). 센서가 실제로 액체를 샘플링한 시각 — 측정값이 나타내는 동시적(contemporaneous) 순간입니다. 이것이 그 측정값에 속하는 시각입니다. 그 자리에 다른 어떤 것을 기록하면, 그 데이터가 묘사하는 순간을 위조한 셈이 됩니다.
수집 시각(collection time). 히스토리언이나 수집기가 실제로 그 측정값을 기록한 시각. 그것은 보통 소스 시각과 가깝지만 동일하지는 않으며, 이 둘을 뒤섞는 것은 전형적인 데이터 무결성 오류입니다. 엣지(edge)에서 30초간 버퍼링되었다가 도착할 때에야 시각이 찍힌 값은, 부주의한 시스템에게는 30초 늦게 샘플링된 것처럼 보입니다. 두 시계를 따로 유지하는 것이 기록을 동시적으로 만들어 줍니다. 우리는 데이터 포인트의 수명주기에서 타임스탬프와 단일 값의 탄생부터 보관까지의 여정 전체를 다룹니다.
태그 신원. BR101.DO.PV는 자유 텍스트 라벨이 아닙니다. 그것은 asset.measurement.role로 구조화됩니다 — 바이오리액터 BR101의 용존 산소 루프의 현재값(PV)입니다. 그 문법이 수천 개의 신호를 주소 지정 가능하게 유지하는 방법이며, 우리는 자동화와 연결성 장에서 이를 다시 다룹니다.
값, 그 단위에 묶임. 단위 없는 숫자는 무의미하고 위험합니다. 47.9는 포화도 퍼센트일 수도, 리터당 밀리그램일 수도, 킬로파스칼일 수도 있습니다. 단위(여기서는 %sat)는 나중에 찾아볼 메타데이터가 아니라 데이터 그 자체의 일부입니다 — 바로 그래서 값과 단위는 둘이 아니라 분리할 수 없는 하나의 필드로 셉니다.
품질 플래그. 측정값이 신뢰받을 수 있는지를 기록하여 값 옆에 찍히는 작은 정수입니다. 익숙한 192 Good / 64 Uncertain / 0 Bad 삼총사는 레거시 OPC DA(legacy OPC DA)의 품질 바이트(byte, OPC는 공장 장비와 소프트웨어 사이에서 센서 데이터를 옮기는 오래된 산업 표준입니다)로, 그토록 많은 설치 장비가 옛 프로토콜을 쓰기에 여전히 어디서나 보입니다. 그 후속인 OPC UA는 단일 바이트를 더 풍부한 32비트 StatusCode로 대체하는데, 그 Good은 단순히 숫자 0이며, Bad나 Uncertain 측정값은 큰 코드 숫자를 지닙니다. 보정 중인 프로브는 Uncertain을 보고합니다. 보증할 수 없는 측정값은 결측값이 아니며 결코 좋은 값도 아닙니다. 플래그를 값과 함께 저장하는 것이, 나중의 감사가 그 숫자를 정직하게 다룰 수 있게 해줍니다. 우리는 두 품질 관례를 모두 연결성 장에서 풀어냅니다.
배치 ID(batch ID). 이 떠도는 측정값을 GMP(우수 제조 관리 기준, Good Manufacturing Practice — 이 장의 모든 기록이 견뎌내야 하는, 법적으로 의무화된 품질 체제) 배치 기록에 묶는 단 하나의 결합 키 — BATCH-2026-001 — 로, 연속적인 히스토리언 스트림과 이산적인 배치 사실을 다시 결합할 수 있게 합니다.

이 여섯 필드 기록이 공정 데이터의 원자(atom)이며, 그것이 바로 3권이 코드로 저장하는 모양입니다. 오픈소스 상류 바이오리액터(upstream-bioreactor) 장은 각 측정값을 (ts, tag, value, unit, quality, batch_id) 열을 가진 ts.sensor_reading 행에 기록합니다 — 같은 여섯 필드가 이제 구체적인 데이터베이스 행이 된 것입니다. 프로브 전선에서 그 행까지, 품질 플래그와 소스 시각을 처음부터 끝까지 보존하며 가는 여정이 바로 엣지 게이트웨이와 OPC UA / MQTT 연결성 계층의 일입니다.

같은 여섯 필드는 시맨틱 트리플(semantic triple)로도 — 4권이 바이오공정 지식 그래프를 짓는 데 쓰는 주어-술어-목적어 사실로 — 표현될 수 있으며, 해부학을 이렇게 읽으면 각 필드는 단지 저장되는 것이 아니라 기계가 추론할 수 있는 무언가가 됩니다. 단위에 묶인 값은 정확히 4권이 타입 지정된 값(typed value)이라 부르는 QUDT(Quantities, Units, Dimensions and Types — 발표된 단위 어휘) 규율입니다. 벌거벗은 47.9 대신, 측정값은 크기를 타입 지정된 숫자로, 단위를 해석 가능한 식별자로, 그리고 수량 종류(quantity kind)(여기서는 산소 포화도)를 별도의 사실로 지니는 수량 값(quantity value)이 되어, 퍼센트가 하류에서 결코 킬로파스칼로 오독될 수 없습니다. 한편 태그 신원 BR101.DO.PV는 지역 공장 키이며, 두 시스템이 저마다의 "BR101"을 들고 있는 순간 식별자와 단위 장(identifiers-and-units chapter)이 그 주위에 지어진 그 화해(reconciliation) 문제가 생깁니다 — 그 처방은 모든 시스템에게 같은 프로브를 뜻하는 전역적으로 고유한 식별자(IRI, internationalized resource identifier)이지, 공장 사이에서 충돌하는 이름이 아닙니다. 튜를(Turtle, RDF 그래프의 표준 텍스트 구문)로 쓰면, 하나의 DO 측정값은 이렇게 읽힙니다.

# 시맨틱 트리플로서의 DO 측정값 하나 — 단위와 품질 플래그가 문자열이 아니라 추론되는 사실이 됩니다
bp:reading-DO-0042 a qudt:QuantityValue ;
    qudt:numericValue "47.9"^^xsd:float ;   # 값, 숫자로 타입 지정됨
    qudt:hasUnit unit:PERCENT ;              # 단위, 열 머리글이 아니라 IRI로
    bp:fromTag "BR101.DO.PV" ;               # 구조화된 asset.measurement.role 태그
    bp:qualityFlag "Good" ;                  # OPC 품질 바이트, 정규화됨
    bp:partOfBatch bp:BATCH-2026-001 ;       # 결합 키, 이제 그래프 속 엣지
    prov:generatedAtTime "2026-06-13T09:00:10Z"^^xsd:dateTime .   # 소스 시각

그 prov:generatedAtTime은 우연이 아닙니다. 소스 시각 대 수집 시각의 구분은 바로 엔터티가 언제 생성되었는가 대 활동이 언제 그것을 기록했는가라는 PROV-O(W3C 출처(provenance) 어휘) 질문이며, 그 둘을 별개의 사실로 모델링하는 것이 기록을, 감사자의 질의가 확인할 수 있는 형태로 동시적이게 유지합니다. 같은 규율이 제약을 바라기만 하는 것이 아니라 강제할 수 있게 해줍니다. SHACL 셰이프(Shapes Constraint Language, 그래프가 요구된 구조를 갖추었는지 검증하는 것)는 "저장된 모든 수량 값은 단위를 지닌다 — 벌거벗은 숫자는 없다"라는 규칙을 게이트로 삼아, 단위 없이 도착하는 측정값을 거부할 수 있는데, 정확히 릴리스 게이트와 SHACL 장(release-gate-and-SHACL chapter)이 실행 가능하게 만드는 그 릴리스 게이트 메커니즘입니다. 그리고 공장의 데이터 관리자는 여섯 필드 원자를 역량 질문(competency question) — 데이터가 답할 수 있어야 하는 질문, 이를테면 "BATCH-2026-001에서 품질 플래그가 Good이 아닌 모든 DO 측정값을 반환하라" — 으로 던지고, 그래프에 대한 단 하나의 SPARQL 질의로 답할 수 있습니다. 요점은 히스토리언이 트리플 스토어가 되어야 한다는 것이 아니라, 여섯 필드가 이미 작고 잘 형성된 시맨틱 기록이며, 그것을 공유된 어휘로 이름 짓는 것이 한 공장의 측정값을 다른 시스템에게, 규제 당국의 질의에게, 또는 수년 뒤의 모델에게 읽힐 수 있게 만든다는 것입니다.

측정된 의미로서의 PAT: 화학계량 모델과 검증된 해석

라만 스펙트럼은 글루코스 농도가 아닙니다. 그것은 수천 개의 강도 숫자입니다. 그 원시 스펙트럼을 "글루코스가 리터당 4.2 그램"으로 바꾸려면 화학계량 모델(chemometric model) — 미리 구축되고 보정된 수학적 레시피로, 스펙트럼 지문을 농도로 사상(mapping)하는 것 — 이 필요합니다 [3][7]. 계측기는 감지하고, 모델은 해석합니다. 그 레시피를 만드는 일 자체가 하나의 소프트웨어 작업입니다. 실무자는 보통 전용 화학계량 패키지 — Eigenvector Research의 PLS_Toolbox, Sartorius의 SIMCA, 또는 JMP Pro 같은 범용 통계 도구 — 에서 그러한 모델을 적합(fitting)시키며, 대개 스펙트럼을 알려진 기준값에 연결하는 부분 최소제곱(partial-least-squares, PLS) 회귀를 씁니다.

결정적으로, 모델에는 결코 원시 스펙트럼이 그대로 들어가지 않습니다. 측정된 스펙트럼은 화학과는 아무 상관이 없는 잡음 변동을 함께 지닙니다 — 형광이나 미광(stray light)에서 비롯되어 천천히 솟는 기준선(baseline), 프로브 오염이나 변하는 탁도(turbidity)에서 오는 전반적인 스케일 이동, 그리고 무작위 계측기 잡음입니다. 그래서 먼저 고정된 순서의 전처리(preprocessing) 단계가 적용됩니다. 떠도는 바닥을 빼는 기준선 보정, 곱셈적 스케일을 제거하는 표준 정규 변량(standard normal variate, SNV) 같은 정규화, 그리고 흔히 곡선을 매끄럽게 하면서 화학적으로 유의미한 봉우리를 날카롭게 하는 사비츠키-골레이 도함수(Savitzky-Golay derivative)입니다. 오직 정제된 스펙트럼만이 회귀에 도달합니다. 이것이 데이터 관리에 중요한 까닭은 전처리 레시피가 방법의 일부이기 때문입니다. 수년 뒤에 결과를 다시 도출한다는 것은, 원시 스펙트럼만이 아니라 그 숫자를 만들어낸 정확한 전처리와 모델 버전까지 저장해 두는 것을 뜻합니다 — 원시 파일만으로는 결코 충분하지 않은 또 하나의 이유입니다.

보정된 모델이라고 영원히 보정된 채로 있는 것도 아닙니다. 프로브와 그 모델은 드리프트(drift)합니다. 전기화학적 pH나 DO 프로브는 물리적으로 노화합니다 — 막(membrane)이 오염되고, 기준 전극(reference electrode)이 이동합니다 — 그래서 일정에 따라 버퍼 표준물(buffer standard)에 대해 다시 영점을 맞춰야 합니다. 분광 모델은 더 미묘하게 드리프트합니다. 그것은 특정 세포주(cell line), 배지(medium) 로트, 프로브로 학습되었는데, 그중 어느 하나라도 바뀌면 스펙트럼에서 농도로의 사상이 서서히 들어맞지 않게 되어, 스펙트럼은 멀쩡해 보여도 예측된 글루코스가 참값에서 슬그머니 벗어납니다. 이를 잡아내려면 주기적인 기준 시료와 유지보수 규율 — 재보정, 모델 갱신, 그리고 ICH Q14가 방법의 수명주기 전반에 걸쳐 기대하는 변경 관리(change control, 검증된 방법에 대한 어떤 변경이든 시행하기 전에 검토하고 승인하는 공식적이고 문서화된 절차) — 이 필요합니다. 따라서 프로브 측정값은 그 뒤에 있는 보정만큼만 신뢰할 수 있습니다.

머신러닝 쪽의 두 가지 주의가 그 보정을 정확히 얼마나 신뢰할 수 있는지를 날카롭게 하며, 둘 다 조용히 틀리기 쉽습니다. 첫째는 모델이 신뢰받기 전에 어떻게 검증되는가입니다. 단일 배치 안에서 수집된 스펙트럼으로 적합된 화학계량 모델은 같은 배치의 스펙트럼으로 채점되면 후한 정확도를 보고합니다 — 몇 분 간격의 연속 측정값은 거의 동일하므로, 모델은 사실상 이미 본 데이터로 채점되는 셈이며, 이는 데이터 누설(data leakage)(테스트 세트의 정보가 학습으로 새어 들어가 점수를 부풀리는 것)의 한 형태입니다. 정직한 시험은 배치 단위 제외 교차검증(leave-one-batch-out cross-validation)입니다 — 배치 전체를 따로 떼어 두고 나머지로 학습한 뒤, 모델이 본 적 없는 배치에서만 채점하여, 높은 숫자가 암기된 배치 내 잡음이 아니라 새 배양으로의 진짜 일반화를 반영하게 합니다. 5권의 모델과 검증 장(models-and-validation chapter)은 이 배치 단위 분할(batch-grouped split)을 어떤 소프트 센서 숫자든 인정받게 만드는 게이트로 삼습니다. 둘째 주의는 적용 범위(applicability domain, AD) — 모델이 실제로 학습된 스펙트럼의 영역 — 입니다. 그 영역 밖으로 드리프트한 스펙트럼(새 배지 로트, 오염된 프로브, 낯선 매트릭스)은 모델이 외삽(extrapolate)해야 하는 것으로, 데이터 기반 모델이 가장 덜 신뢰할 수 있는 바로 그 지점이며, 잘 만들어진 소프트 센서는 그 숫자가 믿기기 전에 그러한 범위 밖 측정값을 표시합니다 — 다변량 공정 모니터링이 이미 쓰는 바로 그 호텔링 T²(Hotelling T²)와 제곱 예측 오차(squared-prediction-error, SPE) 검사입니다. 결정적으로, 모델 드리프트는 공정 드리프트와 같지 않습니다. 바이오리액터 자신의 신호에 대한 관리도(control chart)는 공정이 헤매는 것을 잡고, 모델의 예측-마이너스-기준 잔차(residual)에 대한 관리도는 모델이 낡아 가는 것을 잡습니다 — 두 개의 별개 모니터인데, 모델은 공정이 관리 상태인데도 드리프트할 수 있고 그 반대도 가능하기 때문이며, MLOps 장(MLOps chapter)이 두 검출기를 그 둘레에 짓는 그 비대칭입니다. 이 모든 것이, 배치된 모델이 파일이 아니라 버전 관리되고 계보가 추적되는 객체(versioned, lineage-tracked object)인 까닭입니다. 정확한 학습 데이터셋(콘텐츠 해시로 고정됨), 전처리 레시피, 작동 범위, 그리고 검증 증거가 가중치(weight)와 함께 다니므로, "이 숫자를 만든 모델은 무엇이며, 어떤 데이터로 학습되었는가?"에 답할 수 있습니다 — 이 책이 데이터 무결성에서 되돌아오고 5권이 실행 가능하게 만드는 모델 계보(model-lineage) 규율입니다.

측정과 모델의 이 짝지음이 공정 분석 기술(Process Analytical Technology, PAT)의 핵심입니다. FDA의 2004년 지침은 PAT를 의도적으로 폭넓게 정의합니다. 장치들의 목록이 아니라, 핵심 품질 및 성능 속성을 시의적절하게 측정함으로써 제조를 설계하고 분석하고 제어하기 위한 시스템 — 그 목표는 끝에서 품질을 시험하는 것이 아니라 품질을 안에 구축하는 것 — 이라고요 [1]. 그 관점에서 보면, 센서는 그 데이터가 실제로 공정을 이해하고 조종하는 데 쓰일 때 비로소 "PAT"가 됩니다.

참고

스펙트럼을 농도로 변환하는 화학계량 모델은 뒤 장들이 소프트 센서(soft sensor)라 부르는 것의 씨앗입니다 — 어떤 물리적 프로브도 직접 측정하지 않은 값을, 다른 신호들로부터 추론해 보고하는 "가상 계측기"입니다. 우리는 머신러닝과 소프트 센서를 다루는 장에서 소프트 센서를 제대로 만납니다. 지금은 다만 그것이 소비하는 데이터 모양이 여기서 만들어진 스펙트럼임을 알아두세요.

PAT는 상류만의 이야기가 아닙니다. 같은 인라인 분광법이 점점 더 하류(downstream) 정제 공정으로 겨눠지는데, 거기서 그것이 만드는 데이터는 느린 실험실 결과가 아니라 즉각적인 의사결정을 떠받칩니다. 첫 정제 단계인 포획 크로마토그래피(Protein A capture) — 정제된 수확물에서 항체를 붙잡아 내는 친화성 컬럼으로, 1권의 포획 크로마토그래피 장이 설명합니다 — 는 이미 풍부한 인라인 스트림을 내뿜습니다. 순수한 항체가 언제 나오는지를 표시하는 높은 용출 봉우리를 지닌 UV-280 흡광도 트레이스이며, 그에 맞추어 작업자가 풀링 윈도우(pooling window)(용출액을 제품으로 모으는 두 컷 포인트 사이의 구간)를 설정합니다. 포획 중의 인라인 UV와 라만은 그 풀링 결정을 실시간으로 구동하고, 봉우리가 용출되는 동안 제품 관련 품질을 모니터링할 수도 있는데, 상류 라만이 돌리는 바로 그 PAT 루프가 이제 하류 단위 공정을 조종하는 것입니다. 다른 하류 단계도 같은 계측기에 기댑니다. 전도도와 pH 프로브가 바이러스 불활성화(viral inactivation)의 저(低)pH 유지 단계를 게이트하고, 인라인 UV 트레이스가 연마(polishing) 단계의 분리를 추적하며, 바이러스 필터(viral filter)에 대한 압력 강하 또는 확산 시험은 그 자체로 측정된 무결성(integrity) 판정입니다. 각각은 이 장의 분류 체계가 여전히 다스리는, 그 모양과 위치를 지닌 데이터 소스입니다.

이러한 모델 기반 방법이 이제 품질 의사결정에 쓰이기 때문에, 규제 당국은 그것을 관리되는 분석 절차로 다룹니다. 2023년에 채택된 국제 가이드라인 ICH Q14는 그러한 절차 — NIR 같은 다변량, 분광 방법을 포함하여 — 를 적절한 보정과 지속적인 수명주기(lifecycle) 모니터링과 함께 개발하는 과학 및 위험 기반(risk-based) 방식을 제시합니다 [8]. 같은 기대는 대서양 양안의 구속력 있는 규제에도 나타납니다. 미국에서는 21 CFR 211.160과 211.165가 결과가 출하를 뒷받침하기 전에 시험 방법이 검증(validation)되고 장비가 적격성 평가(qualification)를 받을 것을 요구하며 [13], 유럽연합에서는 EU Annex 11(EU GMP의 전산화 시스템 부속서)이 그 4절에서 검증과 적격성 평가를, 1절에서 시스템 수명주기 전반에 걸친 위험 관리(risk management)를 요청합니다 [11]. 그곳에 이르기 위한 제약 업계의 실무 지침서인 GAMP 5(제2판, 2022)는 화학계량 모델이나 분석 계측기가 거치게 되는 위험 기반 검증 수명주기를 제시합니다 [14]. 그 계측기가 GMP 데이터를 만들어낼 수 있으려면 먼저 표준 3단계 순서로 적격성 평가를 받습니다 — IQ / OQ / PQ(설치·운영·성능 적격성 평가(Installation, Operational, Performance Qualification): 올바르게 설치되고, 올바르게 작동하며, 실제 작업 부하에서 올바르게 성능을 내는지에 대한 증명)로, CSV-to-CSA 장(CSV-to-CSA chapter)이 온전히 펼치는 V-모델 단(rung)들입니다. 다시 말해, 계측기는 중립적인 사실 기계가 아닙니다. 그것은 검증되고 버전 관리되는 데이터 소스입니다.

그 적격성 평가 또한 일회성 사건이 아닙니다. 계측기와 그 모델은 사이트와 규모 사이를 옮겨 다니기 때문입니다. PAT 방법이 개발 실험실에서 제조 공장으로 기술 이전(transfer)되거나 10리터에서 2,000리터 바이오리액터로 스케일업(scale-up)될 때, 화학계량 모델이 그 이동을 손대지 않은 채 살아남는 일은 드뭅니다. 다른 프로브, 다른 용기 기하, 다른 광경로가 스펙트럼을 충분히 이동시켜, 보정을 받는 사이트에서 다시 검증하고 흔히 재보정(re-calibration)해야 합니다 — 알려진 제조 현장 통점인데, 멀티사이트 라만 모델은 이전 가능하게(transferable) 만들기가 악명 높게 어렵고, 가교되지 않은 규모나 프로브 변경을 넘어 신뢰되는 모델은 조용히 외삽하고 있는 것이기 때문입니다. 규율 있는 해법은 명시적인 보정 이전(calibration-transfer) 단계에 더해 변경 관리하의 재검증으로, 옮겨진 방법을 물려받은 것이 아니라 새로운 적격성 평가로 다루는 것입니다. 같은 논리가 공유 장비의 세척 검증(cleaning validation)을 다스립니다. 여러 제품에 걸쳐 재사용되는 프로브나 컬럼은 캠페인 사이에 문서화된 한계까지 깨끗함이 증명되어야 하며, 그것을 증명하는 데이터는 이 장의 1차 소스가 만들어내는 또 하나의 관리되는 기록입니다.

Annex 11은 다시 쓰이는 중

오늘날 발효 중인 Annex 11은 2011년의 것입니다. 상당히 확장된 개정 초안(revised draft)이 2025년 7월에 공개 의견 수렴을 위해 발표되었고(의견 수렴은 그해 10월에 마감되었으며, 최종 확정은 2026년으로 예상됩니다), 이 부속서를 감사 추적(audit-trail) 검토, 클라우드 및 SaaS 서비스 제공자, 네트워크로 연결된 다중 시스템 환경 전반의 데이터 무결성, 그리고 — 처음으로 — AI/ML로까지 넓히는 한편, 이 책이 3부에서 되돌아오는 ALCOA+ 원칙을 공식화합니다 [15]. 오늘 출하를 위해 배치되는 화학계량 모델은 그 진행 방향을 염두에 두고 구축되어야 합니다.

계측기가 돌려주는 데이터

품질 실험실의 분석 계측기: HPLC, CE, LC-MS, ddPCR

모든 질문에 탱크 속 프로브가 답할 수 있는 것은 아닙니다. 제품 품질에 대한 가장 결정적인 측정 — 이것이 정말로 맞는 항체인가, 그리고 얼마나 순수한가? — 은 품질 관리(quality control, QC) 실험실의 크고 오프라인인 계측기에서 나옵니다. 1권은 이러한 계측기가 뒷받침하는 물리적 분석 및 제제 개발 작업을 설명하며, QC HPLC가 분석적으로 본뜨는 크로마토그래피는 제품을 정제하기 위해 포획 크로마토그래피(capture chromatography)에서 분취(preparative)로 쓰이는 바로 그 분리 화학입니다.

품질 관리 실험실의 실험실 원심분리기 — 오프라인 시료 전처리 계측기 품질 관리(QC) 실험실의 실험실 원심분리기 — HPLC·LC-MS·CE 같은 분석 계측기가 제품 품질 속성을 정의하는 크로마토그램과 결과를 내놓기 전에, 시료를 준비하고 정제하는 오프라인 일꾼입니다. 실험실 원심분리기. 이미지: Ivangiesen, CC0(퍼블릭 도메인 헌정), Wikimedia Commons.

대표적인 일꾼들은 다음과 같습니다.

HPLC / UPLC — 고성능(또는 초고성능) 액체 크로마토그래피(high- or ultra-performance liquid chromatography). QC 분석가라면 망설임 없이 이름을 댈 상용 플랫폼 — Waters ACQUITY UPLC, Agilent 1290 Infinity II, Shimadzu Nexera 계열 — 에서 돌립니다. 시료가 충전된 컬럼(column)을 통과하는데, 거기서 서로 다른 분자가 서로 다른 속도로 이동해 분리되어 나옵니다. 계측기는 크로마토그램(chromatogram)을 기록합니다. 시간에 따른 검출기 신호의 곡선으로, 그 봉우리(peak)들이 각 성분이 얼마나 있는지를 드러냅니다. 아래 예는 크기 배제 크로마토그래피(size-exclusion chromatography, SEC) 순도 분석입니다 — 분자를 물리적 크기로 분류하는 방식이라, 온전한 항체, 여러 복사본이 뭉쳐 더 커진 응집체, 그리고 더 작게 깨진 단편이 각자 저마다의 머무름 시간(retention time, 주입 시점부터 재어, 한 성분이 컬럼을 떠나는 시각)에 나옵니다. 그러한 분석 한 번의 처리된 결과는 본질적으로 작은 표입니다 — 각 행이 하나의 봉우리이며 — 이렇게 생겼습니다.

머무름 시간(retention time, 분)	봉우리 면적(peak area)	분석물(analyte)
7.83	1,284,500	주 항체 (단량체, monomer)
6.41	51,200	고분자량(high-molecular-weight, HMW) 응집체
9.12	18,640	저분자량(low-molecular-weight, LMW) 단편

더 큰 응집체가 먼저(6.41분에) 용출되고 더 작은 단편이 마지막(9.12분에)에 용출됩니다 — 컬럼이 작은 다공성 비드(porous bead)로 채워진 SEC의 전형적 특징입니다. 작은 분자는 비드 기공(pore) 속으로 우회해 들어가 지체되는 반면, 더 큰 분자는 기공에서 배제되어 더 짧은 길로 곧장 통과해 먼저 용출됩니다. 각 봉우리 면적을 전체로 나누면 순도 퍼센트가 나옵니다. 여기서 단량체는 항체 질량의 약 95%입니다. 이 세 개의 숫자는 수만 개의 원시 점으로 이루어진 크로마토그램을 압축한 것일 수 있습니다 — 바로 이것이 원시 파일과 처리된 결과를 둘 다 보관해야 하는 이유이며, 아래에서 다시 다룰 구분입니다.

CE — 모세관 전기영동(capillary electrophoresis). 분자를 전기장 아래 가는 관으로 밀어 넣어 분리하며, 마찬가지로 봉우리를 지닌 트레이스(trace)를 산출합니다.
질량분석(mass spectrometry, MS) — 보통 크로마토그래피와 짝지어 LC-MS로 쓰이며, 분자의 무게를 비범한 정밀도로 잽니다. Rogers와 동료들은 고분해능 MS 다속성 방법(multi-attribute method, MAM)을 소개했습니다 — 바이오의약품의 많은 품질 속성을 한 번의 LC-MS 분석으로 정량하여 특성 분석, QC 시험, 출하/처분(release/disposition) 결정을 뒷받침하려는 방법입니다 [9]. (Rogers와 동료들이 2015년에 발표했을 당시, MAM은 일부 시설에서 이미 사용되고 있던 발전 중인 방법이었지만, 아직 출하 시험에 보편적으로 채택되지는 않았습니다.) 그 데이터는 고차원입니다. 크로마토그램을 따라가는 모든 지점에서의 질량 스펙트럼입니다.
ddPCR — 디지털 액적 PCR(droplet digital PCR). 특정 DNA 분자를 하나씩 세며, 예컨대 잔류 숙주세포 DNA — 살아 있는 생산 세포에서 비롯되어 최종 의약품에서 반드시 제거되어야 하는 미량의 DNA로, 그 남은 미량을 세는 것 — 를 측정하는 데 쓰입니다. 그 출력은 스펙트럼이나 크로마토그램, 이미지가 아니라 단일 스칼라/계수(count) 결과 — 하나의 농도 — 이므로, 그 데이터 모양은 스칼라, 곧 아래에 정리된 모양들 가운데 가장 단순한 것입니다.

이들 계측기는 혼동하기 쉽지만 반드시 구분해 두어야 하는 두 층의 데이터를 만들어냅니다. 원시 파일(raw file)(계측기의 완전한 원천 기록 — 그것이 포착한 모든 데이터 점)과 처리된 결과(processed result)(그로부터 도출된 적분 봉우리 면적 — 각 봉우리 아래의 면적으로, 곡선 아래 면적을 재는 수학인 적분으로 구함 — 계산된 농도, 합격/불합격 판정)입니다. 원시 파일은 증거이고, 처리된 결과는 결론입니다. 건전한 데이터 관리는 둘 다 보존합니다.

데이터 모양과 그것이 중요한 이유: 스칼라, 스펙트럼, 크로마토그램, 이미지

이 모든 계측기를 관통하는 하나의 패턴이 있습니다. 각 계열은 특유의 데이터 모양을 만들어내며, 그 모양이 데이터를 어떻게 저장하고, 크기를 잡고, 통합해야 하는지를 좌우합니다 [2][3][9]. 마지막 열의 크기와 속도는 예시적인 자릿수 규모입니다 — 그 참고문헌에서 가져온 수치가 아니라, 규모를 전달하기 위한 저자의 대략적인 추정치입니다.

계측기	데이터 모양	대략적인 크기와 속도
단변량 프로브 (온도, pH, DO, 용존 이산화탄소, 정전용량)	스칼라 시계열	채널당 하나의 숫자, 대략 초당 한 번에서 분당 한 번씩 기록
분광 프로브 (라만, NIR, 형광)	스펙트럼: 벡터	스캔당 수백에서 수천 개의 숫자
크로마토그래피 (HPLC, CE)	크로마토그램: 신호-대-시간 곡선	주입(injection)당 수천 개의 점
질량분석 (LC-MS / MAM)	시간에 걸친 고차원 스펙트럼	분석당 메가바이트에서 기가바이트
이미징 / 현미경	이미지 (픽셀 격자)	큰 이진(binary) 파일

스칼라 측정값은 저장하기는 사소하지만 쉴 새 없이 도착하므로, 그 부피는 수 주에 걸친 배양 동안의 지속적인 기록 속도에서 나옵니다. (프로브는 사실상 연속적으로 변환(transduce)하며, 저장소에 도달하는 것은 히스토리언이 기록하도록 설정된 주기 — 보통 초당 한 번에서 분당 한 번, 흔히 압축으로 더 솎아진 것 — 입니다. 이 점은 공장 정보 시스템에서 다시 다룹니다.) 스펙트럼은 하나의 타임스탬프가 찍힌 벡터입니다 — 그리고 단일 숫자만을 위해 설계된 데이터베이스는 그것을 우아하게 담는 데 애를 먹습니다. 크로마토그램은 그것을 해석하는 소프트웨어와 방법 없이는 거의 의미가 없는 곡선입니다. 질량분석 분석 하나는 기가바이트가 될 수 있습니다. 스칼라만을 위해 저장 공간을 계획하면, 첫 라만 프로브나 LC-MS 계측기가 시스템을 압도할 것입니다.

데이터 모양이 하류에서 중요한 이유: 통합의 도전

위험은 단지 저장 부피가 아니라 조용한 손실입니다. 풍부하고 고차원인 출력이 스칼라만을 위해 설계된 시스템을 만나면, 가장 저항이 적은 길은 편리한 요약값을 남기고 원시 데이터를 버리는 것입니다 — 그리고 파이프라인의 어느 것도 그 일이 일어났다고 반드시 경고하지는 않습니다. 라만 스펙트럼은 "글루코스 4.2 g/L"가 되고 그 뒤의 수천 개 강도는 증발합니다. 크로마토그램은 세 개의 봉우리 면적이 되고 밑바탕 곡선은 사라집니다. 스칼라는 숫자가 곧 데이터이기에 살아남습니다. 스펙트럼과 크로마토그램은 그 요약값이 답 전체처럼 보이기에 위험에 처합니다.

데이터 모양이 통합을 거치며 어떻게 되는지의 3레인 비교: 스칼라 DO 측정값은 숫자가 곧 데이터이므로 통째로 저장되어 통과하고, 라만 스펙트럼은 단일 글루코스 값으로 납작해지며 원시 스펙트럼이 버려져 더 이상 재현 불가능하고, HPLC 크로마토그램은 봉우리 표로만 저장되어 밑바탕 곡선이 버려지므로 재적분이 불가능하며, 한 패널은 ALCOA Original과 21 CFR 211.194 및 EU Annex 11의 원시 데이터 보존 규칙을 인용하여 원시 데이터를 결과와 함께 보관하라는 규칙을 명시합니다. 세 가지 모양, 통합을 거치며 갈리는 세 가지 운명: 스칼라는 온전히 살아남고, 스펙트럼과 크로마토그램은 원시 데이터를 의도적으로 보존하지 않는 한 조용히 요약값으로 납작해질 수 있습니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

미해결 과제: 조용한 데이터 모양 손실

이것은 바이오공정 데이터에서 진정으로 열려 있는 문제 가운데 하나이며, 더 큰 디스크를 사는 것으로 해결되지 않습니다. 고차원 측정값 — 라만 스펙트럼, LC-MS 분석, 크로마토그램 — 은 통합 시점에 일상적으로 요약 통계로 축소되고 원시 신호는 결코 보존되지 않습니다. 받는 히스토리언이나 LIMS(실험실 정보 관리 시스템, Laboratory Information Management System — 품질 실험실의 시료와 결과를 기록하는 원장(database of record)으로, 공장 정보 시스템에서 만납니다)에 벡터나 이진(binary) 계측기 파일을 위한 자연스러운 자리가 없기 때문입니다. 요약값은 오늘의 의사결정을 내리기에 충분하므로 원시 데이터는 버려집니다. 그 대가는 나중에 드러납니다. 화학계량 모델을 재보정해야 할 때, 규제 당국이 보정된 기준선으로 크로마토그램을 재적분해 달라고 요청할 때, 또는 오래된 배치에 새로운 분석 질문이 제기될 때, 증거는 그냥 사라지고 없습니다.

그것은 단지 불편한 것이 아닙니다 — 그것은 재현성을 깨뜨리고, ALCOA+(그 글자들이 귀속 가능(Attributable)·판독 가능(Legible)·동시적(Contemporaneous)·원본(Original)·정확(Accurate), 그리고 "+" 확장인 완전(Complete)·일관(Consistent)·영속(Enduring)·이용 가능(Available)을 뜻하는 데이터 무결성 프레임워크로, 뒤 장 하나를 할애합니다)의 Original(원본) 원칙을 위반합니다. 여기서 Original은 원시 계측기 파일, 곧 참된 원천 기록을 뜻합니다. 봉우리 표는 도출된 결론이지 원본이 아니며, 원시 데이터를 버리면 Complete(완전) 원칙도 함께 위반됩니다 — 기록이 더 이상 시험 중 확보된 모든 데이터를 담지 않기 때문입니다. 규제 당국은 원시 데이터 대 처리된 데이터에 대해 명확합니다. 미국 21 CFR 211.194는 완전한 실험실 기록이 시험 과정에서 확보된 모든 데이터를 포함할 것을 요구하고, EU의 Annex 11 5절은 데이터가 다른 형식이나 시스템으로 전송될 때 그 전송이 원본을 잃지 않을 것을 요구합니다 [10][11]. 원시 파일과 처리된 결과는 전자 기록(electronic record)이므로, 그것을 보관하는 크로마토그래피 데이터 시스템은 곧바로 21 CFR Part 11과 EU Annex 11 — 누가 언제 왜 기록을 바꾸었는지에 대한 안전하고 시각이 찍히며 변조가 드러나는 감사 추적(audit trail)을 요구하는 전자 기록 및 서명 규칙 — 의 적용을 받아, 보정된 기준선으로 크로마토그램을 재적분하는 일이 첫 답을 조용히 덮어쓰는 대신 검토 가능한 흔적을 남기게 합니다. 그 시스템이 실제로 그러한 통제를 강제하는지 증명하는 것이 전산화 시스템 검증(computerized system validation)의 일이며, 그것을 하는 현대의 위험 기반 방식 — 전산 소프트웨어 보증(Computer Software Assurance, CSA), 곧 모든 것을 똑같이 문서화하는 데서 환자 위험이 가장 높은 곳에 보증 노력을 쓰는 쪽으로의 FDA의 전환 — 이 CSV-to-CSA 장(CSV-to-CSA chapter)의 주제입니다. 봉우리를 적분하고 합격/불합격을 결정하는 기능은 환자에게 영향을 주는 Critical(중대) 기능이라 엄격한 스크립트 증명을 받는 반면, 자유 텍스트 코멘트 필드는 그렇지 않습니다 — 같은 기록, 매우 다른 두 수준의 정밀 검토입니다. 다변량 공정 모니터링의 데이터 과제를 조사한 Rathore와 동료들은 공학적 관점에서 같은 점을 지적합니다. 분광 및 고차원 방법의 가치는, 모델을 구축하고 감사하고 제품 수명주기에 걸쳐 유지할 수 있도록 밑바탕 데이터가 포착되고 관리될 때에만 실현됩니다 [12]. 이것을 실무에서 미해결로 만드는 것은, 그 구조적 해법 — 가장 풍부한 모양을 원천 그대로 저장하고, 원시와 처리된 데이터를 나란히 두며, 둘 다를 하류로 전파하는 것 — 이 수십 년의 스칼라 우선 히스토리언 설계와, 다음 의사결정에 필요한 것만 남기려는 평범한 압력에 거스른다는 점입니다. 데이터 무결성과 디지털 스레드 장이 이 문제로 되돌아옵니다. 그것이 함의하는 설계 규칙은 단순하고 가차 없습니다. 모든 시스템을 그것이 마주할 가장 단순한 데이터 모양이 아니라, 언젠가 마주할 가장 풍부한 데이터 모양에 맞추어 크기를 잡으라.

왜 중요한가

이 책의 모든 뒤 개념 — 공정 제어, 전자 배치 기록(electronic batch record), 데이터 무결성(data integrity), 분석 — 은 이러한 1차 소스 위에 놓여 있습니다. 계측기의 측정 위치를 모르면, 그 데이터가 얼마나 신선한지, 또는 그것이 실시간 제어를 구동할 수 있는지를 알 수 없습니다. 계측기의 데이터 모양을 존중하지 않으면, 우리는 정보를 슬그머니 떨어뜨리는 저장과 통합을 만들게 됩니다. 라만 스펙트럼이 단일 숫자로 납작해지거나, 크로마토그램이 그 밑바탕 곡선은 버려진 채 판정 하나로 저장되는 식으로요. 소스의 모양은 그 하류에 있는 모든 시스템의 첫 번째 설계 제약입니다.

실제 현장에서

현대의 연속 바이오 제조는 인라인과 온라인 PAT에 크게 의존합니다. 흐르는 공정은 행동에 나서기 전 수 시간씩 오프라인 실험실 결과를 기다릴 수 없기 때문입니다. 인라인 라만과 NIR 프로브는 화학계량 모델과 짝을 이루어, 그러한 시설이 글루코스, 제품 역가(product titer)(세포가 만들어낸 항체의 농도로, 리터당 그램 단위 — 배양이 얼마나 생산적인지를 나타내는 대표 지표입니다), 불순물을 연속적으로 지켜보고 즉석에서 조정하게 해줍니다 — FDA가 2004년에 짜낸 바로 그 PAT 비전입니다 [1][6]. 한편 QC 실험실의 오프라인 LC-MS와 다속성 방법은 제품 품질에 대한 결정적이고 규제 등급의 판정을 제공합니다 [9]. 진짜 공장은 두 세계를 동시에 돌립니다 — 제어를 위한 빠르고 연속적인 신호와, 출하를 위한 느리고 결정적인 결과 — 그리고 데이터 아키텍처는 둘 다를 떠받쳐야 합니다.

핵심 용어

GMP(우수 제조 관리 기준, Good Manufacturing Practice) — 배치 기록을 포함한 생산 기록이 반드시 보관되어 사찰을 견뎌내야 하는, 법적으로 의무화된 품질 체제.
인라인 / 온라인 / 앳라인 / 오프라인(In-line / on-line / at-line / off-line) — 측정이 일어날 수 있는 네 가지 장소로, 흐름 안에서부터 멀리 떨어진 실험실까지, 대략 가장 빠른 것에서 가장 결정적인 것 순으로 늘어선 것.
단변량 프로브(univariate probe) — 한 번에 하나의 숫자를 돌려주는 센서(온도, pH, 용존 산소, 용존 이산화탄소, 정전용량/바이오매스).
pH — 액체가 얼마나 산성인지를 나타내는 숫자.
용존 산소(dissolved oxygen, DO) — 세포가 숨 쉬는 데 쓸 산소가 액체 속에 얼마나 있는지.
정전용량 / 바이오매스 프로브(capacitance / biomass probe) — 살아 있는 세포가 전기장에 어떻게 반응하는지로부터 생존 세포 밀도(바이오매스)를 추정하는 프로브.
생존 세포 밀도(viable cell density, VCD) / 바이오매스(biomass) — 배양액에 살아 있는 세포가 얼마나 있는지; 정전용량 프로브로 전기적으로, 또는 라만으로 광학적으로 추정됨.
분광 프로브(spectroscopic probe) — 많은 파장에 걸쳐 스펙트럼을 기록하는 다변량 계측기(라만, NIR, 형광, 전체 스펙트럼 UV-Vis).
스펙트럼(spectrum) — 파장마다 하나씩의 강도 값으로 이루어진 벡터로, 많은 화학종을 한꺼번에 반영함.
화학계량 모델(chemometric model) — 스펙트럼을 농도나 다른 속성으로 변환하는 보정된 수학적 레시피(보통 부분 최소제곱 회귀).
스펙트럼 전처리(spectrum preprocessing) — 화학계량 모델이 보기 전에 원시 스펙트럼에 적용되는 고정된 순서의 정제 단계(기준선 보정, 표준 정규 변량 정규화, 사비츠키-골레이 도함수); 방법의 일부이므로 결과를 재현하려면 저장되어야 함.
프로브 / 모델 드리프트(probe / model drift) — 물리적 프로브가 노화하거나 화학계량 모델의 학습 조건이 더 이상 공정과 맞지 않으면서 정확도가 서서히 떨어지는 것; 일정에 따른 재보정, 기준 시료, 변경 관리하의 모델 유지보수로 바로잡음.
공정 분석 기술(Process Analytical Technology, PAT) — 단지 센서 자체가 아니라, 시의적절한 측정을 통해 제조를 설계하고 분석하고 제어하는 FDA 프레임워크.
소프트 센서(soft sensor) — 어떤 값을 직접 측정하기보다 다른 신호들로부터 추론하는 가상 계측기.
역가(titer) — 배양액 속 제품(여기서는 항체)의 농도로, 리터당 그램 단위; 한 배치가 얼마나 만들어냈는지를 나타내는 대표 지표.
LIMS — 실험실 정보 관리 시스템(Laboratory Information Management System), 품질 실험실의 시료, 시험, 결과를 기록하는 원장.
HPLC / UPLC — 혼합물을 분리하고 크로마토그램을 기록하는 액체 크로마토그래피.
크로마토그램(chromatogram) — 시간에 따른 검출기 신호의 곡선으로, 그 봉우리가 성분을 정량함.
크기 배제 크로마토그래피(size-exclusion chromatography, SEC) — 분자를 물리적 크기로 분리하는 크로마토그래피 방식으로, 응집체·단편 대비 단량체 순도를 측정하는 데 쓰임; 더 큰 종이 먼저 용출됨.
질량분석(mass spectrometry, MS / LC-MS) — 분자의 무게를 정밀하게 재는 계측기; 다속성 방법(MAM)의 기반.
다속성 방법(multi-attribute method, MAM) — 많은 제품 품질 속성을 한꺼번에 측정하는 단일 LC-MS 방법.
ddPCR — 디지털 액적 PCR(droplet digital PCR)로, 특정 DNA 분자를 하나씩 셈.
원시 파일 대 처리된 결과(raw file vs. processed result) — 계측기의 완전한 원천 기록과, 그로부터 도출된 적분·계산된 결론.
데이터 모양(data shape) — 계측기 출력이 취하는 구조적 형태: 스칼라, 스펙트럼 벡터, 크로마토그램, 또는 이미지.
소스 시각 대 수집 시각(source time vs. collection time) — 센서가 실제로 샘플링한 시각과 히스토리언이 그것을 기록한 시각; 동시적 기록은 소스 시각.
태그 신원(tag identity) — 하나의 신호를 수천 개 가운데 주소 지정 가능하게 만드는 구조화된 asset.measurement.role 이름(예: BR101.DO.PV).
품질 플래그(quality flag) — 측정값을 신뢰할 수 있는지를 기록하여 값 옆에 찍히는 작은 정수(레거시 OPC DA: 192 Good, 64 Uncertain, 0 Bad; OPC UA는 이를 Good이 0인 32비트 StatusCode로 대체함).
조용한 데이터 모양 손실(silent data-shape loss) — 스펙트럼, 크로마토그램, 또는 LC-MS 분석이 원시 데이터가 버려진 채 요약값으로 축소되어, 재현성과 ALCOA Original을 깨뜨리는 통합 실패.
시맨틱 트리플 / IRI / QUDT(semantic triple / IRI / QUDT) — 측정값을 공유된 어휘의 주어-술어-목적어 사실로 표현하는 것; IRI(internationalized resource identifier)는 프로브나 배치에 대한 전역적으로 고유한 이름이고, QUDT는 값의 단위와 수량 종류를 열 머리글이 아니라 기계 판독 가능한 식별자로 고정함.
SHACL / 역량 질문(SHACL / competency question) — SHACL(Shapes Constraint Language) 셰이프는 "모든 값은 단위를 지닌다" 같은 제약을 게이트하고, 역량 질문은 데이터가 답할 수 있어야 하는 질문(예: 한 배치의 Good 아닌 모든 DO 측정값)으로 단 하나의 SPARQL 질의로 답함.
배치 단위 제외 교차검증(leave-one-batch-out cross-validation) — 배치 전체를 따로 떼어 두고 본 적 없는 배치에서만 채점하여, 보고된 정확도가 배치 내 데이터 누설로 부풀려지지 않고 진짜 일반화를 반영하게 하는 화학계량 모델 검증법.
적용 범위(applicability domain, AD) — 모델이 학습된 스펙트럼의 영역; 그 밖의 측정값은 모델이 외삽하게 만드므로, 그 예측이 신뢰받기 전에 (호텔링 T² / SPE로) 표시되어야 함.
모델 드리프트 대 공정 드리프트(model drift vs. process drift) — 낡은 모델(예측 잔차에 대한 관리도로 잡음) 대 헤매는 공정(공정 신호에 대한 관리도로 잡음); 서로 다른 모니터를 요하는 별개의 실패.
IQ / OQ / PQ — 설치·운영·성능 적격성 평가(Installation, Operational, Performance Qualification): 계측기가 GMP 데이터를 만들기 전에 올바르게 설치·작동·성능을 내는지에 대한 3단계 증명.
보정 이전(calibration transfer) — PAT 방법이 새 사이트, 규모, 프로브로 옮겨질 때 스펙트럼이 충분히 이동해 원래 보정이 깨지므로, 화학계량 모델을 다시 검증하거나 재보정하는 명시적 단계.
ALCOA+ — GMP 기록이 충족해야 하는 데이터 무결성 원칙(귀속 가능·판독 가능·동시적·원본·정확, 그리고 완전·일관·영속·이용 가능); 원시 파일을 버리면 Original과 Complete를 위반함.
21 CFR Part 11 / 감사 추적(audit trail) — 누가 언제 왜 기록을 바꾸었는지에 대한 안전하고 시각이 찍히며 변조가 드러나는 로그를 요구하는 전자 기록 및 서명 규칙(EU 대응물은 Annex 11).
전산 소프트웨어 보증(Computer Software Assurance, CSA) — 환자에게 영향을 주는 기능에는 엄격한 스크립트 시험을, 사소한 기능에는 가벼운 검사를 쓰는, 소진적 전산화 시스템 검증에 대한 FDA의 위험 기반 후속.

이 다음은

이제 우리는 프로브와 계측기에서 쏟아져 나오는 원시 신호를 손에 쥐었습니다 — 그러나 신호는 아직 제어된 공정도, 저장된 기록도 아닙니다. 센서와 데이터베이스 사이에는 자동화 계층(automation layer)이 자리합니다. 다음 장 자동화와 공정 제어 데이터(Automation and Process Control Data)는 이 계측기 신호를 읽고, 그에 따라 행동하며, 그 과정에서 완전히 새로운 부류의 데이터 — 설정값(setpoint), 알람, 이벤트, 레시피 — 를 만들어내는 제어기들, 즉 PLC, DCS, SCADA를 소개합니다. 거기서 우리는 ISA-88 배치 제어 표준을 만나고, 이 제어 및 레시피 데이터가 어떻게 전자 배치 기록의 척추가 되는지를 보게 될 것입니다.

이 장에서 다루는 것​

계측기가 측정하는 방식과 위치​

계측기가 측정하는 위치: 네 가지 장소​

두 프로브 계열: 단일 숫자와 분광​

원시 센서 측정값의 해부: 결코 벌거벗고 다니지 않는 여섯 필드​

측정된 의미로서의 PAT: 화학계량 모델과 검증된 해석​

계측기가 돌려주는 데이터​

품질 실험실의 분석 계측기: HPLC, CE, LC-MS, ddPCR​

데이터 모양과 그것이 중요한 이유: 스칼라, 스펙트럼, 크로마토그램, 이미지​

데이터 모양이 하류에서 중요한 이유: 통합의 도전​

미해결 과제: 조용한 데이터 모양 손실​

왜 중요한가​

실제 현장에서​

핵심 용어​

이 다음은​