머신러닝, 소프트 센서, 하이브리드 모델

📍 현재 위치: 제5부, 17장 — 고전 통계로 관리된 데이터를 제어로 바꾼 뒤, 이제 우리는 최전선에 도달합니다. 쉽게 측정할 수 없는 것을 예측하고, 이미 알고 있는 물리 법칙과 융합하는 머신러닝입니다.

지난 장 데이터에서 지식으로: SPC, 다변량 분석, 그리고 지속적 공정 검증에서는 잘 정돈된 통계가 어떻게 쏟아지는 공정 데이터를 의사결정으로 바꾸는지를 보여 주었습니다. 한 번에 한 변수씩 도표화하는 통계적 공정 관리(Statistical Process Control, SPC), 여러 변수를 한꺼번에 살피는 다변량 데이터 분석(Multivariate Data Analysis, MVDA), 그리고 모든 배치를 영원히 감시하는 지속적 공정 검증(Continued Process Verification, CPV)이 그것이었습니다. 이 도구들은 강력하지만, 대부분 기술하고(describe) 신호를 보내는(flag) 일을 합니다. 이 장은 예측하고(predict) 학습하는(learn) 도구들에 관한 것입니다. 바로 머신러닝, 소프트 센서, 그리고 하이브리드 모델입니다.

이 주제를 흥미롭게 만드는 긴장이 있습니다. 배치가 진행되는 동안 가장 알고 싶은 것들 — 지금까지 만들어 낸 제품이 얼마인지, 살아 있는 세포가 몇 개인지, 그것들에게 먹일 당이 얼마나 남았는지 — 가운데 일부는 느리고, 비싸고, 실시간으로는 측정이 불가능합니다. 머신러닝은 솔깃한 지름길을 제시합니다. 값싸게 측정할 수 있는(can) 데이터로부터 답을 학습하는 것입니다. 그 약속은 실재하지만, 한계도 실재하며, 바이오의약품 제조에는 그 나름의 고유한 한계가 있습니다.

쉽게 말하면

좋은 의사는 당신의 상태를 알기 위해 매 분 채혈하지 않습니다. 대신 값싸고 빠른 신호들 — 맥박, 안색, 호흡 — 을 살피며 그 아래 깔린 비싼 수치를 추론(infer)합니다. 소프트 센서(soft sensor)는 생물반응기(bioreactor)에 대해 같은 일을 합니다. 가지고 있는 값싼 신호를 살펴서, 갖고 있지 못한 비싼 측정값을 예측합니다. 머신러닝(machine learning)은 그 추론을 과거 배치들로부터 학습하는 방법입니다. 그리고 하이브리드 모델(hybrid model)은 생리학까지 아는 의사입니다. 학습된 패턴 매칭과 실제 생물학적 규칙을 결합하므로, 한 번도 본 적 없는 상황에서도 추측이 무너지지 않습니다.

이 장에서 다루는 내용

소프트 센서: 값싼 온라인 신호로부터 측정하기 어려운 양을 예측하기
바이오공정에서의 머신러닝을 쉽게 풀어보기 — 그리고 "스몰 데이터(small data)"가 모든 것을 바꾸는 이유
기계론적 지식과 데이터를 융합하는 하이브리드(그레이박스) 모델
하나의 소프트 센서 예측 레코드의 해부, 그리고 그것이 살아가는 수명주기
GxP 규제 아래에서 인공지능(artificial intelligence)을 검증하기
참조 데이터가 희소할 때 드리프트를 탐지하는 미해결 과제
과장과 현실에 대한 정직한 결산

소프트 센서: 측정할 수 없는 것을 측정하기

소프트 센서가 존재하는 이유: 측정의 간극

소프트 센서(soft sensor)(가상 센서(virtual sensor) 또는 추론 센서(inferential sensor)라고도 합니다)는 물리적 프로브가 아닙니다. 직접 쉽게 측정할 수 없는 양을, 측정할 수 있는(can) 다른 신호들을 사용해 추정하는 소프트웨어 조각입니다 [6]. 이 아이디어는 정유, 화학 같은 더 넓은 공정 산업에서 나왔으며, 그곳에서 Kadlec과 동료들이 이제는 표준이 된 방법론을 제시했습니다. 과거 데이터를 모으고, 정제하고, 값싼 입력을 비싼 목표값으로 사상(map)하는 모델을 훈련한 뒤, 그 모델을 실시간으로 돌려 연속적인 예측을 생성하는 것입니다 [6].

생물반응기에서 그 목표값들은 무척 탐나는 것들입니다. 역가(titer) — 배양액 속 제품(가령 항체)의 농도 — 는 사업 전체가 신경 쓰는 수치이지만, 보통 몇 시간 뒤 느린 실험실 분석을 통해서야 나옵니다. 생존 세포 밀도(viable cell density, VCD) — 얼마나 많은 살아 있는 세포가 일하고 있는지 — 와 그 세포들을 먹이는 글루코스(glucose) 농도도 분 단위로 추적하기 까다롭기는 마찬가지입니다. 이 측정의 간극은 생산 생물반응기 안에서 태어납니다. 물리적 운전은 운영자가 지금 행동에 옮기고 싶어 하는 라이브 값을 만들어 내지만 — 그 값에 대한 설정값(setpoint)(제어 루프가 붙들도록 지시받는 목표값)은 그것이 어떠해야 하는지를 실험실이 확인한 뒤에야 비로소 존재합니다 — 그 참값을 확인해 주는 분석 실험실은 그 자체의 느린 시계로 돌아갑니다. 소프트 센서는 이것들을, 산소 소비량(살아 있는 세포는 산소를 소비하므로, 얼마나 많은 바이오매스가 일하고 있는지를 추적해 줍니다), 교반 동력(세포가 늘어날수록 배양액이 걸쭉해지므로, 모터가 더 힘껏 일해야 합니다), 또는 분광 측정값처럼 연속적으로 측정 가능한 신호로부터 예측합니다 — 어떤 값이 중요해지는 순간과 실험실이 그것을 확인할 수 있는 순간 사이의 간극을 메우면서.

이는 4장에서 PAT(공정 분석 기술, Process Analytical Technology) 도구로 만났던 광학 지문 기법, 라만 분광법(Raman spectroscopy)과 곧바로 연결됩니다. 라만 프로브는 거의 연속적으로 측정하되, 개별 스캔을 받아들일 만한 신호 대 잡음비를 얻기 위해 대략 1~2분에 걸쳐 평균하므로, 새 스펙트럼이 약 1분에 한 번 도착합니다. 그러나 원시 스펙트럼은 글루코스 수치가 아닙니다. 화학계량학(chemometrics) 모델(화학 스펙트럼에 적용된 통계)을 통해 수치로 바뀌어야 합니다. 그 모델이 바로 소프트 센서입니다. 값싸고 빠른 스펙트럼이 들어가고, 비싼 농도가 나옵니다 [6].

소프트 센서는 상류만의 이야기가 아닙니다. 측정의 간극은 하류(downstream)에서도 똑같이 실재하며, 거기서 소프트 센서는 종종 훨씬 단순한 신호를 지켜봅니다. 컬럼의 UV A280 흡광 트레이스(280 nm에서 흡수되는 자외선으로, 단백질이 농도에 비례하여 흡수합니다)나 인라인 전도도가 그것입니다. 단백질 A 포집(Protein A capture) — 항체를 수확액에서 친화성 수지로 끌어올리는 첫 번째 정제 단계 — 에서 운영자는 용출되는 제품 피크가 언제 시작하고 끝나는지를 실시간으로 결정해야 합니다. 너무 일찍 또는 너무 늦게 풀링하면 불순물을 풀에 끌어들이거나 제품을 버리게 되기 때문입니다. 라이브 UV와 전도도 트레이스를 읽어 풀의 순도, 또는 최적의 풀 시작/종료 시점을 예측하는 모델은, 라만 역가 모델이 상류에서 하는 바로 그 일을 하류에서 하는 하류 소프트 센서입니다. 최종 원료의약품을 만드는 UF/DF 농축·완충액 교환 단계에도 같은 논리가 적용됩니다. 인라인 전도도 프로브는 운영자에게 완충액 교환의 투석부피(diavolume)가 얼마나 남았는지를 알려 주는 라이브 대리 지표이고, 인라인 UV나 굴절률 측정값은 느린 실험실 분석으로만 나중에 확인되는 농도 대리 지표입니다 — 생물반응기가 아니라 정제 스키드 위에 있을 뿐, 똑같은 값싼 신호는 지금, 비싼 확인은 나중에라는 비대칭입니다.

바이오공정이 데이터 과학의 규칙서를 깨뜨리는 이유

바이오공정은 소프트 센서를 유난히 만들기 어렵게 만듭니다. Brunner와 동료들은 그 이유를 정리합니다. 배치마다 길이가 다르고, 한 번의 운전이 서로 구별되는 단계(phase) — 세포가 늘어나는 초기 성장 단계, 그다음 세포가 속도를 늦추며 제품을 만드는 생산 단계 — 를 거치므로 같은 값싼 신호가 시점마다 다른 것을 뜻할 수 있으며, 존재하는 몇 안 되는 프로브마저도 운전 도중 드리프트하거나 고장 날 수 있습니다 [7]. 결함 있는 입력을 조용히 신뢰하는 소프트 센서는 차라리 센서가 없느니만 못할 수 있습니다. 따라서 결함 내성 — 언제 자기 자신을 믿지 말아야 하는지를 아는 것 — 은 나중에 덧붙이는 일이 아니라 업무의 일부입니다 [7]. 그래서 실제 소프트 센서가 내보내는 예측 레코드는 결코 헐벗은 숫자가 아닙니다. 입력 품질 status를 함께 실어, 결함 있는 프로브가 추정값을 신뢰하게 두는 대신 플래그를 세우도록 강제합니다 — 아래에서 그 레코드를 해부할 때 보게 될 바로 그대로입니다.

머신러닝, 쉽게 풀어보기

지도 학습의 레시피: 라만 스펙트럼에서 역가로

머신러닝(machine learning, ML)은 사람이 손으로 적어 둔 규칙을 따르는 대신, 예시에서 패턴을 찾아 예측을 개선하는 소프트웨어입니다. 여기서는 크게 두 종류가 중요합니다. 지도 학습(supervised learning)에서는 정답이 붙어 있는 예시들로 훈련합니다. 값싼 신호와 측정된 역가를 모두 기록해 둔 과거 배치들이 그 예입니다. 그래서 모델은 둘 사이의 사상을 학습합니다. 역가 소프트 센서가 지도 학습입니다. 비지도 학습(unsupervised learning)에서는 베껴 쓸 정답이 없습니다. 알고리즘이 스스로 데이터를 묶거나 단순화합니다. 예를 들어 배치를 "정상적으로 거동함"과 "이상하게 드리프트함"으로 군집화하는 것인데, 이는 지난 장의 다변량 모니터링과 사촌지간입니다 [5][9]. 아래에서 소개하는 PLS는 분광 소프트 센싱의 일꾼이지만, 여러 방법 가운데 하나일 뿐입니다. 바이오공정 소프트 센서는 가우시안 과정 회귀(Gaussian process regression)(이 스몰 데이터 분야에서 귀하게 여겨지는데, 예측 카드가 이미 보여 주는 신뢰 구간을 그 자체로 보고하기 때문입니다), 랜덤 포레스트와 그래디언트 부스팅, 서포트 벡터 회귀, 그리고 소규모 신경망으로도 만들어집니다 [5][9]. 초보자가 이 이름들을 하나하나 알아야 이 장을 따라올 수 있는 것은 아닙니다. 이들은 같은 지도 학습 사상을 수행하는 대안 엔진일 뿐입니다. 자매서 ML/AI 책의 모델과 검증이 이 모델 계열들과 그중에서 고르는 법을 비교합니다.

라만-역가 모델을 위한 지도 학습 레시피는 구체적입니다. 천 개가 넘는 강도 채널로 이루어진 원시 스펙트럼은 먼저 전처리(preprocess) — 기준선 보정과 산란 정규화 — 된 다음, 부분 최소제곱(partial least squares, PLS)에 의해 소수의 잠재 성분(latent components)으로 압축됩니다. 이 성분은 PLS가 천 개의 원시 채널을 섞어 만들어 내는 몇 개의 요약 수치로서, 농도와 함께 위아래로 움직이는 조합("함께 변한다(co-vary)"는 것이 이 뜻입니다)만 남기고 나머지는 버립니다. 천 개의 채널과 고작 수십 개의 배치만으로는 과적합이 일어나기 때문입니다. 모델은 짝지어진 과거 데이터에 고정된 계수(coefficients) 벡터 — 훈련이 끝나면 고정되는 값들로, 잠재 성분 하나당 가중치 하나 — 를 적합시키고, 배포 시 그 계수가 각 새 스펙트럼을 하나의 예측 역가로 바꿉니다. 자매서 오픈소스 바이오공정 데이터 시스템은 이 정확한 파이프라인을 실행 가능한 코드로 보여 줍니다 — 라만을 역가로 사상하는 PLS soft_sensor.py입니다(서비스되는 전체 저장소 경로는 거버넌스를 위해 적합된 모델을 오픈소스 실험·모델 추적 도구인 MLflow에 추가로 기록합니다. 오픈소스 분석 장 참조). 이 장에서 우리가 해부하는 데이터 포인트가 바로 그 코드가 저장하는 것입니다.

ML은 바이오공정 워크플로 전반에 걸쳐 적용되어 왔습니다. 세포주 선별, 배지 최적화, 스케일업 예측, 그리고 생산 모니터링과 제어가 그 예입니다 [5]. 이 작업을 개관하는 리뷰들은 열정적입니다. 동시에, 대부분의 ML 교과서가 결코 마주하지 않는 문제에 대해 유난히 솔직하기도 합니다.

주의

가장 찬사를 받는 머신러닝은 빅(big) 데이터의 세계 — 수백만 장의 사진, 수십억 개의 단어 — 에서 살아갑니다. 바이오의약품 제조는 스몰 데이터(small data)의 세계에서 살아갑니다. 배치 하나가 몇 주의 시간과 막대한 비용을 잡아먹을 수 있어서, 공정 팀이 학습에 쓸 수 있는 완전한 운전 데이터는 수백만 건이 아니라 수십 건에 불과할 수 있습니다 [5][9]. 데이터를 많이 먹는 모델은 그저 굶어 죽거나, 더 나쁘게는 과적합(overfitting) — 본 적 있는 소수의 배치를 외워 버리고 다음 배치에서 실패 — 하게 됩니다.

모델이 과적합하지 않았음을 어떻게 알 수 있을까요? 표준적인 검정은 교차 검증(cross-validation)입니다. 데이터의 일부를 훈련에서 제외해 두었다가, 모델이 한 번도 본 적 없는 그 부분에서 검사하는 것입니다. 바이오공정의 함정은 한 운전 안의 표본들이 서로 상관되어 있다는 점입니다. 그래서 단순 무작위 분할은 정보를 누설하여 지나치게 낙관적인 낮은 오차를 보고합니다. 규율은 배치 전체를 제외해 두는 것 — 한 배치씩 제외(leave-one-batch-out) 또는 그룹화된 교차 검증 — 이며, 제외된 운전들에 대한 예측 오차를 RMSEP(예측 평균 제곱근 오차, root-mean-square error of prediction) — 예측이 빗나가는 전형적인 크기로, 목표값과 같은 단위(여기서는 역가의 g/L)이므로 작을수록 좋습니다 — 와 교차 검증된 Q²(교차 검증된 결정 계수로, 한 번도 훈련하지 않은 배치들에서 실제 운전 간 변동을 모델이 얼마나 설명하는지를 1.0까지의 척도로 나타내므로 1에 가까울수록 좋습니다)로 보고하는 것입니다. 이 두 수치가 벤더나 감사자에게 던질 질문입니다. 모델을 어떻게 교차 검증했는가, 그리고 배치 전체를 제외했는가?

이 스몰 데이터, 고비용 실험이라는 현실이 바이오공정 ML의 결정적 제약(binding constraint)이며, 바로 이것이 다음 아이디어를 낳습니다 [9].

하이브리드 모델: 물리에 데이터를 더하기

물리가 가드레일이 되는 이유

데이터가 아주 적다면, 가장 영리한 선택은 데이터에게 모든 것을 처음부터 학습하라고 요구하는 것을 멈추는 일입니다. 우리는 이미 생물반응기가 어떻게 거동하는지에 대해 많은 것을 알고 있습니다. 물질 수지, 반응 속도론, 세포가 당을 소비하고 단백질을 생산하는 기본적인 산수 같은 것들입니다. 그 지식이 바로 기계론적(mechanistic)(또는 제1원리(first-principles)) 모델입니다. 데이터가 아니라 물리와 화학에서 유도된 방정식입니다.

하이브리드 모델(hybrid model) — 그레이박스(gray-box) 또는 준모수(semi-parametric) 모델이라고도 합니다 — 은 이 둘을 결합합니다. 신뢰할 수 있는 기계론적 골격을 유지하면서, 세포 성장률이 지저분하게 뒤섞인 조건들에 어떻게 의존하는지처럼 우리가 깔끔하게 적어 낼 수 없는(cannot) 부분에 대해서만 머신러닝 구성 요소를 사용합니다 [1]. "그레이박스"라는 이름은 투명한 화이트박스(white box)(순수 방정식)와 불투명한 블랙박스(black box)(순수 ML) 사이에 의도적으로 자리합니다. Von Stosch와 동료들의 개관 연구는 이 분야에 분류 체계를 제공합니다. 구조적으로 데이터 기반 부분과 기계론적 부분은 직렬 또는 병렬로 놓일 수 있지만, 어느 경우든 물리가 데이터가 결론지을 수 있는 범위를 제약합니다 [1].

하이브리드 그레이박스 모델의 흐름도: 값싼 온라인 신호 입력 상자(산소, pH, 스펙트럼, 피드)가 두 갈래로 나뉘어, 청록색 화이트박스 기계론적 노드(제1원리 방정식, 물질 수지와 속도론)와 보라색 블랙박스 머신러닝 노드(모델링하기 어려운 빈틈을 메우는 학습된 구성 요소)로 이어집니다. 학습 노드가 기계론적 노드로 입력되고, 기계론적 노드는 초록색 예측 노드(역가, VCD, 글루코스)를 만들어 내며, 이는 하이브리드 소프트 센서 및 공정 모델 노드로 흘러갑니다.

하이브리드(그레이박스) 모델: 기계론적 골격이 알려진 물리를 공급하는 한편, 머신러닝 구성 요소가 적어 내기 어려운 부분을 담당하고, 물리는 학습된 부분이 정직하도록 붙잡아 둡니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

이것이 데이터가 부족한 바이오공정에 왜 그렇게 잘 들어맞을까요? 기계론적 부분이 데이터가 결코 공급할 필요가 없는 지식을 기여하므로 ML 부분은 학습할 것이 훨씬 줄어들고, 순수 블랙박스라면 실패했을 소수의 배치만으로도 성공할 수 있기 때문입니다 [1][3]. 증거는 구체적입니다. 치료용 단백질을 만드는 포유류 세포 공정에 대해, Narayanan과 동료들은 하이브리드 모델이 순수 기계론적 모델이나 순수 데이터 기반 모델 어느 쪽보다도 공정 거동을 더 정확하게 예측함을 보였습니다 [8][1][3]. 하이브리드 모델링은 두 방법 사이의 타협이 아닙니다. 바이오공정의 스몰 데이터 상황에서는, 흔히 두 방법을 각각 따로 쓰는 것보다 더 나은 성능을 냅니다.

하이브리드 소프트 센서의 도해: 값싼 온라인 신호가 기계론적 물리 골격과 학습된 구성 요소 양쪽에 함께 입력되고, 물리가 학습된 부분을 제약하여 처음 보는 조건에서도 예측을 신뢰할 수 있게 유지합니다 처음 보는 조건에서도 견디는 소프트 센서: 기계론적 물리가 학습 모델을 정직하게 붙듭니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

또한 이 책이 거듭 돌아오는 규제 프레임워크들을 실질적으로 가능하게 하는 수단이기도 합니다. von Stosch와 동료들이 소집한 전문가 패널은 하이브리드 모델이 품질 설계 기반(Quality by Design, QbD)과 PAT에 잘 들어맞는다고 주장했습니다. 물리를 존중하는 모델은, 안에 있는 몇 개의 점만 본 모델보다 설계 공간(design space) — 허용 가능한 제품을 신뢰성 있게 산출하는, 입증된 운전 조건의 영역 — 전반에 걸쳐 더 안전하게 일반화하기 때문입니다 [2]. 이는 ICH Q8(R2)(제약 개발, Pharmaceutical Development)와 ICH Q9(R1)(품질 위험 관리, Quality Risk Management)가 공식화하는 바로 그 QbD 논리입니다. 즉, 설계 공간을 정의하고, 그 안에 머무름으로써 위험을 관리하는 것입니다. 짚어 둘 만한 두 번째 규제적 연결 고리가 있는데, 지난 장에서 이미 제기했던 바로 그것이기 때문입니다. 품질 수치를 보고하는 라만 화학계량학 모델은 그 자체가 하나의 분석 절차이므로, 그 검증과 수명주기 관리에 대해 ICH Q2(R2)(분석 절차의 검증, Validation of Analytical Procedures)와 ICH Q14(분석 절차 개발, Analytical Procedure Development) — 둘 다 2023년 — 의 적용을 받습니다 [15][16]. 드리프트하는 모델은 드리프트하는 공정으로 위장할 수 있는데, 바로 그렇기 때문에 생물반응기뿐만 아니라 모델도 검증되고 모니터링되어야 합니다. 책 Hybrid Modeling in Process Industries는 이러한 주장 뒤에 있는 이론과 산업 횡단 사례 연구들을 모아 놓았습니다 [3].

예측 레코드와 그 수명주기

하나의 소프트 센서 예측의 해부

지금까지 우리는 소프트 센서를 아이디어로서 이야기했습니다. 그러나 배포된 소프트 센서가 만들어 내는 데이터 포인트는 구체적이고 구조화된 레코드이며, 이 책의 모든 산출물이 그렇듯 그 가치는 숫자 하나가 아니라 숫자와 함께 따라다니는 것에서 나옵니다. 라만 역가 모델이 한 번 작동할 때, 그것은 단지 3.8만 내보내지 않습니다. 추정값을 그것이 비롯된 스펙트럼, 그것을 만든 모델, 그 주변의 불확실성, 그리고 결국 그것을 채점할 느린 참조값과 묶어 주는 예측 레코드를 내보냅니다.

하나의 소프트 센서 예측 레코드의 해부: raman_titer_pls v3.2 모델을 명명하는 인디고 헤더가 있는 레이블된 신원 카드로, 타임스탬프·원시 입력 스펙트럼·전처리 강도·잠재 PLS 성분·고정 계수를 담는 입력 행, 95% 신뢰 구간과 모델 버전, 드리프트 플래그가 붙은 3.8 g/L의 예측 역가를 담는 초록색 코어 블록, 지연된 HPLC 참조값과 잔차를 담는 대조 행, 그리고 레코드를 학습 이력·참조 분석·CPV 차트·재훈련 트리거로 연결하는 보라색 관계 패널로 이루어져 있습니다. 하나의 예측은 레코드 전체입니다: 그것을 먹인 스펙트럼, 그것을 변환한 잠재 성분과 고정 계수, 신뢰 구간이 딸린 추정값, 그리고 결국 그 잔차를 드러낼 지연된 참조 분석. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

카드를 위에서 아래로 읽으면 이 장의 논증 전체가 필드로 펼쳐져 있습니다. 입력 행들은 값싸고 빠른 신호입니다. timestamp, 천 개가 넘는 강도로 이루어진 원시 input_spectrum, 그 preprocessed(기준선·산란 보정) 버전, PLS가 추출하는 latent_components, 그리고 사상을 수행하는 고정 coefficients입니다. 초록색 코어는 예측 그 자체입니다 — confidence_interval과 짝지어진 titer_predicted_g_L, 정확한 MLflow 실행에 고정된 model_version, 그리고 drift_flag. 대조(reconciliation) 행은 소프트 센서를 정직하게 만드는 것을 담습니다. 몇 시간 뒤 도착하는 오프라인 HPLC(고성능 액체 크로마토그래피, high-performance liquid chromatography) 분석 — 느리지만 정확한 실험실 방법 — 에서 온 reference_value, 예측과 참조 사이의 residual, 그리고 입력 품질 status입니다. 보라색 관계 패널은 데이터 포인트가 어디서 왔고 어디로 가는지를 기록합니다 — 짝지어진 과거 데이터에 trained_on, 참조 분석 레코드와 reconciled_with, CPV 차트와 피드 속도 제어기로 feeds, 그리고 누적 잔차가 임계값을 넘을 때 retrains_when.

그 구조는 학술적인 것이 아닙니다. 실제 시스템이 저장하는 바로 그 행입니다. 오픈소스 자매 구현은 이 예측을, 스키마가 이 필드들을 그대로 반영하는 추적 산출물로 저장하므로, 여기서 보는 그 model_version과 confidence_interval이 하류에서 조회할 수 있는 열(column)이 됩니다(오픈소스 분석 장 참조). 그리고 이것은 2장의 규율인 맥락화(contextualization)를 문자 그대로 구현한 것입니다. 예측이 유용한 까닭은 오직 그것이 자신의 출처를 함께 실어 나르기 때문이며, 이는 그 장의 여섯 필드 신원 카드를 곧바로 물려받은 것으로서, 오픈소스 맥락화 계층이 모든 원시 측정값에 신원을 붙이는 것과 같습니다.

단순한 데이터베이스 행이 아니라 의미적 진술로서의 레코드

그 필드들은 출처(provenance)이고, 출처에는 표준적인 형태가 있습니다. 같은 레코드를 RDF(자원 기술 프레임워크(Resource Description Framework) — 사실을 주어-술어-목적어 트리플(triple)로 진술하는 웹 표준으로, 각 사실이 하나의 사물을 다른 사물이나 값에 연결합니다)로 적으면, 그것은 사적인 스키마이기를 멈추고 어떤 시스템이든 읽을 수 있는 진술이 됩니다. 관계 패널은 거의 일대일로 PROV-O(W3C 출처 온톨로지 — "무엇이 무엇으로부터, 어떤 활동에 의해, 어떤 에이전트를 써서 도출되었는지"를 위한 공유 어휘)에 사상됩니다. 예측은 스펙트럼을 prov:wasDerivedFrom하고, 추론 실행에 의해 prov:wasGeneratedBy되며, 잠긴 모델 버전에 prov:wasAttributedTo되는 prov:Entity입니다. 이 책의 온톨로지 자매서는 바로 이런 종류의 계보 척추를 모델링하는데, 거기서는 하나의 이행적 derivedFrom 간선이 모든 산출물을 그 기원 — 여기서는 스펙트럼, 학습 이력, 그리고 모델 실행 — 에 뿌리내리게 합니다.

# 하나의 예측을 RDF로 — 관계 패널을 기계가 순회할 수 있는 트리플로 만든 것.
@prefix bp:   <https://example.org/bioproc#> .
@prefix prov: <http://www.w3.org/ns/prov#> .

bp:PRED-CCP001-20260321T0900 a bp:SoftSensorPrediction ;
    bp:titerPredictedGperL    3.8 ;
    bp:confidenceLow          3.5 ; bp:confidenceHigh 4.1 ;   # 95% 구간
    bp:inputStatus            "OK" ;                          # 입력 품질 플래그
    bp:driftFlag              false ;
    prov:wasDerivedFrom       bp:SPECTRUM-CCP001-20260321T0900 ;
    prov:wasGeneratedBy       bp:INFERENCE-RUN-44218 ;
    prov:wasAttributedTo      bp:raman_titer_pls-v3.2 ;       # 잠긴 MLflow 실행
    bp:reconciledWith         bp:HPLC-DS001-20260321 .        # 느린 참조, 나중에

이는 온톨로지 책이 기대는 바로 그 지속체(continuant) 대 발생체(occurrent) 구분입니다. 예측과 모델은 지속체(지속하며 값을 지니는 것)인 반면, 추론 실행과 참조 분석은 발생체(일어나고 끝나는 활동)입니다 — 이들을 별개의 노드로 유지하는 것이야말로 모델을 그것을 실행하는 행위와 뒤섞지 않고서 "이 모델 버전은 어떤 예측들을 만들었는가?"라고 물을 수 있게 해 줍니다. 그 보상은, 이 장의 논증 전체 — 어떤 모델이 이 숫자를, 어떤 스펙트럼으로부터, 어떤 참조에 비추어 채점되도록 만들었는가? — 가 SPARQL(RDF를 위한 표준 질의 언어로, 표에 대한 SQL에 해당)로 적힌 한 줄짜리 역량 질문(competency question)(데이터가 답할 수 있어야 하는 평범한 일상어 질문으로, 합격/불합격 인수 시험으로 쓰임)이 된다는 것입니다.

# CQ: 모든 소프트 센서 예측에 대해, 그것의 모델 버전, 출처 스펙트럼,
#     그리고 그것을 채점할 참조 분석을 짚어라. 출처는 추측이 아니라 질의다.
PREFIX bp:   <https://example.org/bioproc#>
PREFIX prov: <http://www.w3.org/ns/prov#>
SELECT ?prediction ?model ?spectrum ?reference WHERE {
  ?prediction a bp:SoftSensorPrediction ;
      prov:wasAttributedTo ?model ;
      prov:wasDerivedFrom  ?spectrum ;
      bp:reconciledWith    ?reference .
}

이 장 앞부분의 결함 내성 규칙 — 결함 있는 프로브는 추정값을 신뢰하게 두는 대신 플래그를 세우도록 강제해야 한다 — 그 자체는 그래프가 SHACL 셰이프(셰이프 제약 언어(Shapes Constraint Language) — 그래프 데이터가 요구된 구조를 갖추었는지 검증하는 표준으로, 빠지거나 잘못된 필수 필드를 지금 실패로 다루며, 온톨로지 책의 출하 게이트가 빠진 무균 시험을 불합격 로트로 다루는 방식과 같습니다)로 폐쇄 세계(closed-world)에서 강제할 수 있는 제약입니다. 아래 셰이프는 모든 예측이 통제된 집합에서 뽑힌 inputStatus를 실어야 함을 요구합니다 — 그래서 품질 플래그가 없는 예측, 또는 그 상태가 허용된 어휘를 벗어나 자유 입력된 예측은, 소비자가 신뢰할 만하다고 읽을 하류로 슬그머니 빠져나가는 대신 검증에서 실패합니다.

# shapes.ttl — 입력이 저하된 예측은 신뢰가 아니라 플래그가 되어야 한다(폐쇄 세계).
bp:PredictionShape a sh:NodeShape ;
    sh:targetClass bp:SoftSensorPrediction ;
    sh:property [ sh:path bp:inputStatus ;
        sh:minCount 1 ; sh:in ( "OK" "DEGRADED" "FAULT" ) ;
        sh:message "Every prediction must carry an input-quality status." ] ;
    sh:property [ sh:path bp:titerPredictedGperL ;
        sh:datatype xsd:float ; sh:minCount 1 ; sh:maxCount 1 ] .

이렇게 모델링하면, 관계형 저장소에서 레코드를 질의 가능하게 만드는 바로 그 필드들이 시스템과 추론기를 가로질러 레코드를 상호운용 가능하게(interoperable)도 만듭니다 — 이것이야말로 FAIR 원칙이 모델의 학습 이력에 요구하는 것이며, 예측의 출처를 벤더의 독점 블롭 속에 파묻는 대신 감사 가능하게 만드는 것입니다.

예측이 안착하는 곳: 이음매의 표준들

예측 레코드는 자유롭게 떠다니지 않습니다. 다른 모든 공정 값이 쓰는 바로 그 표준에 묶인 공장 시스템 속으로 흘러들어야 하며, 그러지 못하면 그것이 추적하는 설정값 옆에 도표화될 수 없습니다. 라만 분석기는 자신의 라이브 측정값을 OPC UA(개방형 플랫폼 통신 통합 아키텍처(Open Platform Communications Unified Architecture) — 태그의 값을 그 품질 플래그, 타임스탬프, 공학 단위와 함께 운반하는 벤더 중립 산업 프로토콜)로 발행하므로, 위의 inputStatus 필드는 소프트 센서의 발명품이 아닙니다 — 프로브가 이미 내보내는 OPC UA 상태 코드를, 예측으로 이어 옮긴 것입니다. 예측이 배치와 장비 하나에 묶일 때, 그 묶임은 ISA-95 / B2MML(제조 운영 데이터 모델과 그 XML 직렬화 — 측정값이 특정 원자재 로트에, 특정 설비 단위에서, 특정 운영 중에 속한다고 말하는 표준)을 따르며, 이는 공장 정보 시스템 장과 ISA-95 아키텍처 장이 기반으로 삼는 바로 그 모델입니다. 그래서 글루코스 예측은 헐벗은 숫자가 아닙니다. 그것은 생물반응기 BR101 위의 BATCH-2026-001에 묶이고, OPC UA 품질 플래그를 지니며, 히스토리언이 물리적 피드 설정값에 맞추어 정렬할 수 있는, ISA-95로 맥락화된 값입니다 — 모델의 출력이 자격을 갖춘 어떤 계측기 측정값처럼 신뢰되고 추적되게 해 주는 바로 그 표준 척추입니다.

모델 드리프트, 지속적 재훈련, 그리고 수명주기

소프트 센서 예측은 한 번 일어나고 마는 사건이 아닙니다. 그것은 하나의 루프 안에서 살아갑니다. 모델은 짝지어진 과거 데이터로 한 번 훈련된 다음 연속적으로 예측합니다. 그러나 그 예측이 여전히 옳은지를 아는 유일한 방법은, 느린 참조 분석과 비교해 잔차를 지켜보는 것입니다. 그 잔차가 드리프트하면 루프는 닫혀야 합니다.

소프트 센서 예측의 수명주기 흐름도: 과거 라만과 짝지어진 역가가 PLS 훈련·검증 단계로 입력되어 배포 모델 raman_titer_pls v3.2를 만들고, 배포 모델은 약 1분에 한 번 라이브 예측을 수행하며, 몇 시간 뒤 도착하는 지연된 HPLC 참조 분석이 예측과 비교되고, 잔차 누적이 드리프트 임계값 검사로 입력되며, 드리프트가 탐지되면 장미색 복귀 경로가 모델을 재적합하여 훈련·검증으로 되돌아가는 재훈련을 촉발합니다.

순방향 경로는 빠르고 복귀 경로는 느린데, 그 비대칭이 어려움의 전부입니다. 예측은 약 1분에 한 번 흘러나오지만, 그것을 바로잡을 수 있는 참값은 몇 시간 뒤에야 졸졸 돌아옵니다. 잔차 레코드, 드리프트 임계값, 재훈련 트리거를 공식적인 변경 관리(change control) 아래 두는 것이야말로 이 루프가 12장의 거버넌스 규칙과 만나는 지점입니다 — 재훈련된 모델은 조용한 제자리 수정이 아니라 새로 검증된 객체입니다. 드리프트 탐지, 잠긴 모델(locked-model)·PCCP 재훈련 수명주기, 그리고 계속 학습하는 모델의 검증 역설에 대한 본격적인 다룸은 자매서 ML/AI 책의 MLOps와 수명주기에 있습니다.

GxP 아래에서 AI 검증하기

AI가 평범한 소프트웨어보다 다스리기 어려운 이유

공정을 이해하도록 돕는 모델은 하나의 일입니다. 의약품에 관해 무언가를 결정하는(decides) 모델 — 배치를 출하하거나, 피드 속도를 설정하거나, 실험실 시험을 대신하는 모델 — 은 규제 대상이며, 그것은 모든 것을 바꿉니다. GxP는 의약품 제조를 규율하는 "우수 관리 기준(Good Practice)" 규칙들(여러 가지 중에서도 우수 제조, 시험, 임상 관리 기준)을 아우르는 포괄적 용어입니다. GxP 아래에서는 영리한 모델을 그냥 배포할 수 없습니다. 그것을 검증(validate)하고 평생에 걸쳐 신뢰할 수 있도록 유지해야 합니다.

세 가지 어려움이 AI를 평범한 소프트웨어보다 다스리기 어렵게 만듭니다. 첫째는 모델 드리프트(model drift)입니다. 실제 공정이 — 새로운 원자재 로트, 노후화된 프로브, 계절적 변화로 — 서서히 변해 가다가, 결국 세상이 모델이 학습한 데이터와 더 이상 맞지 않게 되고, 그 예측이 조용히 무너집니다. 둘째는 설명 가능성(explainability)입니다. 블랙박스 모델은 정확할 수는 있어도 왜 그런지를 말하지 못할 수 있는데, 이는 규제 당국이 사람의 의약품에 관한 결정을 정당화하라고 요구할 때 곤란합니다. 셋째는 검증 문제 그 자체입니다. 배포 이후에도 계속 학습하는(keeps learning) 모델은 움직이는 표적이며, 전통적인 일회성 검증은 변화하는 무언가를 위해 설계된 적이 없습니다.

미국 FDA는 이 영역을 그려 나가기 시작했습니다. 2023년 CDER 논의 문서 Artificial Intelligence in Drug Manufacturing은 처음으로 cGMP(현행 우수 제조 관리 기준, current Good Manufacturing Practice — 기술 수준에 맞춰 진화하도록 일부러 작성된, FDA의 구속력 있는 제조 규칙) 아래 AI에 대한 미해결 질문들을 제시했습니다. 모델이 학습하는 데이터를 어떻게 관리할지, 모델을 어떻게 검증하고 재검증할지, 그리고 중요한 결정에 닿는 모델이 그렇지 않은 모델보다 더 큰 검토를 받도록 위험 기반(risk-based) 기대치를 어떻게 적용할지가 그것입니다 [4]. 그러고 나서 최전선이 움직였습니다. 2025년 1월 FDA는 그 질문들을 구체적인 프레임워크로 바꾸는 초안 가이던스 Considerations for the Use of Artificial Intelligence to Support Regulatory Decision-Making for Drug and Biological Products를 발표했습니다 [10]. 그 핵심 발상은 "이 모델에는 얼마나 많은 검토가 필요한가?"라는 실무자의 질문에 답합니다. 먼저 모델의 사용 맥락(context of use, COU) — 정확히 무엇에 쓰이고 무엇에 영향을 미치는지 — 을 명시한 다음, 모델 위험이 모델 영향력과 결정 결과의 곱으로 정해지는 7단계 위험 기반 신뢰성 평가(risk-based credibility assessment)를 수행합니다. 단지 운영자에게 조언만 하는 소프트 센서는 그 척도에서 낮은 자리에 앉고, 배치를 출하하는 소프트 센서는 높은 자리에 앉아 훨씬 더 많은 증거를 얻어 내야 합니다. 이 장에 결정적으로 중요한 점은, 이 프레임워크가 수명주기 유지 단계를 포함한다는 것입니다. 배포된 모델의 신뢰성은 조건이 변함에 따라 유지되어야 하는데, 이는 이 장이 기술하는 바로 그 드리프트 모니터링 루프를 규제적으로 성문화한 것입니다. 그래서 이 프레임워크가 초안이며 아직 최종 규칙이 아니긴 해도, 가리킬 만한 것이 전혀 없다는 말은 더 이상 사실이 아닙니다. 이제 신뢰성 프레임워크 초안이 존재합니다 [10].

바로 여기서 11장의 컴퓨터 소프트웨어 보증(Computer Software Assurance, CSA) 사고가 진가를 발휘합니다. CSA의 핵심 행보 — 위험에 비례해 검증 노력을 쓰고, 영웅적인 사전 시험 한 번이 아니라 지속적인 증거에 기대는 것 — 은 학습하는 모델이 요구하는 바로 그 자세입니다. AI 소프트 센서는 지속적인(ongoing) 보증을 필요로 합니다. 드리프트가 있는지 예측을 모니터링하고, 언제 재훈련해야 하는지를 정의하며, 마치 CPV가 공정을 영원히 모니터링하듯 그 전체 수명주기를 문서화하는 것입니다 [4]. 이제 업계에는 일반적인 CSV뿐만 아니라 이를 위한 전용 산출물이 있습니다. GAMP 5 제2판(2022)은 AI/ML에 관한 부록 D11을 추가했고, ISPE의 GAMP Guide: Artificial Intelligence(2025)는 이 장이 기술하는 바로 그 학습 모델을 위한 목적 특화 검증 지침서입니다 [13][14]. 말하자면 "당신의 소프트웨어를 검증하라"가 "당신의 모델을 검증하라"라는 제목의 장(chapter)을 새로 키워 낸 것입니다.

배포의 구체적 사항에 이르면 이것은 단지 데이터 과학 문제가 아니라 제조 문제가 됩니다. 검증된 소프트 센서는 노트북 위에서 돌아가지 않습니다. 공장의 제어 패브릭 속에 설치되므로, 모델은 — 여느 전산화 시스템처럼 — 자기 자신의 IQ/OQ/PQ(설치 적격성, 운영 적격성, 성능 적격성 — 모델이 올바르게 설치되었고, 시험 스펙트럼에 대해 올바르게 돌아가며, 따로 떼어 둔 배치들에 대해 올바르게 수행됨을 입증하는 것)를 얻어 냅니다. 모델의 예측은 MES(제조 실행 시스템, Manufacturing Execution System)와 히스토리언(historian)에 연결되어, 그 출력이 물리적 프로브와 똑같은 감사 추적 아래 배치 기록에 포착됩니다 — 피드 속도를 조정하는 글루코스 예측은 배치 기록이 반드시 보여 주어야 하는 제어 동작입니다. 그리고 스케일업과 기술 이전(scale-up and tech transfer)에는 바이오의약품 제조 특유의 비틀림이 있습니다. 화학계량학 모델은 스케일 의존적입니다. 10 L 개발 생물반응기에서 만든 라만 보정은 2000 L 생산 용기와는 다른 광학 경로 길이, 프로브 기하학, 배경을 보므로, 소프트 센서를 상업 규모로 옮기는 것은 복사·붙여넣기가 아닙니다 — 그것은 보정 전이(calibration transfer)(소스 계측기의 스펙트럼을 타깃의 응답으로 사상하는 통계 기법)와 수용 규모에서의 공식적 재검증(re-validation)을 요구하며, 어떤 분석 방법을 이전하는 것과 똑같이 변경 관리 아래 다루어집니다. 파일럿 규모에서는 정확했으나 제조 규모에서 한 번도 재적격화되지 않은 모델은, 규제 용어로 말하면 제품 위에서 돌아가는 미검증 모델입니다 — 사이트 이전 후 공정 검증을 건너뛰는 것의 소프트 센서 판본입니다.

같은 기대치가 대서양 양쪽 모두에 적용되며, 유럽은 그중에서도 가장 빠르게 움직였습니다. 미국에서는 규제 대상 기록에 닿는 모델이 21 CFR Part 11(전자 기록 및 서명, electronic records and signatures)의 적용을 받습니다. 유럽연합에서는 EU GMP Annex 11(전산화 시스템, Computerised Systems)이 그 안에 내장된 모델을 포함해 전산 시스템의 검증을 규율합니다. 2025년 7월 유럽 위원회는 대폭 확장된 Annex 11 개정 초안(약 5쪽에서 약 19쪽으로 늘어나며, 감사 추적 검토, 클라우드 및 SaaS 공급자, AI/ML에 대한 새로운 범위를 담음)과, 처음으로 완전히 새로운 초안 Annex 22, 인공지능(Artificial Intelligence) — 규제 대상 제조의 AI/ML을 위해 특별히 작성된 최초의 GMP 부속서로서, 이 장이 다루는 바로 그 소프트 센서들을 규율 — 을 공개했으며, 두 최종본 모두 2026년에 나올 것으로 예상됩니다 [12][11]. 두 부속서 모두 시스템이 의도된 용도에 맞게 검증되고, 변경 관리(change control) 아래 유지되며, 평생에 걸쳐 감사 추적(audit trail)이 남을 것을 요구합니다. 계속 학습하는 모델에게 이는 검증이 결코 진정으로 끝나지 않음을 뜻합니다. 각 예측을 모니터링되는 통계적 모집단의 일부로 다루는 규율은, 지속적 공정 검증을 추동하는 바로 그것과 같습니다. GxP 아래의 소프트 센서란 영원히 도표화되어야 하는 공정에 다름 아닙니다.

미해결 과제: 참조 데이터가 희소한 상황의 모델 드리프트

이 장을 풀린 문제에 대한 확신의 어조로 끝내는 것은 정직하지 못한 일일 것입니다. 소프트 센서 데이터 흐름에서 가장 어려운 미해결 문제는 모델을 만드는 일이 아닙니다. 모델이 여전히 옳은지를 실시간으로 아는 것입니다.

수명주기 그림의 비대칭을 떠올려 보십시오. 라만 소프트 센서는 약 1분에 한 번 예측하지만, 그것을 확인할 수 있는 오프라인 HPLC 분석은 몇 시간에 한 번, 때로는 한 배치당 한두 번만 돌아옵니다. 이것이 희소 참조 상황(sparse-reference regime)입니다. 예측은 조밀하고, 참값은 희소하며, 발생 중인 편향을 드러낼 잔차는 실험실이 마침내 보고할 때에만 계산될 수 있습니다. 참조 지점들 사이에서, 드리프트하기 시작한 소프트 센서는 — 새 원자재 로트, 노후한 프로브, 또는 미묘한 세포 거동 변화 때문에 — 완벽하게 작동하는 것과 정확히 똑같아 보입니다. 예측 레코드의 drift_flag는 구조상 후행(lagging) 지표입니다. 충분한 느린 참조 데이터가 쌓여 빠른 예측이 틀렸음을 증명한 뒤에야 참이 될 수 있습니다.

이는 참값 없이 실시간 성능 저하와 편향을 탐지하는 일을 진정으로 어렵게 만들며, 이 분야도 그것을 알고 있습니다. FDA의 2023년 CDER 논의 문서 Artificial Intelligence in Drug Manufacturing은 바로 이 어려움 — 배포 후 성능이 조용히 무너질 수 있는 모델을 어떻게 모니터링하고 재검증할지 — 을 cGMP 아래 AI의 미해결 질문으로 명명했으며 [4], 2025년 초안 가이던스는 이를 오직 하나의 과정(process) — 지속적인 신뢰성 모니터링을 의무화하는 수명주기 유지 계획 — 으로만 답할 뿐, 느린 참조 데이터가 도착하기 전에 드리프트를 보는 방법은 내놓지 못합니다 [10]. Brunner와 동료들의 비판적 리뷰도 공학 쪽에서 같은 지점에 도달합니다. 느린 성능 저하의 탐지를 포함한 바이오공정 소프트 센서의 결함 내성은 체크박스가 아니라 여전히 미해결 설계 문제로 남아 있습니다 [7]. 접근법들은 존재합니다 — 예측 카드의 신뢰 구간 같은 불확실성 추정, 비현실적 출력에 플래그를 세우는 물리 기반 하이브리드 가드레일, 잔차 스트림에 대한 통계적 드리프트 검정 등 — 그러나 어느 것도 참조 분석이 제공하는 진실을 대신하지는 못합니다. 참값이 더 싸지거나 더 빨라지기 전까지, 정직한 답은 배포된 소프트 센서를 일정에 따라 불신해야 한다(distrusted on a schedule)는 것입니다. 모니터링하고, 주기적으로 대조하며, 변경 관리 아래 재훈련하되, 느린 데이터가 옳음을 증명하기 전까지는 틀렸다고 보는 상시 가정을 두는 것입니다.

왜 중요한가

이 장의 모든 약속은 하나의 토대 위에 놓여 있습니다. 바로 데이터입니다. 소프트 센서는 학습한 배치만큼만 좋습니다. 하이브리드 모델도 데이터 기반 부분을 적합시키려면 여전히 깨끗하고 맥락이 부여된 측정값이 필요합니다. 그리고 GxP 아래의 AI는 학습 데이터 자체가 신뢰할 수 있는 것 — 귀속 가능하고, 완전하며, 잘 기술된 것, 즉 어떤 배치 기록이든 신뢰할 수 있게 만드는 바로 그 ALCOA+ 속성(9장) — 이 아니라면 검증될 수 없습니다 [4]. 이것은 또한 FAIR 원칙(찾을 수 있고(Findable), 접근 가능하고(Accessible), 상호운용 가능하고(Interoperable), 재사용 가능한(Reusable) — 14장)이 여기서 가장 문자 그대로의 의미로 중요한 까닭이기도 합니다. 모델은 오직 찾고, 접근하고, 결합하고, 재사용할 수 있는 이력으로부터만 학습할 수 있으므로, 이 책의 나머지가 그토록 싸워 온 바로 그 찾을 수 있고, 잘 기술되고, 재사용 가능한 데이터가 정확히 소프트 센서가 학습되는 원료입니다. 바이오공정에서 ML을 개관하는 리뷰들은 거듭 같은 결론에 도달합니다. 결정적 제약은 좀처럼 알고리즘이 아니라는 것입니다. 그것은 알고리즘에 먹일 수 있는 데이터의 양과 질입니다 [5][9]. 이것이 이 책 전체를 관통하는 줄기입니다. 데이터를 잘 관리해야 하는 이유는 단지 감사자를 만족시키기 위해서가 아니라, 이 분야의 가장 진보된 도구들이 실제로 작동하게 만들기 위해서입니다.

현장에서는

지금까지 가장 성공적인 산업 적용 사례는 화려하지 않고 실용적이었습니다. 글루코스를 설정값에 붙들어 두는 라만 기반 소프트 센서, 그리고 실험을 설계하고 값비싼 운전 횟수를 줄이는 데 쓰이는 하이브리드 모델은, 거창한 블랙박스 야망보다 바이오공정 ML 문헌이 권장하는 바로 그 표적화되고 물리에 닻을 내린(targeted, physics-anchored) 적용입니다 [5][8].

이것은 이론에 그치지 않습니다. 전형적인 글루코스 소프트 센서는 공정용 라만 분석기 — 예를 들어 Kaiser Optical Systems의 RamanRxn 프로브(지금은 Endress+Hauser의 일부) — 위에서 돌아가며, 1–2분마다 스펙트럼 하나를 수집합니다. 그 스펙트럼과 그것이 만들어 내는 예측은 사라지지 않습니다. 다른 모든 공정 태그가 쓰는 바로 그 히스토리언과 맥락화 기반에 안착하므로, 모델의 라이브 출력은 그것이 추적하려던 물리적 설정값 옆에 나란히 도표화될 수 있습니다(오픈소스 자매서는 이런 종류의 모델 출력을 PI 스타일 히스토리언으로 정확히 다리 놓습니다). 화학계량학 모델은 각 스펙트럼을 제어기가 즉시 행동에 옮길 수 있는 실시간 측정값으로 바꿉니다. 가령 실시간으로는 glucose = 4.1 g/L로 보고하는데, 이를 확인하는 오프라인 분석은 네 시간 뒤에야 3.6 g/L를 돌려줍니다. 값비싼 운전 몇 회를 나머지를 예측하는 모델과 맞바꾼다는 발상 자체가, 모든 실험이 비싸고 실험 계획(design of experiments) 부담을 줄여 주는 하이브리드 모델이 제값을 하는 공정 개발의 데이터 효율 논리입니다. 그 몇 시간의 선행 시간이 가치의 전부입니다. 실험실 결과가 도착할 무렵이면 피드는 이미 보정되어 있습니다. 모델 자체는 평범한 소프트웨어 산출물입니다. Sartorius의 SIMCA 같은 벤더 플랫폼은 자체 런타임(SIMCA-Q / SIMCA-online)을 통해 화학계량학 모델을 만들고 배포합니다. 더 넓게 보면, 훈련된 ML 모델은 한 시스템에서 적합한 모델을 다른 시스템에서 배포·버전 관리·감사할 수 있도록 PMML(예측 모델 마크업 언어, Predictive Model Markup Language)이나 ONNX(개방형 신경망 교환, Open Neural Network Exchange) 같은 교환 형식으로 점점 더 직렬화(serialize)됩니다.

검증 프레임워크도 빠르게 따라잡고 있습니다. FDA의 2025년 신뢰성 초안 가이던스 [10], EU의 AI용 초안 Annex 22 [11], 그리고 GAMP 5의 부록 D11이나 ISPE GAMP Guide: Artificial Intelligence 같은 전용 산업 지침서 [13][14] 사이에서, 11장에서 만난 정립된 전산화 시스템 검증 사고가 진정으로 모델 쪽으로 확장되어, "당신의 소프트웨어를 검증하라"가 이제 "당신의 모델을 검증하라"라고도 읽힙니다. 더 넓은 분야가 연속적이고 집약된 공정으로 옮겨 감에 따라, 그것이 만들어 내는 조밀하고 연속적인 데이터 스트림은 실시간 소프트 센싱을 가능하고도 가치 있게 만듭니다. 최전선은 과학자를 대체하는 로봇이 아닙니다. 그것은 모든 배치 기록이 그렇게 하듯, 즉 잘 정돈되고 방어 가능한 데이터를 통해 신뢰를 얻어 내는 모델입니다.

핵심 용어

소프트 센서(soft sensor)(가상 / 추론 센서) — 실시간으로 이용 가능한 더 값싼 신호로부터 측정하기 어려운 양을 추정하는 소프트웨어.
역가(titer) — 생물반응기 배양액 속 제품(가령 항체)의 농도.
생존 세포 밀도(viable cell density, VCD) — 배양액 속에서 살아 일하고 있는 세포의 수.
설정값(setpoint) — 제어 루프가 어떤 공정 변수(가령 글루코스)에 대해 붙들도록 지시받는 목표값.
화학계량학(chemometrics) — 라만 같은 화학 스펙트럼을 농도 수치로 바꾸는 통계 기법.
머신러닝(machine learning, ML) — 손으로 적은 규칙을 따르는 대신 예시에서 패턴을 찾아 예측을 개선하는 소프트웨어.
지도 학습(supervised learning) — 이미 정답이 붙어 있는 예시로 훈련하는 ML.
비지도 학습(unsupervised learning) — 정답이 주어지지 않은 데이터에서 구조를 찾아내는 ML.
과적합(overfitting) — 모델이 학습 예시를 외워 버리고 새 예시에서 실패하는 현상.
교차 검증(cross-validation) — 과적합을 가리는 표준 검정. 데이터의 일부를 훈련에서 제외해 두고, 모델이 한 번도 본 적 없는 부분에서 점수를 매깁니다. 바이오공정에서는 한 운전 안의 표본들이 서로 상관되어 있으므로 배치 전체를 제외하며(한 배치씩 제외 / 그룹화된 CV), 제외된 오차를 RMSEP(예측 평균 제곱근 오차, root-mean-square error of prediction — 예측이 빗나가는 전형적인 크기로, g/L처럼 목표값 자체의 단위이므로 작을수록 좋습니다)와 교차 검증된 Q²(한 번도 훈련하지 않은 배치들에서 운전 간 변동을 모델이 얼마나 설명하는지로, 1.0까지이므로 1에 가까울수록 좋습니다)로 보고합니다.
스몰 데이터(small data) — 실험이 너무 비싸서 학습할 수 있는 사례가 몇 개뿐인, 바이오의약품 제조에서 전형적인 상황.
기계론적(제1원리) 모델(mechanistic / first-principles model) — 데이터가 아니라 물리·화학 방정식으로 만든 모델.
하이브리드(그레이박스 / 준모수) 모델(hybrid / gray-box / semi-parametric model) — 기계론적 골격과 데이터 기반 구성 요소를 결합한 모델.
모델 드리프트(model drift) — 실제 공정이 학습 데이터에서 멀어지며 모델 정확도가 서서히 무너지는 현상. 예를 들어 2023년 배치로 학습한 글루코스 소프트 센서는 새로운 원자재 공급사가 도입된 뒤 10–15% 높게 읽기 시작할 수 있는데, 이는 재훈련이 필요하다는 분명한 신호입니다.
설명 가능성(explainability) — 모델이 예측을 한 이유(why)를 정당화할 수 있는 정도.
GxP — 의약품 개발과 제조를 규율하는 "우수 관리 기준(Good Practice)" 규제군.
cGMP — 현행 우수 제조 관리 기준(current Good Manufacturing Practice). "현행(current)" 기대치가 기술 수준에 맞춰 진화하도록 작성된, FDA의 구속력 있는 제조 규칙(학습 모델의 검증이 결코 완전히 정착되지 않는 이유이기도 합니다).
품질 설계 기반(Quality by Design, QbD) — 설계 공간을 정의하고 그 안에서 통제함으로써 처음부터 품질을 공정에 설계해 넣는 것(1장에서 소개). 물리를 존중하는 모델은 그 공간 전반에 걸쳐 더 안전하게 일반화합니다.
설계 공간(design space) — 허용 가능한 제품을 신뢰성 있게 산출하는, 입증된 운전 조건의 영역. 그 안에 머무는 것이 QbD가 위험을 관리하는 방식입니다.
컴퓨터 소프트웨어 보증(Computer Software Assurance, CSA) — 위험에 비례해 노력을 쓰고 지속적인 증거에 기대는 위험 기반 검증 자세(11장에서 소개). 계속 학습하는 모델에 자연스럽게 들어맞습니다.
변경 관리(change control) — 검증된 시스템에 대한 어떤 변경 — 모델 재훈련을 포함해 — 도 검토·승인·문서화되어, 그 변경 자체가 감사 가능하도록 하는 공식 절차. 재훈련된 모델은 조용한 제자리 수정이 아니라 새로 검증된 객체입니다.
부분 최소제곱(partial least squares, PLS) — 다채널 스펙트럼을 소수의 잠재 성분으로 압축하고 이를 농도로 사상하는 화학계량 회귀.
잠재 성분(latent components) — PLS 같은 모델이 수천 개의 원시 스펙트럼 채널을 결합해 만들어 내는 소수의 요약 수치로, 목표값과 함께 위아래로 움직이는("함께 변하는(co-vary)") 조합만 남기고 나머지는 버립니다.
잔차(residual) — 소프트 센서의 예측과 나중의 참조값 사이의 차이로, 드리프트를 드러내는 누적 오차.
희소 참조 상황(sparse-reference regime) — 예측은 잦지만 그것을 채점할 수 있는 참값 참조 분석이 드물어, 실시간 드리프트 탐지가 어려운 상황.
RDF / 트리플(RDF / triple) — 자원 기술 프레임워크(Resource Description Framework). 사실을 주어-술어-목적어 트리플로 진술하는 웹 표준으로, 예측 레코드를 사적인 데이터베이스 스키마가 아니라 기계가 읽을 수 있는 진술로 만듭니다.
PROV-O — W3C 출처 온톨로지. 그 wasDerivedFrom / wasGeneratedBy / wasAttributedTo 어휘가 예측의 "어떤 스펙트럼으로부터, 어떤 실행에 의해, 어떤 모델에 의해"라는 계보에 사상됩니다.
SHACL — 셰이프 제약 언어(Shapes Constraint Language). 그래프 데이터가 요구된 구조를 갖추었는지 폐쇄 세계에서 검증하므로, 입력이 저하된 예측이 신뢰할 만한 것처럼 하류로 조용히 통과하지 못합니다.
SPARQL / 역량 질문(SPARQL / competency question) — 표준 RDF 질의 언어와, 그것이 답하는 평범한 일상어 질문(합격/불합격 시험으로 쓰임) — 여기서는 "모든 예측에 대해, 그것의 모델 버전, 출처 스펙트럼, 채점 참조를 짚어라".
OPC UA — 태그의 값을 그 품질 플래그, 타임스탬프, 공학 단위와 함께 운반하는 벤더 중립 산업 프로토콜. 예측 레코드의 입력 품질 상태의 출처입니다.
ISA-95 / B2MML — 측정값을 특정 원자재 로트, 설비 단위, 운영에 묶는 제조 운영 데이터 모델(과 그 XML 직렬화). 그래서 모델의 출력은 헐벗은 숫자가 아니라 맥락화된 값이 됩니다.
보정 전이(calibration transfer) — 한 계측기 또는 규모의 스펙트럼을 다른 쪽의 응답으로 사상하는 통계 기법. 개발 규모에서 만든 소프트 센서를 생산 용기로 옮기고 변경 관리 아래 재검증할 때 필요합니다.

이 다음은

소프트 센서, 하이브리드 모델, 검증된 AI는 따로 존재하지 않습니다. 이들은 실시간으로 운영되고 통합되는 공장에 꽂혀 들어갈 때에만 가치를 전달합니다. 다음 장 실시간 통합과 파마 4.0: 스마트하고 연속적인 공장(Real-Time Integration and Pharma 4.0: The Smart, Continuous Factory)은 이 책의 모든 가닥을 한데 모읍니다. 연속적이고 집약된 공정, 실시간 출하 시험(Real-Time Release Testing), 파마 4.0(Pharma 4.0) 비전, 그리고 우리가 지금까지 쌓아 온 모든 것을 한꺼번에 요구하는 실시간 데이터 통합 노력 — 무엇보다 NIST 실시간 실험실 데이터 개념 증명(IOF Biopharma / BMIC 작업) — 이 그것입니다. 마지막으로, 정직하게, 우리는 데이터 공간(data space)과 아직은 먼 자율 바이오공정(autonomous bioprocess)의 꿈으로 글을 맺습니다.

이 장에서 다루는 내용​

소프트 센서: 측정할 수 없는 것을 측정하기​

소프트 센서가 존재하는 이유: 측정의 간극​

바이오공정이 데이터 과학의 규칙서를 깨뜨리는 이유​

머신러닝, 쉽게 풀어보기​

지도 학습의 레시피: 라만 스펙트럼에서 역가로​

하이브리드 모델: 물리에 데이터를 더하기​

물리가 가드레일이 되는 이유​

예측 레코드와 그 수명주기​

하나의 소프트 센서 예측의 해부​

단순한 데이터베이스 행이 아니라 의미적 진술로서의 레코드​

예측이 안착하는 곳: 이음매의 표준들​

모델 드리프트, 지속적 재훈련, 그리고 수명주기​

GxP 아래에서 AI 검증하기​

AI가 평범한 소프트웨어보다 다스리기 어려운 이유​

미해결 과제: 참조 데이터가 희소한 상황의 모델 드리프트​

왜 중요한가​

현장에서는​

핵심 용어​

이 다음은​