본문으로 건너뛰기

머신러닝, 소프트 센서, 하이브리드 모델

📍 현재 위치: 제5부, 17장 — 고전 통계로 관리된 데이터를 제어로 바꾼 뒤, 이제 우리는 최전선에 도달합니다. 쉽게 측정할 수 없는 것을 예측하고, 이미 알고 있는 물리 법칙과 융합하는 머신러닝입니다.

지난 장 데이터에서 지식으로: SPC, 다변량 분석, 그리고 지속적 공정 검증에서는 잘 정돈된 통계가 어떻게 쏟아지는 공정 데이터를 의사결정으로 바꾸는지를 보여 주었습니다. 한 번에 한 변수씩 도표화하는 통계적 공정 관리(Statistical Process Control, SPC), 여러 변수를 한꺼번에 살피는 다변량 데이터 분석(Multivariate Data Analysis, MVDA), 그리고 모든 배치를 영원히 감시하는 **지속적 공정 검증(Continued Process Verification, CPV)**이 그것이었습니다. 이 도구들은 강력하지만, 대부분 기술하고(describe) 신호를 보내는(flag) 일을 합니다. 이 장은 예측하고(predict) 학습하는(learn) 도구들에 관한 것입니다. 바로 머신러닝, 소프트 센서, 그리고 하이브리드 모델입니다.

이 주제를 흥미롭게 만드는 긴장이 있습니다. 배치가 진행되는 동안 가장 알고 싶은 것들 — 지금까지 만들어 낸 제품이 얼마인지, 살아 있는 세포가 몇 개인지, 그것들에게 먹일 당이 얼마나 남았는지 — 가운데 일부는 느리고, 비싸고, 실시간으로는 측정이 불가능합니다. 머신러닝은 솔깃한 지름길을 제시합니다. 값싸게 측정할 수 있는(can) 데이터로부터 답을 학습하는 것입니다. 그 약속은 실재하지만, 한계도 실재하며, 바이오의약품 제조에는 그 나름의 고유한 한계가 있습니다.

쉽게 말하면

좋은 의사는 당신의 상태를 알기 위해 매 분 채혈하지 않습니다. 대신 값싸고 빠른 신호들 — 맥박, 안색, 호흡 — 을 살피며 그 아래 깔린 비싼 수치를 *추론(infer)*합니다. **소프트 센서(soft sensor)**는 생물반응기(bioreactor)에 대해 같은 일을 합니다. 가지고 있는 값싼 신호를 살펴서, 갖고 있지 못한 비싼 측정값을 예측합니다. **머신러닝(machine learning)**은 그 추론을 과거 배치들로부터 학습하는 방법입니다. 그리고 **하이브리드 모델(hybrid model)**은 생리학까지 아는 의사입니다. 학습된 패턴 매칭과 실제 생물학적 규칙을 결합하므로, 한 번도 본 적 없는 상황에서도 추측이 무너지지 않습니다.

이 장에서 다루는 내용

  • 소프트 센서: 값싼 온라인 신호로부터 측정하기 어려운 양을 예측하기
  • 바이오공정에서의 머신러닝을 쉽게 풀어보기 — 그리고 "스몰 데이터(small data)"가 모든 것을 바꾸는 이유
  • 기계론적 지식과 데이터를 융합하는 하이브리드(그레이박스) 모델
  • GxP 규제 아래에서 인공지능(artificial intelligence)을 검증하기
  • 과장과 현실에 대한 정직한 결산

소프트 센서: 측정할 수 없는 것을 측정하기

소프트 센서(soft sensor)(가상 센서(virtual sensor) 또는 *추론 센서(inferential sensor)*라고도 합니다)는 물리적 프로브가 아닙니다. 직접 쉽게 측정할 수 없는 양을, 측정할 수 있는(can) 다른 신호들을 사용해 추정하는 소프트웨어 조각입니다 [6]. 이 아이디어는 정유, 화학 같은 더 넓은 공정 산업에서 나왔으며, 그곳에서 Kadlec과 동료들이 이제는 표준이 된 방법론을 제시했습니다. 과거 데이터를 모으고, 정제하고, 값싼 입력을 비싼 목표값으로 사상(map)하는 모델을 훈련한 뒤, 그 모델을 실시간으로 돌려 연속적인 예측을 생성하는 것입니다 [6].

생물반응기에서 그 목표값들은 무척 탐나는 것들입니다. 역가(titer) — 배양액 속 제품(가령 항체)의 농도 — 는 사업 전체가 신경 쓰는 수치이지만, 보통 몇 시간 뒤 느린 실험실 분석을 통해서야 나옵니다. 생존 세포 밀도(viable cell density, VCD) — 얼마나 많은 살아 있는 세포가 일하고 있는지 — 와 그 세포들을 먹이는 글루코스(glucose) 농도도 분 단위로 추적하기 까다롭기는 마찬가지입니다. 소프트 센서는 이것들을, 산소 소비량, 교반 동력, 또는 분광 측정값처럼 연속적으로 측정 가능한 신호로부터 예측합니다.

이는 4장에서 PAT(공정 분석 기술, Process Analytical Technology) 도구로 만났던 광학 지문 기법, **라만 분광법(Raman spectroscopy)**과 곧바로 연결됩니다. 라만 프로브는 몇 초마다 풍부한 스펙트럼을 만들어 내지만, 원시 스펙트럼은 글루코스 수치가 아닙니다. 화학계량학(chemometrics) 모델(화학 스펙트럼에 적용된 통계)을 통해 수치로 바뀌어야 합니다. 그 모델이 바로 소프트 센서입니다. 값싸고 빠른 스펙트럼이 들어가고, 비싼 농도가 나옵니다 [6].

그러나 바이오공정은 소프트 센서를 유난히 만들기 어렵게 만듭니다. Brunner와 동료들은 그 이유를 정리합니다. 배치마다 길이가 다르고, 한 번의 운전이 서로 다른 규칙을 따르는 구별되는 단계(phase)(성장, 그다음 생산)를 거치며, 존재하는 몇 안 되는 프로브마저도 운전 도중 드리프트하거나 고장 날 수 있습니다 [7]. 결함 있는 입력을 조용히 신뢰하는 소프트 센서는 차라리 센서가 없느니만 못할 수 있습니다. 따라서 결함 내성 — 언제 자기 자신을 믿지 말아야 하는지를 아는 것 — 은 나중에 덧붙이는 일이 아니라 업무의 일부입니다 [7].

머신러닝, 쉽게 풀어보기

**머신러닝(machine learning, ML)**은 사람이 손으로 적어 둔 규칙을 따르는 대신, 예시에서 패턴을 찾아 예측을 개선하는 소프트웨어입니다. 여기서는 크게 두 종류가 중요합니다. **지도 학습(supervised learning)**에서는 정답이 붙어 있는 예시들로 훈련합니다. 값싼 신호와 측정된 역가를 모두 기록해 둔 과거 배치들이 그 예입니다. 그래서 모델은 둘 사이의 사상을 학습합니다. 역가 소프트 센서가 지도 학습입니다. **비지도 학습(unsupervised learning)**에서는 베껴 쓸 정답이 없습니다. 알고리즘이 스스로 데이터를 묶거나 단순화합니다. 예를 들어 배치를 "정상적으로 거동함"과 "이상하게 드리프트함"으로 군집화하는 것인데, 이는 지난 장의 다변량 모니터링과 사촌지간입니다 [5][9].

ML은 바이오공정 워크플로 전반에 걸쳐 적용되어 왔습니다. 세포주 선별, 배지 최적화, 스케일업 예측, 그리고 생산 모니터링과 제어가 그 예입니다 [5]. 이 작업을 개관하는 리뷰들은 열정적입니다. 동시에, 대부분의 ML 교과서가 결코 마주하지 않는 문제에 대해 유난히 솔직하기도 합니다.

주의

가장 찬사를 받는 머신러닝은 빅(big) 데이터의 세계 — 수백만 장의 사진, 수십억 개의 단어 — 에서 살아갑니다. 바이오의약품 제조는 **스몰 데이터(small data)**의 세계에서 살아갑니다. 배치 하나가 몇 주의 시간과 막대한 비용을 잡아먹을 수 있어서, 공정 팀이 학습에 쓸 수 있는 완전한 운전 데이터는 수백만 건이 아니라 수십 건에 불과할 수 있습니다 [5][9]. 데이터를 많이 먹는 모델은 그저 굶어 죽거나, 더 나쁘게는 과적합(overfitting) — 본 적 있는 소수의 배치를 외워 버리고 다음 배치에서 실패 — 하게 됩니다.

이 스몰 데이터, 고비용 실험이라는 현실이 바이오공정 ML의 결정적 제약(binding constraint)이며, 바로 이것이 다음 아이디어를 낳습니다 [9].

하이브리드 모델: 물리에 데이터를 더하기

데이터가 아주 적다면, 가장 영리한 선택은 데이터에게 모든 것을 처음부터 학습하라고 요구하는 것을 멈추는 일입니다. 우리는 이미 생물반응기가 어떻게 거동하는지에 대해 많은 것을 알고 있습니다. 물질 수지, 반응 속도론, 세포가 당을 소비하고 단백질을 생산하는 기본적인 산수 같은 것들입니다. 그 지식이 바로 기계론적(mechanistic)(또는 제1원리(first-principles)) 모델입니다. 데이터가 아니라 물리와 화학에서 유도된 방정식입니다.

하이브리드 모델(hybrid model)그레이박스(gray-box) 또는 준모수(semi-parametric) 모델이라고도 합니다 — 은 이 둘을 결합합니다. 신뢰할 수 있는 기계론적 골격을 유지하면서, 세포 성장률이 지저분하게 뒤섞인 조건들에 어떻게 의존하는지처럼 우리가 깔끔하게 적어 낼 수 없는(cannot) 부분에 대해서만 머신러닝 구성 요소를 사용합니다 [1]. "그레이박스"라는 이름은 투명한 화이트박스(white box)(순수 방정식)와 불투명한 블랙박스(black box)(순수 ML) 사이에 의도적으로 자리합니다. Von Stosch와 동료들의 개관 연구는 이 분야에 분류 체계를 제공합니다. 구조적으로 데이터 기반 부분과 기계론적 부분은 직렬 또는 병렬로 놓일 수 있지만, 어느 경우든 물리가 데이터가 결론지을 수 있는 범위를 제약합니다 [1].

하이브리드(그레이박스) 모델: 기계론적 골격이 알려진 물리를 공급하는 한편, 머신러닝 구성 요소가 적어 내기 어려운 부분을 담당하고, 물리는 학습된 부분이 정직하도록 붙잡아 둡니다. 저자 작성 도해.

이것이 데이터가 부족한 바이오공정에 왜 그렇게 잘 들어맞을까요? 기계론적 부분이 데이터가 결코 공급할 필요가 없는 지식을 기여하므로 ML 부분은 학습할 것이 훨씬 줄어들고, 순수 블랙박스라면 실패했을 소수의 배치만으로도 성공할 수 있기 때문입니다 [1][3]. 증거는 구체적입니다. 치료용 단백질을 만드는 포유류 세포 공정에 대해, Narayanan과 동료들은 하이브리드 모델이 순수 기계론적 모델이나 순수 데이터 기반 모델 어느 쪽보다도 공정 거동을 더 정확하게 예측함을 보였습니다 [8][1][3]. 하이브리드 모델링은 두 방법 사이의 타협이 아닙니다. 바이오공정의 스몰 데이터 상황에서는, 흔히 두 방법을 각각 따로 쓰는 것보다 더 나은 성능을 냅니다.

하이브리드 소프트 센서의 도해: 값싼 온라인 신호가 기계론적 물리 골격과 학습된 구성 요소 양쪽에 함께 입력되고, 물리가 학습된 부분을 제약하여 처음 보는 조건에서도 예측을 신뢰할 수 있게 유지합니다 처음 보는 조건에서도 견디는 소프트 센서: 기계론적 물리가 학습 모델을 정직하게 붙듭니다. 저자 원본 도해(AI 보조로 제작).

또한 이 책이 거듭 돌아오는 규제 프레임워크들을 실질적으로 가능하게 하는 수단이기도 합니다. von Stosch와 동료들이 소집한 전문가 패널은 하이브리드 모델이 **품질 설계 기반(Quality by Design, QbD)**과 PAT에 잘 들어맞는다고 주장했습니다. 물리를 존중하는 모델은, 안에 있는 몇 개의 점만 본 모델보다 설계 공간(design space) — 허용 가능한 제품을 신뢰성 있게 산출하는, 입증된 운전 조건의 영역 — 전반에 걸쳐 더 안전하게 일반화하기 때문입니다 [2]. 이는 ICH Q8(R2)(제약 개발, Pharmaceutical Development)와 ICH Q9(R1)(품질 위험 관리, Quality Risk Management)가 공식화하는 바로 그 QbD 논리입니다. 즉, 설계 공간을 정의하고, 그 안에 머무름으로써 위험을 관리하는 것입니다. 책 Hybrid Modeling in Process Industries는 이러한 주장 뒤에 있는 이론과 산업 횡단 사례 연구들을 모아 놓았습니다 [3].

GxP 아래에서 AI 검증하기

공정을 이해하도록 돕는 모델은 하나의 일입니다. 의약품에 관해 무언가를 결정하는(decides) 모델 — 배치를 출하하거나, 피드 속도를 설정하거나, 실험실 시험을 대신하는 모델 — 은 규제 대상이며, 그것은 모든 것을 바꿉니다. GxP는 의약품 제조를 규율하는 "우수 관리 기준(Good Practice)" 규칙들(여러 가지 중에서도 우수 제조, 시험, 임상 관리 기준)을 아우르는 포괄적 용어입니다. GxP 아래에서는 영리한 모델을 그냥 배포할 수 없습니다. 그것을 *검증(validate)*하고 평생에 걸쳐 신뢰할 수 있도록 유지해야 합니다.

세 가지 어려움이 AI를 평범한 소프트웨어보다 다스리기 어렵게 만듭니다. 첫째는 **모델 드리프트(model drift)**입니다. 실제 공정이 — 새로운 원자재 로트, 노후화된 프로브, 계절적 변화로 — 서서히 변해 가다가, 결국 세상이 모델이 학습한 데이터와 더 이상 맞지 않게 되고, 그 예측이 조용히 무너집니다. 둘째는 **설명 가능성(explainability)**입니다. 블랙박스 모델은 정확할 수는 있어도 그런지를 말하지 못할 수 있는데, 이는 규제 당국이 사람의 의약품에 관한 결정을 정당화하라고 요구할 때 곤란합니다. 셋째는 검증 문제 그 자체입니다. 배포 이후에도 계속 학습하는(keeps learning) 모델은 움직이는 표적이며, 전통적인 일회성 검증은 변화하는 무언가를 위해 설계된 적이 없습니다.

미국 FDA는 이 영역을 그려 나가기 시작했습니다. 2023년 CDER 논의 문서 Artificial Intelligence in Drug ManufacturingcGMP 아래 AI에 대한 미해결 질문들을 제시합니다. 모델이 학습하는 데이터를 어떻게 관리할지, 모델을 어떻게 검증하고 재검증할지, 그리고 중요한 결정에 닿는 모델이 그렇지 않은 모델보다 더 큰 검토를 받도록 위험 기반(risk-based) 기대치를 어떻게 적용할지가 그것입니다 [4]. 이것은 논의 문서이지 완성된 규칙이 아닙니다. 규제의 최전선은 아직 그려지는 중입니다 [4].

바로 여기서 11장의 컴퓨터 소프트웨어 보증(Computer Software Assurance, CSA) 사고가 진가를 발휘합니다. CSA의 핵심 행보 — 위험에 비례해 검증 노력을 쓰고, 영웅적인 사전 시험 한 번이 아니라 지속적인 증거에 기대는 것 — 은 학습하는 모델이 요구하는 바로 그 자세입니다. AI 소프트 센서는 지속적인(ongoing) 보증을 필요로 합니다. 드리프트가 있는지 예측을 모니터링하고, 언제 재훈련해야 하는지를 정의하며, 마치 CPV가 공정을 영원히 모니터링하듯 그 전체 수명주기를 문서화하는 것입니다 [4].

같은 기대치가 대서양 양쪽 모두에 적용됩니다. 미국에서는 규제 대상 기록에 닿는 모델이 21 CFR Part 11(전자 기록 및 서명, electronic records and signatures)의 적용을 받습니다. 유럽연합에서는 EU GMP Annex 11(전산화 시스템, Computerised Systems)이 그 안에 내장된 모델을 포함해 전산 시스템의 검증을 규율합니다. 두 규정 모두 시스템이 의도된 용도에 맞게 검증되고, 변경 관리(change control) 아래 유지되며, 평생에 걸쳐 감사 추적(audit trail)이 남을 것을 요구합니다. 계속 학습하는 모델에게 이는 검증이 결코 진정으로 끝나지 않음을 뜻합니다.

왜 중요한가

이 장의 모든 약속은 하나의 토대 위에 놓여 있습니다. 바로 데이터입니다. 소프트 센서는 학습한 배치만큼만 좋습니다. 하이브리드 모델도 데이터 기반 부분을 적합시키려면 여전히 깨끗하고 맥락이 부여된 측정값이 필요합니다. 그리고 GxP 아래의 AI는 학습 데이터 자체가 신뢰할 수 있는 것 — 귀속 가능하고, 완전하며, 잘 기술된 것 — 이 아니라면 검증될 수 없습니다 [4]. 바이오공정에서 ML을 개관하는 리뷰들은 거듭 같은 결론에 도달합니다. 결정적 제약은 좀처럼 알고리즘이 아니라는 것입니다. 그것은 알고리즘에 먹일 수 있는 데이터의 양과 질입니다 [5][9]. 이것이 이 책 전체를 관통하는 줄기입니다. 데이터를 잘 관리해야 하는 이유는 단지 감사자를 만족시키기 위해서가 아니라, 이 분야의 가장 진보된 도구들이 실제로 작동하게 만들기 위해서입니다.

현장에서는

지금까지 가장 성공적인 산업 적용 사례는 화려하지 않고 실용적이었습니다. 글루코스를 설정값에 붙들어 두는 라만 기반 소프트 센서, 그리고 실험을 설계하고 값비싼 운전 횟수를 줄이는 데 쓰이는 하이브리드 모델은, 거창한 블랙박스 야망보다 바이오공정 ML 문헌이 권장하는 바로 그 표적화되고 물리에 닻을 내린(targeted, physics-anchored) 적용입니다 [5][8].

이것은 이론에 그치지 않습니다. 전형적인 글루코스 소프트 센서는 공정용 라만 분석기 — 예를 들어 Kaiser Optical Systems의 RamanRxn 프로브(지금은 Endress+Hauser의 일부) — 위에서 돌아가며, 1~2분마다 스펙트럼 하나를 수집합니다. 화학계량학 모델은 각 스펙트럼을 제어기가 즉시 행동에 옮길 수 있는 실시간 측정값으로 바꿉니다. 가령 실시간으로는 glucose = 3.8 g/L로 보고하는데, 이를 확인하는 오프라인 분석은 네 시간 뒤에야 3.2 g/L를 돌려줍니다. 그 몇 시간의 선행 시간이 가치의 전부입니다. 실험실 결과가 도착할 무렵이면 피드는 이미 보정되어 있습니다. 모델 자체는 평범한 소프트웨어 산출물입니다. Sartorius의 SIMCA 같은 벤더 플랫폼은 자체 런타임(SIMCA-Q / SIMCA-online)을 통해 화학계량학 모델을 만들고 배포합니다. 더 넓게 보면, 훈련된 ML 모델은 한 시스템에서 적합한 모델을 다른 시스템에서 배포·버전 관리·감사할 수 있도록 PMML(예측 모델 마크업 언어, Predictive Model Markup Language)이나 ONNX(개방형 신경망 교환, Open Neural Network Exchange) 같은 교환 형식으로 점점 더 직렬화(serialize)됩니다.

검증 프레임워크도 따라잡고 있습니다. FDA의 AI 논의 문서 [4]와 더불어, 11장에서 만난 정립된 전산화 시스템 검증 사고가 모델 쪽으로 확장되고 있어, "당신의 소프트웨어를 검증하라"가 "당신의 모델을 검증하라"까지 뜻하기 시작합니다. 그리고 미국에서는 NIIMBL의 새로운 SABRE(Securing American Biomanufacturing Research and Education) 파일럿 시설이 — 진보된 바이오의약품 제조를 스케일업하고 위험을 낮추기 위해 건설 중이며 — 더 넓은 분야가 연속적이고 집약된 공정으로 옮겨 감에 따라 실시간 소프트 센싱을 가능하고도 가치 있게 만드는, 바로 그 조밀하고 연속적인 데이터 스트림을 가리키고 있습니다. 최전선은 과학자를 대체하는 로봇이 아닙니다. 그것은 모든 배치 기록이 그렇게 하듯, 즉 잘 정돈되고 방어 가능한 데이터를 통해 신뢰를 얻어 내는 모델입니다.

핵심 용어

  • 소프트 센서(soft sensor)(가상 / 추론 센서) — 실시간으로 이용 가능한 더 값싼 신호로부터 측정하기 어려운 양을 추정하는 소프트웨어.
  • 역가(titer) — 생물반응기 배양액 속 제품(가령 항체)의 농도.
  • 생존 세포 밀도(viable cell density, VCD) — 배양액 속에서 살아 일하고 있는 세포의 수.
  • 화학계량학(chemometrics) — 라만 같은 화학 스펙트럼을 농도 수치로 바꾸는 통계 기법.
  • 머신러닝(machine learning, ML) — 손으로 적은 규칙을 따르는 대신 예시에서 패턴을 찾아 예측을 개선하는 소프트웨어.
  • 지도 학습(supervised learning) — 이미 정답이 붙어 있는 예시로 훈련하는 ML.
  • 비지도 학습(unsupervised learning) — 정답이 주어지지 않은 데이터에서 구조를 찾아내는 ML.
  • 과적합(overfitting) — 모델이 학습 예시를 외워 버리고 새 예시에서 실패하는 현상.
  • 스몰 데이터(small data) — 실험이 너무 비싸서 학습할 수 있는 사례가 몇 개뿐인, 바이오의약품 제조에서 전형적인 상황.
  • 기계론적(제1원리) 모델(mechanistic / first-principles model) — 데이터가 아니라 물리·화학 방정식으로 만든 모델.
  • 하이브리드(그레이박스 / 준모수) 모델(hybrid / gray-box / semi-parametric model) — 기계론적 골격과 데이터 기반 구성 요소를 결합한 모델.
  • 모델 드리프트(model drift) — 실제 공정이 학습 데이터에서 멀어지며 모델 정확도가 서서히 무너지는 현상. 예를 들어 2023년 배치로 학습한 글루코스 소프트 센서는 새로운 원자재 공급사가 도입된 뒤 10~15% 높게 읽기 시작할 수 있는데, 이는 재훈련이 필요하다는 분명한 신호입니다.
  • 설명 가능성(explainability) — 모델이 예측을 한 *이유(why)*를 정당화할 수 있는 정도.
  • GxP — 의약품 개발과 제조를 규율하는 "우수 관리 기준(Good Practice)" 규제군.

이 다음은

소프트 센서, 하이브리드 모델, 검증된 AI는 따로 존재하지 않습니다. 이들은 실시간으로 운영되고 통합되는 공장에 꽂혀 들어갈 때에만 가치를 전달합니다. 다음 장 **실시간 통합과 파마 4.0: 스마트하고 연속적인 공장(Real-Time Integration and Pharma 4.0: The Smart, Continuous Factory)**은 이 책의 모든 가닥을 한데 모읍니다. 연속적이고 집약된 공정, 실시간 출하 시험(Real-Time Release Testing), 파마 4.0(Pharma 4.0) 비전, 그리고 우리가 지금까지 쌓아 온 모든 것을 한꺼번에 요구하는 실시간 데이터 통합 노력 — 무엇보다 NIIMBL/NIST 실시간 실험실 데이터 개념 증명(IOF Biopharma / BMIC 작업) — 이 그것입니다. 마지막으로, 정직하게, 우리는 데이터 공간(data space)과 아직은 먼 자율 바이오공정(autonomous bioprocess)의 꿈으로 글을 맺습니다.