학습 문제: 왜 바이오공정은 데이터 과학 규칙서를 깨뜨리는가

📍 현재 위치: 1부 · 바이오공정 학습의 토대 — 1장, 서문 다음의 첫 장. 1권부터 4권까지가 공정, 그 데이터, 그 오픈소스 배관, 그리고 그 지식 그래프를 쌓아 올렸습니다. 5권은 같은 척추에 마지막 렌즈 — 학습 — 을 돌리는데, 정직하게 출발할 자리는 모델이 아니라 경고입니다. 당신이 데이터 과학을 배운 그 교과서는 바이오공정이 살지 않는 세계를 위해 쓰였습니다.

기계학습 교과서는 첫 페이지에서 조용한 약속을 합니다. 당신에게는 독립적인 예제로 이루어진 대규모 데이터셋이 있고, 그것은 안정적인 분포에서 추출되었으며, 당신의 일은 그것들로부터 일반화되는 함수를 적합하는 것이라고. 거의 모든 정리, 모든 훈련/검정 관례, 모든 "데이터를 더 모으면 된다"는 본능이 그 약속 위에 놓여 있습니다. 그런데 바이오의약품 제조 공정은 그 약속을 거의 하나도 지켜 주지 않습니다. 예제는 배치(batch) — 각각 1권에서 몇 주에 걸쳐 만들어지는 약의 단일한 완전 생산 운전 하나 — 이고, 그 수는 수백만이 아니라 수십입니다. 또 그것들은 독립적이지 않습니다 — 자매 배치들은 세포 은행(cell bank, 모든 운전이 종균을 받는 동결되고 적격화된 생산 세포 비축분), 배지 로트(media lot, 세포가 자라는 영양 배지를 한 번에 제조한 배치 하나), 작업자를 공유합니다. 분포도 안정적이지 않습니다 — 세포는 표류하고, 공정은 노화하며, 원자재는 공급사를 바꿉니다. 그리고 모델이 예측하기를 바라는 참값인 정답(ground truth)은 벤치 분석(bench assay, 손으로 하는 실험실 측정)에서 하루에 한두 번, 몇 주씩, 모든 라벨을 귀하게 만드는 비용으로 도착합니다. 이 장은 그 규칙서를 그 방으로 가지고 들어갔을 때 무슨 일이 벌어지는지에 관한 것입니다 — 그리고 책의 나머지에서 풀어내는 그 대답이 왜 더 큰 신경망이 아니라 하이브리드 모델링과 규율 있는 데이터 작업인지에 관한 것입니다.

쉽게 말하면

날씨를 예보하는 법을 배운다고 상상해 보세요. 단, 세 가지 함정이 있습니다. 첫째, 당신은 배울 수 있는 완전한 날을 한 줌만 얻습니다 — 수십 년치 기록이 아니라 겨우 며칠뿐입니다. 둘째, 진짜 기온은 하루에 두 번만, 손으로, 측정되므로 대부분의 시간 당신은 그 사이를 추측하고 있습니다. 셋째, 기후 자체가 당신 발밑에서 계속 옮겨 가서, 지난달에 통했던 규칙이 조용히 작동을 멈춥니다. 데이터 과학 교과서는 이 셋과 정반대를 가정합니다. 데이터의 바다, 값싼 정답, 고정된 기후. 바이오공정은 그 어려운 버전입니다. 그것은 학습을 포기할 이유가 아닙니다 — 그것은 여기서 이기는 학습의 종류가 인터넷 규모 데이터에서 이기는 것과 왜 달라 보이는지를 설명하는 이유입니다.

이 장에서 다루는 내용

데모와 일상 운전의 간극: 학회 발표에서 눈부신 모델이 왜 그토록 드물게 GMP(GMP — Good Manufacturing Practice, 의약품이 만들어져야 하는 규제 품질 틀) 공장에서 매 교대마다 돌아가는 시스템이 되는지 — 그리고 왜 그 간극이 시간만 지나면 풀리는 성숙도 문제가 아니라 구조적인지.
바이오공정에 대응시킨 학습 분류 체계: 지도학습, 비지도학습, 강화학습을 각각 그것이 실제로 하는 작업에 못 박기 — 소프트 센싱, 이상 탐지, 고급 제어, 비전 검사 — 그리고 데이터 희소성이 강제하는 그 중간의 대처 전략들(준/자기 지도, 전이, 하이브리드).
왜 살아 있는 시스템이 규칙서를 깨뜨리는가: 바이오리액터가 위반하는, 교과서 ML이 세우는 다섯 가지 가정 — 소량 데이터 천장, 콜드스타트 주기, 운전 간 변동성, 비정상성, 그리고 잘못된 판단의 비대칭적 비용 — 그리고 모음의 실제 소프트 센서 수치로 첫 번째 실패 양식을 보여 주는 실연.
성숙도 사다리: 상용, 파일럿, 연구 — 그리고 어떤 주장이 어느 단을 차지하는지 이름 붙이는 일이 왜 이 분야를 또렷이 사고하는 일의 절반인지.
증거 등급 관례: 이 책이 모든 외부 수치에 붙이는 네 단짜리 척도로, 그래서 마케팅 헤드라인과 검증된 결과가 결코 같게 읽히지 않게 합니다.

이 장 끝의 핵심 용어 용어집이 아래에서 쓰인 약어와 정의 — GMP, CQA, OOS, 라만, R², PCA/PLS, 그 밖의 것들 — 을 빠른 참조를 위해 모아 둡니다.

데모와 공장 현장 사이의 간극

바이오제조에서 기계학습에 관한 결정적 사실은 보여지는 것과 돌아가는 것 사이의 거리입니다. 산업 조사들은 그 간극을 정량화합니다. ISPE 제7차 Pharma 4.0 조사는 AI/ML이 그것이 추적하는 어떤 디지털 기술보다도 가장 많은 파일럿과 가장 적은 규모 확장 구현을 가지고 있음을 발견하는데, 그 "파일럿" 범주는 높게 유지된 채 좀처럼 졸업하지 못합니다 [1]. 매킨지의 State of AI는 한 층 위에서 같은 모양을 보고합니다. 대략 88%의 조직이 어딘가에서 AI를 사용하지만, 약 6%만이 전사적 영향을 보고합니다 [2]. 데모는 어디에나 있고, 배치는 드뭅니다.

그것을 미성숙으로 읽고 싶어집니다 — 몇 년 주면 파일럿이 규모를 키우리라고. 이 책은 그 반대를 주장하며, 맺는 평결이 그 논거를 온전히 펼칩니다. 그 간극은 구조적입니다. 데모는 공장이 줄 수 없는 조건 아래에서 성공합니다. 그것은 큐레이션된 데이터셋 위에서, 후향적 데이터로, 모델러가 루프 안에 있는 채로, 그리고 화요일에 틀려도 아무 결과가 없는 채로 돌아갑니다. 일상적 GMP는 그중 무엇도 허락하지 않습니다. 데이터는 지저분하고 늦게 도착하고, 모델은 무인으로 돌아야 하며, 잘못된 판단은 한 재산 값어치의 배치를 폐기하거나, 더 나쁘게는 불량 배치를 통과시킬 수 있습니다. 상용으로 건너간 응용들 — 다변량 모니터링, 라만 소프트 센서(라만: 시료의 분자 구성을 읽는 인라인 광산란 분광법), 바이알 비전 검사, 예외 기반 검토(review-by-exception, 모든 기록을 검토하는 대신 벗어난 기록만 표시하여 사람이 확인하게 하는 것) — 은 가족적 유사성을 공유합니다. 그것들은 자율적으로 결정하기보다 추론하거나 모니터링하며, 사람이 감독하는 루프 안에 자리합니다. 상용 목록의 어떤 것도 중요 품질 특성을 자율적으로 조정하지 않습니다. 데모를 쉽게 만드는 바로 그것들이 GMP가 제거하는 바로 그것들이기 때문입니다.

데모가 조용히 가정하지만 공장이 빼앗아 가는 것이 무엇인지 정확히 짚을 가치가 있습니다. 빠진 가정 하나하나가 뒤의 한 장에 대응되기 때문입니다. 데모는 데이터가 이미 조립되어 있다고 가정합니다 — 그러나 공장에서 그것은 배치 ID조차 합의하지 못하는 사일로 안에 살며, 이것이 다음 장이 온통 바치는 준비성 문제입니다. 데모는 검증이 비형식적이다라고 가정합니다 — 그러나 GMP 모델은 잠겨야 하고, 버전 관리되어야 하며, 사전에 정한 변경 관리 계획에 의해 통제되어야 하는데, 이것이 MLOps와 규제 장이 짊어지는 부담입니다. 데모는 모델러가 그것이 망가질 때 알아챌 것이다라고 가정합니다 — 그러나 배치된 소프트 센서는 하루에 두 번 도착하는 기준에 비추어 자기 자신의 표류를 탐지해야 합니다. 그리고 데모는 틀려도 공짜다라고 가정합니다 — 그러나 여기서는 거짓 음성(false negative)이 환자에게 닿을 수 있습니다. 그 네 가지 가정을 벗겨 내면 데모를 휩쓴 모델은 현장에서 자리를 얻기 전에 화려하지 않은 새 일거리 네 개를 가지게 됩니다. 그것이 5권의 나머지가 다루는 작업입니다.

시리즈 자신의 러닝 예제가 그 절벽을 축소판으로 보여 줍니다. 황금 운전 BATCH-2026-001은 깨끗하게 출하됩니다 — 공정 끝 SEC 단량체 98.611%(크기 배제 크로마토그래피로 측정한 온전한 단일 사본 약 분자의 분율), 모든 출하 CQA가 규격 내 — 그리고 그것은 데모가 그 위에 지어지는 바로 그 깨끗하고 완전한 궤적입니다. (중요 품질 특성(critical quality attribute, CQA)은 약의 측정 가능한 속성으로, 배치가 출하되려면 안전한 범위 안에 머물러야 합니다. 숙주세포단백, SEC 단량체, 그 밖의 출하 패널 CQA들은 1권의 QC와 출하 장에서 정의됩니다.) 그 형제 BATCH-2026-004는 데모가 결코 보여 주지 않는 경우입니다. 그것은 숙주세포단백(host-cell protein)에서 규격 상한 100에 대해 128 ng/mg으로 규격 이탈(out-of-specification) 하여 출하에 실패하는데 — 숙주세포단백은 생산 세포에서 남은 원치 않는 오염물이라, 약 1 mg당 그것이 128 ng이면 100 상한을 넘어 배치가 거부됩니다 — 그것은 늦게 실패합니다. 오프라인 분석이 돌아올 때, 배치가 이미 만들어진 뒤에. BATCH-2026-001 모양의 데이터로만 학습한 모델은 성공만 보았고 실패는 결코 보지 못했습니다. 현장에서 돌아야 하는 모델은 분석이 확인해 주기 전에, 공장이 실제로 제공하는 그 얇고 늦은 증거 위에서, BATCH-2026-004에 대해 옳아야 합니다. 데모와 배치 사이의 거리 전체가 그 두 배치 사이의 간극에 살고 있습니다.

그래서 이 책 전체의 올바른 자세는 응원도 묵살도 아닙니다. 그것은 보정입니다. 주어진 주장이 어느 단에 앉아 있는지, 그리고 그 위의 단에 닿기가 왜 어려운지 아는 것입니다. 이 장의 나머지는 그것을 위한 어휘를 쌓습니다 — 먼저 여기서 학습이 도대체 무엇인지의 분류 체계, 그다음 단들이 멀리 떨어진 다섯 가지 이유, 그다음 우리가 모든 주장을 매기는 두 사다리(성숙도와 증거).

실제 바이오공정 작업에 대응시킨 학습 분류 체계

벤더 자료의 "AI"는 안개입니다. 첫 번째 규율은 그것을 기계학습의 세 고전적 갈래로 흩고, 각각을 그것이 실제로 하는 바이오공정 작업에 못 박는 것입니다. 이 분류 체계는 학술적 장식이 아닙니다 — 어떤 문제가 어느 갈래에 속하는지가 그것이 어떤 데이터를 필요로 하는지, 어떻게 검증되어야 하는지, 그리고 규제 당국이 그것을 중요 경로에 얼마나 가까이 두도록 허락할지를 좌우합니다. 이 대응은 정의 목록이 아니라 실연된 분류 체계로 해 볼 가치가 있는데, 각 갈래가 이 장의 주제인 데이터 문제의 서로 다른 버전을 물려받기 때문입니다.

지도학습 — 회귀는 소프트 센서, 분류는 비전과 OOS 예측

지도학습은 라벨이 붙은 예제 — 입력과 알려진 답의 짝 — 로부터 함수를 적합합니다. 그것은 답이 어떻게 생겼는지에 따라 갈립니다.

회귀(regression)는 연속적인 숫자를 예측하며, 이곳이 소프트 센서(soft sensor) (상용)의 본거지입니다 — 아래 두 사다리: 성숙도와 증거에서 정의하는 (상용) 태그는 그것이 실제 공장에서 돌아간다는 뜻입니다. 인라인 라만 또는 근적외 스펙트럼(시료가 빛을 어떻게 산란하거나 흡수하는지의 측정 곡선으로, 그 모양이 분자 구성을 부호화함)을 매 1~2분마다 포도당, 젖산, 또는 역가(titer) 판독으로 바꾸어 — 포도당과 젖산은 세포의 양식과 노폐 대사물이고, 역가는 운전이 지금까지 만들어 낸 약 제품의 농도입니다 — 값비싼 벤치 측정을 표본들 사이에서 연속적으로 추론할 수 있게 하는 모델입니다. 황금 운전 BATCH-2026-001은 공정 끝 SEC 단량체 98.611%를 지닙니다. 소프트 센서의 일은 그런 양을 끝에서만이 아니라 운전 도중에 추정하는 것입니다. 이것은 모음 안에서 가설이 아닙니다. 11장 예제는 황금 배치의 701파수(wavenumber) 라만 스펙트럼을 R² = 0.9944로 역가 판독으로 바꾸는 부분최소제곱(partial-least-squares) 모델을 적합하는데(R², 결정계수: 1.0은 완벽한 적합, 0은 늘 평균을 추측하는 것보다 낫지 않으며, 음수는 그보다도 나쁩니다), 여덟 배나 많은 매개변수를 적합한 깊은 신경망인 1D 합성곱 신경망은 더 낫지 않습니다(R² = 0.9924, 한 끗 뒤) — 소량 데이터의 교훈이 한 줄에 담겨, 더 단순한 선형 모델이 깊은 모델에 지지 않습니다. 회귀가 지배적인 상용 형태인 이유는 그것이 학습하는 표적이 연속적이고, 입력이 값싼 스펙트럼이며, 모델이 홀로 행동하기보다 사람 곁에 앉기 때문입니다.

분류(classification)는 이산적인 라벨을 예측하며, 그것의 가장 강한 상용 형태는 비전 검사(vision inspection) (상용)입니다. 채워진 바이알이나 시린지를 보고 그것을 미세입자, 균열, 충전 결함에 대해 합격 또는 불합격으로 부르는 합성곱 모델입니다. BATCH-2026-004 — 규격 상한 100에 대해 숙주세포단백 128 ng/mg으로 규격 이탈 — 를 분석이 확인하기 전에 OOS 유력으로 표시하는 모델 또한 분류입니다. 답은 이산적인 라벨 출하될 것이다 / 실패할 것이다이며, 공정 중 특징으로부터 학습됩니다. 두 작업은 가족을 공유하지만 비용에서 갈립니다. 오분류된 바이알은 단위 하나이지만, 놓친 OOS 예측은 배치 전체가 안전한지에 대한 잘못된 판단입니다 — 그래서 비전 검사는 편안하게 상용이고 OOS 예측은 권고에 더 가까이 앉는데, 이 비대칭이 다섯 번째 깨진 가정이 다루는 바입니다.

비지도학습 — 라벨이 필요 없는 방법, MSPC와 이상 탐지

비지도학습에는 라벨이 붙은 답이 없습니다. 그것은 정상의 모양을 학습하고 거기서 벗어나는 것을 보고합니다. 바이오공정에서 이것은 다변량 통계적 공정 관리(multivariate statistical process control, MSPC) (상용)와 이상 탐지(anomaly detection)입니다. PCA(주성분 분석, principal component analysis)와 PLS(부분최소제곱, partial least squares) 모델 — 둘 다 많은 상관된 측정을 한꺼번에 변동의 대부분을 담는 몇 개의 결합된 패턴으로 압축하는 방법 — 로, 건강한 "황금" 배치의 다변량(한꺼번에 여러 변수) 서명 — 그 공정 끝 출하 패널 CQA 벡터이든, 그 전체 온라인 궤적이든 — 을 지문으로 떠서, 새 운전이 그 외피 밖으로 표류할 때 깃발을 듭니다 — 결함이 어떻게 생겼는지 미리 들은 적이 결코 없으면서. 이것이 업계에서 가장 철저하게 배치된 학습 방법인 까닭은 바로 희소한 라벨이 필요 없기 때문입니다. 좋은 배치들의 라이브러리만으로 정상을 정의하기에 충분합니다. 모음의 18장 MSPC 예제는 출하 패널(정적 CQA 벡터 — SEC, CEX, HCP, DNA, 엔도톡신) 위에서 그 메커니즘을 구체화합니다 — 다섯 개의 PASS 배치에 대한 PCA 적합이 호텔링 T² 한계(배치가 정상 패턴 안쪽 어디에 앉아 있는지)와 제곱예측오차(squared-prediction-error, SPE) 한계(모델이 배치를 도무지 설명하지 못하는 양)를 설정하고, 외피를 깨는 단 하나의 운전은 정확히 BATCH-2026-004 — SPE는 한계를 한참 넘는데(356.6 대 4.95) T²는 관리 내에 머뭅니다(8.4 대 30.6) — 즉 배치는 모델이 아는 패턴을 따라서는 정상으로 보이지만, 모델이 재구성할 수 없는 큰 신호를 지닙니다 — 이며, SPE 기여 분석은 숙주세포단백을 잔차의 83%로 가리킵니다(잔차란 모델이 다시 지어 내지 못한 배치의 부분 — SPE가 측정하는 설명되지 않은 신호). HCP 실패가 성분이 재구성하지 못하는 모형 밖 잔차로 나타나지 평면 안의 극단으로 나타나지 않는다는 것이 바로 핵심 교훈입니다. 모델은 HCP 실패가 어떻게 생겼는지 결코 듣지 못했습니다. 그것은 다섯 개의 건강한 배치가 어떻게 생겼는지만 알았고, 여섯 번째가 그 모양 밖으로 떨어졌습니다. (모음의 batch_mvda 예제는 진정한 궤적 경우입니다 — 길이가 다른 배치들에 걸쳐 같은 공정 순간이 줄 맞도록 각 운전의 온라인 시계열을 정렬한 뒤, 끝점 벡터가 아니라 운전의 시간에 걸친 전체 모양을 지문으로 뜨는 것입니다.) 그래서 이상 탐지가 이 분야의 일꾼입니다. 그것은 결함 라벨의 희소성(한 해에 OOS 배치 하나 정도일 수 있습니다)을 치명적 문제에서 문제 아닌 것으로 바꿉니다.

강화학습 — 데이터 체제와 규제 당국이 둘 다 붙잡아 두는 갈래

강화학습(reinforcement learning, RL)은 시행과 피드백으로 제어 정책(policy)을 학습합니다 — 그리고 여기가 규칙서가 가장 세게 무는 곳입니다. 바이오공정에서 고급 공정 제어 (파일럿)는 순수 RL이 아니라 모델 예측 제어(model-predictive control, MPC)가 지배하는데, 이는 설정값(setpoint, 공급 속도나 pH처럼 제어기가 향해 조종하는 목표값)을 롤링 지평선(몇 단계 앞을 계획한 뒤, 새 판독이 들어올 때마다 매 단계 다시 계획하는 것)에 걸쳐 공정 모델에 대비해 최적화합니다. RL과 MPC는 공급과 가스의 폐루프(closed-loop) 제어에 관한 연구 문헌에서 서로 흐려집니다 — 폐루프란 제어기가 측정한 것에 근거해 영양 공급과 가스 공급을 자동으로 조정하며, 사람이 루프 안에 없다는 뜻입니다. 순수 RL이 여기서 드문 이유는 바로 이 장이 존재하는 이유입니다. RL은 수백만 번의 시행에서 학습하는, 유명하게 데이터 굶주린 방법인데, 바이오리액터는 각각 몇 주씩 드는 운전을 수십 개 제공합니다. 공급 정책을 학습하려고 RL 에이전트가 만 개의 배치를 망치게 둘 수는 없습니다. 그래서 여기서 제어는 물리를 부호화하는 모델에 기대고, 물리가 적어 낼 수 없는 그 얇은 잔차만 학습합니다 — 이 책이 거듭 돌아오는 하이브리드 패턴입니다. 모음의 베이지안 최적화 예제는 "공급 정책 학습"의 현실적 버전입니다. 그것은 요인 실험계획(factorial design-of-experiments)의 25번에 대해 15번 운전 안에 최종 역가의 최적 설정에 도달하는데 — 요인 실험계획은 고정된 설정 격자에서 모든 조합을 시험하는 교과서적 접근이라, 같은 최적을 25번이 아니라 15번 시행으로 찾는 것이 시행에 굶주리기보다 표본 효율적인 것의 보상입니다 — 소량 데이터 천장과 싸우는 대신 그것을 존중하는 최적화입니다.

간극에 있는 갈래들 — 라벨 희소성을 위한 대처 전략

두 갈래가 간극에 앉아 있고, 아래의 콜드스타트 주기 때문에 정확히 중요합니다. 준지도(semi-supervised)와 자기지도(self-supervised) 학습은 라벨 없는 스펙트럼의 홍수를 이용해 라벨의 가는 물줄기를 더 멀리 가게 하려 합니다 — 값싼 신호에서 데이터의 구조를 학습한 뒤, 훨씬 적은 예제로 값비싼 표적을 적합합니다. 그것들은 네 번째 종류의 학습이라기보다 이 장이 다루는 바로 그 희소성에 대한 대처 전략이며, 전이학습(transfer learning)(한 제품의 보정을 관련된 제품으로 옮기기)과 하이브리드 모델링(hybrid modeling)(메커니즘 모델 — 공정의 알려진 물리와 생물학으로 쓴 방정식 한 벌 — 이 구조를 짊어지게 하여 학습된 부분이 적합할 것을 거의 남기지 않기)도 마찬가지로 말할 수 있습니다. 이것들은 하나하나가 바닥에서 보면 라벨을 덜 쓰는 방법이며 — 그래서 그것들이 여기서 계속 이기고, 하이브리드 장이 하이브리드 모델링을 이국적 선택지가 아니라 이 분야의 기본값으로 다루는 것입니다. 그중 둘은 실패하고 회복하는 것을 볼 가치가 있습니다. 전이는 홀로는 부서지기 쉽습니다. 모음의 보정 전이 데모에서, 자기 본거지 프로브에서 R² = 0.9995를 기록하는 소프트 센서가 두 번째 프로브로 순진하게 옮겨졌을 때 음의 R²로 무너지고, 한 줌의 전이 표준으로 훈련된 조각별 직접 표준화(piecewise-direct-standardization) 보정 이후에야 R² = 0.99로 회복합니다 — "새 계측기 위의 같은 모델"이 공짜가 아니라는 증거입니다. 하이브리드는 조용한 승자입니다. 순수 신경망이 잘 적합하는 같은 유가식(fed-batch) 상태를, 메커니즘 골격에 작은 잔차 신경망을 더한 것이 더 잘, 구조를 가지고 적합하여, 메커니즘 단독보다 오차를 낮춥니다 — 데이터가 하기엔 너무 희소한 일을 물리가 하는 것입니다.

분류 체계만으로도 이미 상용 목록의 모양을 설명합니다. 배치된 응용은 지도 회귀(소프트 센서), 지도 분류(비전), 비지도 모니터링(MSPC)입니다 — 적은, 라벨이 있거나 없는 데이터를 견디고 사람 곁에 안전하게 앉는 갈래들입니다. 자율적으로 결정할 갈래 — 중요 루프 안의 강화학습 — 은 데이터와 규제 당국이 둘 다 붙잡아 두는 것입니다. 러닝 예제가 그 모두를 꿰어 갑니다. 같은 황금 운전 BATCH-2026-001이 회귀 표적(그 역가 궤적), 모니터링 외피(그 건강한 다변량 지문), 제어 기준(그 공급 일정)을 공급하는 한편, 그 OOS 형제 BATCH-2026-004는 분류 문제(분석이 돌아오기 전에 숙주세포단백 실패를 예측하기)와 모니터링 외피를 깨는 그 한 점을 공급합니다. 하나의 공정, 하나의 계보, 모든 학습 갈래 — 이것이 바로 예제 모음이 지어진 방식입니다.

세 학습 갈래를 공장에서 실제로 하는 일에 못 박은 것: 지도 회귀는 소프트 센서, 지도 분류는 비전 검사와 OOS 예측, 비지도학습은 황금 배치 모니터링과 이상 탐지, 그리고 강화학습은 고급 제어 — 콜드스타트 데이터 체제와 GMP가 둘 다 중요 경로에서 팔 길이만큼 떼어 두는 그 한 갈래. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

무작위 분할이 왜 거짓말을 하는가, 여덟 줄로

더 깊은 논증에 앞서, 여기서 규칙서의 기본값이 실패한다는 구체적 실연 하나 — 그것이 실제 결과를 허구로 가장 자주 바꾸는 단 하나의 실수이기 때문입니다. 교과서적 반사는 행을 섞어 70/30으로 훈련과 검정으로 나누는 것입니다. 바이오공정에서 그 반사는 누설(leak)합니다. 같은 배치에서 한 시간 간격으로 찍은 두 라만 스펙트럼은 거의 복제본입니다 — 같은 세포 집단, 같은 배지, 같은 프로브, 몇 분의 공정 시간 차이 — 그래서 그것들을 훈련/검정 경계선 너머로 흩뿌리면 모델이 훈련에서, 채점받을 것의 거의 사본을 보게 됩니다. 그러면 지표는 진정으로 새로운 운전에서의 실력이 아니라 배치 내 이웃의 암기를 측정합니다. 공유 로더 examples/platform/ml/dataio.py는 두 분할을 나란히 실어 보냅니다 — 부풀려진 수치를 폭로하기 위해서만 보존된, 의도적으로 누설하는 random_split과, 배치 전체를 떼어 두는 정직한 batch_split.

# examples/platform/ml/dataio.py — the leaky split and the honest one, side by side
import numpy as np, pandas as pd

def random_split(df, frac_train=0.7, seed=2026):
    """A deliberately leaky row-split, kept ONLY to demonstrate the inflated metric."""
    rng = np.random.default_rng(seed)
    idx = rng.permutation(len(df))
    cut = int(len(df) * frac_train)
    return df.iloc[idx[:cut]], df.iloc[idx[cut:]]

def batch_split(df, batch_col, test_batches):
    """Hold out whole batches — the only split that estimates performance on a
    genuinely unseen run."""
    test_batches = set(test_batches)
    is_test = df[batch_col].isin(test_batches)
    return df[~is_test], df[is_test]

세 번째 도우미 temporal_split은 단일 배치 타임라인의 나중 꼬리를 떼어 둡니다 — 질문이 "모델이 한 운전 안에서 시간상 앞으로 외삽할 수 있는가?"일 때의 정직한 검정입니다. 그것은 행 분할보다 엄격하지만(미래가 뒤로 누설되지 않음) 배치 분할보다 약합니다(여전히 한 배치의 생물학만 봅니다). 바로 그래서 모음은 셋 모두에 이름을 붙여 둡니다. 분할의 정직성은 그 이름에서 읽어 낼 수 있어야 하는 속성입니다.

커밋된 soft_sensor_split_demo.py는 모음이 결정론적으로 재생성하는 데이터(스펙트럼 표는 git으로 실어 보내지 않고, 커밋된 동역학으로부터 make data가 다시 짓습니다) — 단일 황금 배치 BATCH-2026-001, 336개의 시간별 스펙트럼 — 위에서 그 점을 보여 줍니다. 같은 부분최소제곱 소프트 센서를 두 방식으로 적합하고 둘 다 출력합니다. 누설하는 방식은 행을 섞고, 정직한 방식은 나중 시간을 떼어 두어 모델이 시간상 앞으로 외삽하도록 강제합니다. 아래 수치는 그 모듈의 실행 로그에서 그대로 가져온 것입니다:

loaded raman_spectra.parquet: 336 spectra x 701 wavenumbers, 1 batch (BATCH-2026-001); titer 0.00..5.72 g/L
  RANDOM   row split (leaky: adjacent hours in train AND test) : R2=  0.9927  RMSE=0.1366 g/L   (235 train / 101 test)
  TEMPORAL split (honest: held-out LATER hours -> extrapolate): R2= -0.6325  RMSE=1.6153 g/L   (235 train / 101 test)
  the random split flatters by 1.625 R2 — that gap is the leak.

이것이 거짓말의 축소판입니다, 한 배치 위에서. 행 분할은 R² = 0.9927을 기록하는데, 모든 검정 스펙트럼이 한 시간 떨어진 거의 쌍둥이를 훈련 집합 안에 두고 있기 때문입니다 — 같은 세포 집단, 같은 배지, 몇 분 차이 — 그래서 모델은 사실상 이미 본 점들 사이의 보간으로 채점됩니다. 대신 나중 시간을 떼어 두면 정직한 R²는 −0.6325로 무너집니다. 모델은 이제 보정된 범위 위의 역가를 읽어야 하는데, 소프트 센서는 메커니즘 모델이 할 수 있는 방식으로 자기 보정을 넘어 외삽할 수 없습니다. 1.625 R² 간극은 미묘함이 아닙니다 — 그것은 슬라이드에 정리할 수 있는 수치와 모델이 전이 가능한 것을 아무것도 학습하지 못했음을 알려 주는 수치 사이의 차이입니다. 그 간극에 대해 이름 붙일 가치가 있는 것이 둘 있습니다. 첫째, 이것은 함정의 가장 부드러운 버전입니다. 데이터가 시뮬레이션되었고, 깨끗하고, 단일 배치라서, 누설은 운전 내 보간이 할 수 없는 외삽을 부풀리는 것으로만 나타납니다. 프로브 간 변동, 오염, 생물학적 표류가 모두 운전마다 다른 여러 배치에 걸친 실제 라만에서는, 같은 행 분할의 부풀림이 간신히 양수인 떼어 둔 R²를 일상적으로 숨깁니다 — 바로 그래서 실제 라만 보정이 한 배치 안이 아니라 여러 배치에 걸쳐 지어지고 검증되는 것입니다. 둘째, 그 누설은 지표 자체에서는 보이지 않습니다. 0.9927은 의기양양한 결과처럼 보이고, 슬라이드에 깔끔하게 정돈되며, 중요한 검사 하나 — 인접한 시간이 분할을 가로질러 누설되도록 두기를 거부하는 것 — 를 빼고는 모든 검사를 통과합니다. 다음 장은 누설을 의식한 분할(배치 전체를 떼어 두거나, 앞쪽 꼬리를 떼어 두기)을 전체 예제 모음이 그 위에 지어지는 기본값으로 만듭니다. 여기서 그것은 바이오공정이 교과서적 습관을 벌한다는 첫 증거이며, 문헌은 바로 이런 종류의 부적절한 검증을 보고된 성공이 재현되지 못하는 분야 전반의 이유로 지목합니다.

같은 주의에는 더 깊은 버전이 있습니다. 여러 배치가 있을 때조차, 운 좋은 한 쌍을 떼어 두는 것은 여전히 단일 분할에 지표를 거는 일이고, 배치가 한 줌뿐이면 그 내기는 시끄럽습니다 — 어느 쌍을 떼어 두느냐가 수치를 움직입니다. 소량 데이터에 맞는 해법은 그룹 교차 검증(scikit-learn의 GroupKFold / LeaveOneGroupOut, batch_id로 그룹화)으로 모든 배치에 걸쳐 떼어 둔 점수를 평균하는 것입니다. 그러면 어떤 운전도 자기 자신으로 훈련하고 검정하지 않으며, 보고된 실력은 운 좋은 한 번의 추출이 아니라 폴드에 걸친 평균이 됩니다. 모음의 출하 예측기는 바로 이것 — 중첩 그룹 교차 검증 — 을 하며, 배치가 증거의 단위이면서 동시에 공급이 부족할 때 수치를 보고하는 정직한 방법입니다.

소량 데이터 천장, 그리고 네 가지 더 깨진 가정

행 분할 함정은 증상입니다. 병은 GMP 아래 살아 있는 공정이 교과서 ML의 하중을 지탱하는 가정들을 위반한다는 것입니다 — 그중 다섯이며, 각각 "그냥 표준대로 하라"는 본능을 실패 양식으로 바꿉니다.

1 — 소량 데이터 천장: 당신은 수백만이 아니라 수십 운전에서 학습한다. 배치 하나는 몇 주의 점유와 배지, 세포, 인건비에서 한 재산이 듭니다. 한 캠페인은 한 줌의 운전을 내고, 한 해는 수십 개를 냅니다. 이것이 이 분야의 구속 제약이며, 교과서의 중심 본능을 뒤집습니다. 인터넷 규모 ML이 모든 문제에 "데이터를 더, 모델을 더 크게"로 답하는 곳에서, 바이오공정은 그럴 수 없습니다 — 데이터는 하나씩, 천천히, 막대한 비용으로 자랍니다. 이 책 자신의 데이터셋이 그 정직한 규모입니다. 이름 붙은 여섯 배치, 그중 하나가 OOS 경우. 순수 데이터 굶주린 모델은 이 체제에서 굶거나 과적합하며, 모음이 그것을 직접 보여 줍니다. 소프트 센서에서 5,713-매개변수 합성곱 신경망은 702-계수 선형 PLS 모델을 이기지 못하는데, 더 큰 모델의 식욕을 먹일 데이터가 충분하지 않기 때문입니다. 이기는 방법들 — 메커니즘 골격을 가진 하이브리드 모델, 전이학습, 베이지안 사전 — 은 모두, 바닥에서 보면 더 적은 예제를 필요로 하는 방법입니다. 그래서 하이브리드 모델링 장이 책 전체에서 하중을 지탱하는 장입니다. 물리가 수십 운전으로는 데이터가 할 수 없는 일을 합니다. 소량 데이터는 또한 점 추정을 오해하기 쉽게 만듭니다. 한 줌의 배치에서 계산한 R²나 AUROC는 그 자신의 불확실성이 얼마나 넓은지를 숨기므로, 정직한 관행은 — 모음이 따르는 대로 — 단일 수치 대신 떼어 둔 지표 주위의 부트스트랩 신뢰 구간을 보고하는 것입니다. 출하 예측기에서 그 구간은 0.7대 중반에서 1.0까지 뻗는데, 그 폭이 깔끔한 점 뒤에 숨겨지는 대신 정직함으로 진술된 소량 데이터 천장 그 자체입니다.

2 — 콜드스타트 주기: 정답은 하루에 한두 번 도착한다. 그 비대칭은 잔혹하고 정확합니다. 히스토리안은 온라인 태그와 라만 프로브를 몇 초마다 기록합니다 — 배치당 수천 개의 값싸고 빠른 점. 그러나 기준 측정, 역가와 대사물과 생존율의 실제 정답은, 대략 하루에 두 번 표집된 벤치 분석에서 옵니다 — 14일 배치에 걸쳐 약 28번 — 그리고 출하 CQA는 정확히 한 번, 끝에서. 특징은 홍수이고, 라벨은 가는 물줄기입니다. 산술은 극명합니다. 단일 배치의 라만 스트림은 수백 개의 스펙트럼일 수 있지만, 그 수백은 그것들을 채점하기 위해 존재하는 스무 몇 개의 기준 역가에만 닻을 내리므로, 정보를 담은 단위 수는 행 수가 아니라 라벨 수입니다. 바이오공정 ML 문헌은 이를 콜드스타트 문제(cold-start problem)라 부르며, 그것은 모든 것을 다시 빚습니다. 희소 자원은 데이터가 아니라 라벨이므로, 한 배치에서 나온 백만 개의 라만 점도 공정이 운전 간에 어떻게 거동하는지에 대해서는 여전히 한 배치 분량의 정보입니다. 행을 정보와 혼동하는 것은 옷만 다른, 행 분할과 같은 오류입니다 — 둘 다 상관된, 값싸게 복제된 특징을 독립적 증거로 오인합니다. 다음 장은 이 주기를 "어떤 모델도 앞지를 수 없는" 제약이라 이름 붙입니다.

3 — 운전 간 변동성: 예제는 독립적이지도 동일하게 분포하지도 않는다. 교과서 ML은 하나의 분포에서 독립적이고 동일하게 분포된 — i.i.d. — 예제를 가정합니다. 배치는 독립적이지도 동일하지도 않습니다. 자매 운전은 세포 은행, 배지 로트, 작업자, 용기를 공유하므로 독립이 아니라 상관됩니다. 그리고 생물학적 변동성은 같은 레시피의 두 운전이 측정 가능하게 다른 자리에 떨어지게 합니다. 리뷰들은 운전 간 변동성이 "전이성을 심각하게 훼손한다"고 보고하므로, 한 캠페인에서 보정된 모델이 명백히 바뀐 것이 없어도 다음 캠페인에서 저하될 수 있습니다. 모음의 여섯 출하 패널은 그 산포를 또렷이 보여 줍니다 — 다섯 PASS 배치 사이에서도 CEX 주봉(main-peak) 분율은 약 4점에 걸치고(66.7~~70.7%) SEC 고분자량 응집체는 1.1~~1.7%에 걸치는데, 모두 "규격 내"이면서도 눈에 띄게 동일하지 않습니다. 그래서 정직한 분할은 배치 전체를 떼어 두고, "우리 여섯 배치에서 통했다"가 같은 문장을 육천 개의 독립 표본에 대해 말하는 것보다 훨씬 약한 주장인 것입니다. 상관된 여섯 배치는 각각이 아무리 많은 스펙트럼을 보태도 육천 개의 독립 행 분량의 증거보다 훨씬 적게 담습니다.

4 — 비정상성: 공정이 모델 밑에서 움직인다. 교과서의 고정된 분포는 여기 존재하지 않습니다. 세포는 계대를 거치며 표류하고, 크로마토그래피 수지는 주기를 거치며 노화하며, 원자재 로트는 공급사를 바꾸고, 공정 자체가 조정됩니다. 이번 분기에 보정된 소프트 센서가 다음 분기에 쇠퇴할 수 있습니다 — 모델 쇠퇴는 빠르며 예외가 아니라 규칙입니다. 모음의 표류 예제는 그 두 얼굴을 모두 보여 줍니다. 온라인 대 오프라인 포도당 잔차 차트가 주입된 프로브 오염 표류(7일 이후 걸어 나가는 센서 판독)를 잡아내고, 배치 전반의 모집단 안정성 비교가 여러 배치가 황금 운전의 분포에서 측정 가능하게 멀어지는 것을 보여 줍니다. 더 나쁘게도, 정답이 콜드스타트의 가는 물줄기이기 때문에 표류는 늦게 탐지됩니다. 아침에 표류하기 시작한 센서는 저녁 기준이 돌아오기 전까지는 틀렸다고 입증할 수 없으므로, 표류 깃발은 구조상 후행 지표(lagging indicator)입니다. 여기서 모델은 결코 "끝난" 것이 아닙니다. 그것은 일정에 따라 불신해야 하는 것이며, 그래서 MLOps 장이 모니터링과 사전에 정한 재학습 계획을 뒤늦은 생각이 아니라 모델의 일부로 다루는 것입니다.

5 — 잘못된 판단의 비용은 비대칭적이고 크다. 대부분의 ML 환경에서 오예측은 클릭 한 번이나 추천 하나를 비용으로 칩니다. GMP 아래에서 그것은 한 재산 값어치의 배치를 폐기하거나 — 실제로 중요한 실패로 — 불량 배치를 환자에게 통과시킬 수 있습니다. 그 비대칭은 수용 가능성의 셈을 바꿉니다. 모델은 평균 정확도가 아니라 꼬리에서의 거동으로 판단되며, 혼동 행렬은 의약품에 대해 자신만만하게 틀린 비용을 담을 수 없습니다. 두 오류 방향은 결과에서 대칭이 아니므로 운전점이 그것들에 맞추어 선택됩니다. 모음의 출하 예측 모델은 거짓 경보라는 의도된 대가로 OOS 배치를 잡도록(높은 재현율) 조율됩니다. 놓친 OOS가 용납할 수 없는 오류이고 거짓 경보는 그저 비싼 것이기 때문입니다 — 균형 정확도 점수가 정확히 숨길 거래입니다. 그것은 또한 규제 당국이 학습 모델을 중요 경로 밖으로 울타리 치는 이유입니다. 계속 학습하는 모델은 전통적 일회성 검증이 결코 대비하지 못한 움직이는 표적이므로, 업계는 잠그고-나서-재학습(lock-then-relearn)으로 수렴했습니다 — 검증 시점에 모델을 동결하고, 모든 갱신을 사전에 정한 변경 관리 계획으로 통제하는 것. 잘못된 판단의 비용이 데모-대-공장 간극이 경사로가 아니라 절벽인 이유입니다.

이 다섯은 독립적 불평의 목록이 아닙니다. 그것들은 맞물립니다. 소량 데이터(1)는 순수 학습이 왜 정체하고 하이브리드가 이기는지의 이유입니다. 콜드스타트 주기(2)는 왜 특징이 아니라 라벨이 희소 자원이고 왜 표류(4)가 늦게 잡히는지의 이유입니다. 운전 간 변동성(3)은 왜 떼어 둔 단위가 배치 전체여야 하는지의 이유입니다 — 행 분할이 거짓말하는 것과 같은 이유입니다. 그리고 잘못된 판단의 비용(5)은 왜 검증 대 학습의 긴장이 공학만으로 풀리지 않는지의 이유입니다. 함께 그것들은 ML이 실연할 수 있는 것과 일상적 GMP에서 허락되고 — 또 가능한 — 것 사이의, 조사들이 계속 측정하는 그 간극에 대한 하나의 설명입니다.

소프트 센서 학습 문제의 해부

추상을 구체화하기 위해, 상류 바이오공정에서 가장 대표적인 단 하나의 학습 문제를 풀어 봅시다. 역가 소프트 센서(titer soft sensor), 스펙트럼으로부터 연속적 양을 추론하는 지도 회귀입니다. 그것을 항목별로 펼쳐 놓으면 위의 모든 가정이 한 틀에 보입니다 — 모델이 무엇을 받고, 무엇을 내야 하며, 규칙서가 정확히 어디서 휘는지. 그것은 종이 위에서는 상상할 수 있는 가장 평범한 문제입니다. 특징 벡터에서 연속적 숫자 하나를 예측하라. 흥미는 전적으로 각 항목에 붙은 단서에 있습니다.

역가 소프트 센서를 온전히 풀어낸 것: 한쪽에 값싸고 빠른 특징(라만 스펙트럼에 더해 온라인 상태), 다른 쪽에 희소한 하루 두 번 기준 라벨, 정직한 분할을 홀로 결정하는 batch-id 키, 그리고 이것을 평범해 보이는 회귀에 비범한 단서 한 묶음을 붙이는 다섯 깨진 가정 — 소량 데이터, 콜드스타트, 비-i.i.d. 배치, 비정상성, 비대칭적 비용. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

카드를 위에서 아래로 읽으면 이 장 전체가 항목으로 펼쳐집니다:

특징 — 홍수. 701채널 라만 스펙트럼(wn_400부터 wn_1800까지)에 더해 정렬된 온라인 상태 — 온도, pH, 용존 산소 — 모두 연속적으로 거의 공짜로 이용 가능하며, 배치당 수천 행. 이것은 빅데이터처럼 보이지만 아닌 부분입니다. 행은 값싸고, 빠르며, 심하게 상관되어 있어서, 그 수는 모델이 실제로 아는 양을 과장합니다.
표적 — 가는 물줄기. 누군가 표본을 뽑아 벤치 분석을 돌렸기 때문에만 존재하는 오프라인 titer_g_L, 배치 전체에서 약 스물여덟 개 중 하나. 이것이 구속하는 희소성입니다. 모델이 학습할 수 있는 모든 것은 이 스무 몇 개의 라벨에 의해 한정되지, 그것들을 둘러싼 수천 개의 특징 행에 의해서가 아닙니다.
그룹 키 — 모든 것을 결정하는 조용한 항목. batch_id는 정직한 평가를 부정직한 평가로 바꾸는 열입니다. 그것으로 분할하면(배치 전체를 떼어 둠) 보고된 실력은 방어 가능하고, 그것을 가로질러 분할하면(행을 섞음) 보고된 실력은 허구입니다. 그것은 카드에서 가장 영향력 있는 항목이자 무시하기 가장 쉬운 항목입니다.
제약 — 각주가 아니라 상존하는 단서로서의 다섯 깨진 가정. 소량 데이터(수백만이 아닌 여섯 배치), 콜드스타트 주기, 운전 간 변동성(배치는 i.i.d.가 아님), 비정상성과 빠른 모델 쇠퇴, 그리고 GMP 아래 잘못된 판단의 비대칭적 비용. 하나하나가 그렇지 않으면 사소했을 회귀가 그 수학이 시사하는 것보다 더 큰 주의로 지어지고, 검증되고, 모니터링되어야 하는 이유입니다.

카드가 정직하게 이름 붙이는 미묘함 하나: 포도당, 젖산, 역가는 직접적인 분자 띠(band)를 가지고 그 소프트 센서는 진정으로 상용이지만, 생존세포밀도(viable cell density)에는 깨끗한 라만 띠가 없습니다 — 생존세포밀도(VCD)는 단위 부피당 살아 있는 세포의 수이고, 라만 "띠"는 특정 분자가 만들어 내는 스펙트럼의 봉우리입니다. VCD는 분자의 농도가 아니라 물체의 수이므로, 라만이 담는 VCD 신호가 무엇이든 간접적이고 교란되어 있습니다(그것은 탁도와, 띠를 가진 대사물과의 상관에 올라탑니다). 그래서 라만 VCD 모델은 전이가 잘 되지 않고, 생존 생물부피(biovolume)로 직접 통하는 유전체(capacitance) 분광법이 보통의 답인 것입니다. 따라서 VCD는 이 가족의 끈질긴 약점으로 남습니다 — "소프트 센서"가 하나의 해결된 것이 아니라 분석물마다 성숙도가 매우 다른 가족이라는 상기입니다. 같은 카드가, 다른 표적과 더 나쁜 분광 서명으로, 공장 현장에서 몇 년 떨어진 문제를 기술할 수 있습니다.

그룹 키를 신뢰할 수 있게 만드는 것: 훈련 집합 아래의 지식 그래프

카드의 정직함 전체는 한 항목 — batch_id, 그룹 키 — 에 달려 있으며, 그 항목이 어디서 오는지와 무엇이 그것이 말하는 바를 의미하도록 보증하는지를 정확히 짚을 가치가 있습니다. 바로 그곳이 4권의 온톨로지가 별개의 주제이기를 멈추고 모델에 하중을 지탱하기 시작하는 지점이기 때문입니다. 문자 그대로 batch_id라 이름 붙은 열은 부서지기 쉽습니다. 그것은 로더가 고른 문자열이라, 오타 내기 쉽고, 두 방식으로 적어 두기 쉽고, 운전 대신 용기를 가리키기 쉽습니다. 그것을 신뢰할 수 있게 만드는 것은, 그것이 지식 그래프(knowledge graph, 각 사물이 노드이고 이름 붙은 각 링크가 엣지인 사실의 그물) 안의 타입화된 정체성의 표면 형태라는 점입니다 — 4권의 계보 장과 3권의 지식 그래프 장에서 지어진 것입니다. 열만으로는 줄 수 없는 두 가지 의미론적 보증이 그룹 키를 부서지기 쉬운 문자열에서 규제 당국이 신뢰할 수 있는 무엇으로 바꿉니다.

첫째는 그룹 키로서의 계보입니다. "배치 전체를 떼어 둔다"는 것은 그래프 용어로 계통으로 그룹화하는 것이고 — 계통은 열이 아니라, 모든 원료의약품 로트를 하나의 동결된 작업 세포 은행에 뿌리내리는 추이적 bp:derivedFrom 척추(PROV-O의 was derived from과 OBO 관계 온톨로지의 derives from에 정렬된 계보 엣지)입니다. 그 엣지가 배치-단위-제외 교차 검증으로 하여금 올바른 단위를 추론하게 합니다. 세포 은행이나 배지 로트를 공유하는 두 운전은 독립적이지 않으며, 그래프는 그 공유된 부모성을 걸을 수 있는 엣지로 이미 기록해 둡니다. 그래서 진정으로 올바른 떼어 둔 단위는 "다른 batch_id 문자열을 가진 행"이 아니라 "훈련 집합과 조상을 공유하지 않는 로트" — 그룹이 평평한 라벨에 맡겨지지 않고 계보에서 읽어 내어지는 그룹-단위-제외 분할입니다. 4권에서 회수(recall)를 범위 짓는 같은 bp:derivedFrom 걷기가 여기서 정직한 교차 검증 폴드를 범위 짓습니다. 그것들은 두 번 쓰인 하나의 메커니즘입니다.

둘째는 훈련 전 게이트로서의 완전성입니다. 다섯 번째 깨진 가정은 틀리는 것을 비싸게 만들었습니다. 틀리기에 가장 값싼 자리는 조용히 불완전하거나 범위를 벗어난 입력으로 훈련하는 것입니다. 출하 결정에는 바로 이것을 위한 가드가 이미 있습니다 — 4권의 출하 게이트 장에서 온 SHACL 출하 셰이프(SHACL: 그래프가 요구되는 사실을 담는지 검증하는 셰이프 제약 언어, Shapes Constraint Language)로, 모든 출하 로트가 각 CQA에 대해 규격 내 값을 정확히 하나 담을 것을 요구하는 같은 bp:ReleaseShape입니다 — 단량체 ≥95.0%, HMW ≤2.0%, CEX-main 60–80%, HCP ≤100. 같은 셰이프를 훈련 집합 위에 돌리면 그것은 데이터 완전성 계약이 됩니다. 기준 역가가 빠진 배치, 서로 충돌하는 HCP 결과 둘을 지닌 배치, 범위를 벗어나 앉은 배치는 나중에 수수께끼 같은 잔차로 발견되는 것이 아니라 학습되기 전에 잡힙니다. BATCH-2026-004가 출하될지 결정하는 그 출하 게이트가, 상류에 재사용되어, 한 행이 훈련에 적합한지 결정하는 게이트입니다 — 폐쇄 세계 검증(빠진 필수 결과는 열린 "미지"가 아니라 지금 실패)이 제품의 출력에 하는 일을 모델의 입력에 하는 것입니다.

하나의 계보 척추와 하나의 출하 셰이프, 두 번 쓰이다: 4권에서는 회수를 범위 짓고 로트가 출하될지 결정하며, 5권에서는 같은 척추가 정직한 배치-단위-제외 폴드를 읽어 내고 같은 셰이프가 어느 행이 훈련에 적합한지 게이트합니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

두 보증의 밑바탕에는 데이터 그림자가 기대는 BFO(기초 형식 온톨로지, Basic Formal Ontology) 구분이 있습니다. 지속체(continuant)(지속하며 성질을 지니는 물질 배치)는 발생체(occurrent)(그것을 만든 2주짜리 배양 운전)와도, 용기인 BR-101과도 다른 노드입니다. 운전을 배치로 무너뜨리면 특징이 엉뚱한 개체에 조인되고, 용기를 배치로 무너뜨리면 연간 백 개의 배치를 도는 BR-101이 한 배치의 라벨을 물려받아 그것을 통과하는 모든 분할이 누설합니다. 자신의 온톨로지 IRI로 당겨진 특징 — 이 운전에서 측정된, 이 물질에 깃든, 이 성질 — 은 부서지기 쉬운 열 이름이 하는 방식으로 그 조인을 조용히 할 수 없습니다. 이 무엇도 여분의 ML 기계 장치가 아닙니다. 그것은 모델의 batch_id가 배치를 의미하게 만드는 데이터 규율이며 — 이 장의 정직한 분할 교훈과 4권의 그래프가 두 옷을 입은 같은 논증인 이유입니다.

미해결 과제: 데이터 천장이 언젠가 걷힐 것인가

정직한 미해결 질문은 다섯 긴장 중 어느 하나가 완화될 수 있느냐가 아니라 — 여럿이 조금씩 깎이고 있습니다 — 소량 데이터 천장 자체가 언젠가 벗어날 수 있느냐입니다. 다른 넷은 어떤 의미에서 관리됩니다. 배치 그룹 분할이 비독립성으로부터의 누설을 다루고, 잠그고-나서-재학습이 비정상성을 다루며, 재현율 가중 운전점이 비대칭적 비용을 다루고, 콜드스타트 주기는 해결되기보다 견뎌집니다. 천장은 다른데, 그것이 그 모두의 상류에 있기 때문입니다 — 이 책의 모든 대처 전략은 수십 운전 안에서 사는 방법이지, 그것을 더 만들어 내는 방법이 아닙니다. 탈출의 후보 경로들은 실재하지만 입증되지 않았습니다.

파운데이션 모델과 바이오공정 시계열 모델은 많은 공정에 걸쳐 학습을 상각하여 새 제품이 콜드스타트 대신 강한 사전에서 출발하게 하겠다고 약속합니다. 오늘날 그것들은 제품이 아니라 열망이며, 그것들을 훈련할 만큼 충분히 비교 가능하고 공유 가능한 바이오공정 데이터가 언젠가 존재할지는 진정으로 불확실합니다. 그런 모델을 먹일 데이터는 회사 안에 잠겨 있고, 서로 다른 공정과 분석 아래 생성되며, 한 회사 안에서조차 운전 간에 거의 비교 가능하지 않습니다 — 풀링을 가치 있게 만드는 바로 그 이질성이 그것을 어렵게 만드는 것입니다. 연합 학습(federated learning)은 데이터를 공유하지 않고 학습을 모으는 길을 제시하여, 원시 배치를 결코 노출하지 않는 기관들에 걸쳐 훈련합니다. 그러나 그것은 발견에서 제조로 건너오지 못했고, 거기서는 데이터가 더 단단히 지켜지고 더 이질적이며, 공유 모델 자체가 그 검증을 아직 아무도 설계하지 않은 규제 대상이 됩니다.

그리고 지금 짚을 가치가 있는 더 깊은 한계가 있는데, 그것이 책 전체에 그림자를 드리우기 때문입니다. 데이터 천장이 걷힌다 해도 규제 천장은 걷히지 않을 수 있습니다. 초안 EU/PIC/S GMP 부속서 22(Annex 22)는 중요 응용에서 정적이고 결정론적인 모델만 허용하고, 동적이고 연속 학습하며 확률적이고 생성적인 AI는 명시적으로 배제할 것입니다. 파운데이션 모델은 거의 정의상, 그 글이 중요 경로에서 배제할, 크고 확률적이며 연속 갱신되는 종류의 대상입니다 — 그래서 데이터 천장을 깰 가능성이 가장 높은 기술이 초안 규칙이 가장 정면으로 울타리 치는 기술이기도 합니다. 자율적 바이오공정의 구속 제약은 모델이 무엇을 학습할 수 있느냐가 아니라, 우리가 감독 없는 모델이 인간 의약품에 대해 무엇을 결정하게 둘 의향이 있느냐로 드러날지 모릅니다. 그것은 데이터가 더 많아진다고 풀리는 문제가 아닙니다 — 그것은 신뢰와 책임에 관한 질문이며, 옳게도 미해결입니다. 이 장은 그것을 이름 붙일 뿐입니다. 평결이 정할 수 있는 곳에서 정합니다.

두 사다리: 성숙도와 증거

이 분야의 중심 문제가 보여지는 것과 실제인 것 사이의 간극이기 때문에, 이 책은 모든 주장을 두 독립적 사다리로 매기며, 그 둘을 뒤섞는 것이 이 문헌을 읽을 때 가장 흔한 오류입니다.

성숙도(maturity)는 "그것이 얼마나 멀리 갔는가?"에 답합니다 — 세 단짜리 사다리:

(상용) — GMP 또는 상업 공장에서 돌아가며, 실제 물질과 실제 결정에 닿음. 짧고 단단한 목록: MSPC 모니터링, 포도당과 역가의 라만 소프트 센싱, 바이알 비전 검사, 메커니즘적 크로마토그래피 모델링, 예외 기반 검토 실행.
(파일럿) — 제조 규모에서 또는 그에 가깝게 실연됨, 종종 동료 심사됨, 그러나 일상적 GMP 사용에 서 있지는 않음. 하이브리드 디지털 트윈, 포획의 모델 예측 제어, 베이지안 최적화 공정 개발.
(연구) — 학술적이거나 초기 단계, 아직 규모에 이르지 않음.

이 책은 응용에 그 단을 인라인으로 — (상용), (파일럿), (연구) — 태그하여, 독자가 어떤 기법이 실제로 얼마나 멀리 여행했는지 항상 알게 합니다. 모음 자신의 사례 장부가 정직한 인구 조사입니다. 이름 붙은 배치 열여섯 개 중 다섯이 상용, 열이 파일럿, 하나가 연구입니다 — 그 분포 자체가 셈해진 데모-대-공장 간극입니다.

증거 등급(evidence tier)은 다른 질문 — "증거가 얼마나 좋은가?" — 에 답합니다 — 이 책이 모든 외부 수치에 붙이는 네 단짜리 사다리:

독립 동료심사(peer-reviewed-independent) — 만든 사람이 아닌 누군가에 의해 출판되고 검증됨. 이것이 사실 바닥(fact floor)입니다. 이 등급에서 또는 그 위에서만 수치를 확립된 사실로 진술할 수 있습니다.
자체 저자 동료심사(peer-reviewed-self-authored) — 출판되었으나, 그것을 만든 팀에 의해.
벤더 자체보고(vendor-self-reported) — 회사 자신이 공개한 수치, 검증되지 않음.
보도자료 한정(press-release-only) — 단일 헤드라인, 방법 없음.

두 사다리는 독립적입니다. 자동 시각 검사는 상용 성숙도이지만 벤더 자체보고 등급일 뿐입니다(암젠의 "대략 95%의 시린지와 바이알이 자동 출하됨"은 실제 배치이지만 자체보고된 수치입니다). 동료 심사된 하이브리드 모델링 결과는 파일럿 성숙도일 뿐이면서 자체 저자 동료심사 등급에 닿을 수 있습니다. 주장을 어떻게 다룰지 알려면 두 단이 다 필요합니다. 이 책이 예외 없이 따르는 규율: 수치를 같은 문장 안의 등급 없이 결코 인용하지 않기, 그리고 사실 바닥 아래의 어떤 효율 헤드라인도 사실이 아니라 예시로 다루기. 맺는 장이 이것을 실행 가능하게 만듭니다 — 이름 붙은 배치들의 구조화된 장부로, 여기서 이 분야에서 가장 많이 인용되는 헤드라인 결과 중 0개가 독립 사실 바닥을 통과합니다(장부의 일곱 수치 주장은 모두 자체 저자 동료심사, 벤더 자체보고, 또는 보도자료 한정입니다). 그것은 냉소가 아닙니다. 그것은 자체보고 문제의 정량화된 모양이며, 신중한 독자를 잘 믿는 독자와 가장 크게 가르는 단 하나의 습관입니다.

이 장이 모델 모음에 더하는 것

5권의 각 장은 examples/platform/ml/에 실행 가능한 코드를 보태며, 이 첫 장은 나머지가 그 위에 서는 주춧돌을 놓습니다:

examples/platform/ml/dataio.py — 공유 데이터 계층이자, 결정적으로, 위에서 소개한 누설을 의식한 분할 도우미들. 그것은 시리즈의 데이터셋 — 커밋된 CSV(offline_assays.csv, hplc_results.csv)와 결정론적으로 재생성 가능한 스펙트럼·상태 표(raman_spectra.parquet, fedbatch_state.parquet, make data가 다시 지음) — 을 배치 정체성에 키를 맞추어 적재하고, 정직성이 이름에 명시된 세 분할을 노출합니다. batch_split(배치 전체를 떼어 둠 — 정직한 기본값), temporal_split(단일 배치 타임라인에서 앞으로 외삽), random_split(부풀려진 지표를 실연하기 위해서만 보존됨). random_split 대 temporal_split의 대비는 이 장의 교훈을 API로 컴파일한 것입니다. 같은 황금 배치에서 R² 0.99와 음의 R² 사이의 간극은 일화가 아니라, 같은 데이터에서 그 두 함수가 반환하는 것입니다. 커밋된 soft_sensor_split_demo.py가 바로 그 비교를 게이트된 검사로 실행합니다(make data가 그것이 읽는 스펙트럼 표를 재생성한 뒤에). 다음 장이 그것을 형식화하고, 뒤의 모든 모델이 dataio를 임포트하여 누설 없는 분할이 누군가 기억해야 할 규율이 아니라 최소 저항의 길이 되게 합니다.

왜 중요한가

이 책의 모든 것은 이 장의 틀 잡기를 옳게 하는 데 달려 있습니다. 바이오공정 ML 프로젝트가 죽는 가장 흔한 방식은 나쁜 알고리즘이 아니라 — 교과서의 약속이 지켜지는 것처럼 적용된 좋은 알고리즘이기 때문입니다. 행을 무작위로 분할하는 팀은 환상의 R²를 보고합니다 — 위의 무작위 분할 거짓말의 깨끗한 0.99로, 누설을 의식한 분할만 빼고 모든 검사를 통과합니다 — 를 정리해 두고, 처음으로 진정으로 보지 못한 운전에서 모델이 무너지는 것을 지켜봅니다. 모니터링 계층이 단단해지기 전에 자율적 트윈에 손을 뻗는 팀은 모래 위에 짓습니다. 벤더의 역가 헤드라인을 사실로 인용하는 팀은 그 수치가 재현될 수 없을 때 자기 신뢰성을 잃습니다. 해독제는 이 장이 설치하는 보정입니다. 작업이 어느 학습 갈래에 속하는지 알고, 다섯 가정 중 어느 것을 깨뜨리는지 알고, 어느 성숙도 단에 앉아 있는지 알고, 수치가 어느 증거 등급을 지니는지 아는 것. 그중 무엇도 모델 아키텍처가 아닙니다. 그 모두가 당신이 짓는 무엇이든 실재인지를 결정하는 판단입니다.

실제 현장에서는

데모-대-공장 간극은 이 분야에서 가장 일관되게 측정된 발견입니다. ISPE 제7차 Pharma 4.0 조사는 AI/ML을 어떤 디지털 기술보다도 가장 많은 파일럿과 가장 적은 규모 배치에 두며, 상용 배치는 정확히 모니터링, 예지 보전, 비전 검사, 사람이 루프 안에 있는 문서화에 모이고 — CQA의 자율 제어에는 결코 모이지 않습니다 [1]. 매킨지의 State of AI는 산업 전반에서 같은 모양을 발견합니다. 거의 보편적인 채택, 전사적 영향은 한 조각 [2]. 그리고 바이오공정 ML 리뷰들은 소량 데이터 / 콜드스타트 체제와 부적절한 검증으로부터의 데이터 누설을 보고된 성공이 그토록 자주 재현되거나 전이되지 못하는 두 기술적 이유로 지목합니다 [3] — 바로 이 장이 열며 든 무작위 분할 거짓말이며, 문헌이 그것을 초심자의 실수가 아니라 분야 전반의 실패 양식으로 이름 붙입니다. 규제의 골조도 같은 독해로 수렴합니다. FDA의 2023년 의약품 제조 AI 논의 문서와 초안 부속서 22는 둘 다 학습 모델을, 그것들이 규제 대상으로서 검증될 수 있을 때까지, 중요 경로 밖에 둡니다 [4]. 책의 나머지가 풀어내는 정직한 한 문장 요약: 바이오제조에서 ML은 보기와 추론하기에 대해 상용급이고, 최적화하기에 대해 파일럿급이며, 자율적으로 결정하기에서는 의도적으로 울타리 쳐져 있습니다 — 그리고 그 울타리는 목적을 가지고 거기 있습니다.

핵심 용어

GMP(Good Manufacturing Practice) — 의약품이 제조되어야 하는 규제 품질 틀. 잘못된 모델 판단이 그만한 비용을 짊어지는 이유.
CQA(critical quality attribute, 중요 품질 특성) — 배치가 출하되려면 안전한 범위 안에 머물러야 하는, 약의 측정 가능한 속성(예: 숙주세포단백, SEC 단량체).
OOS(out-of-specification, 규격 이탈) — 허용 범위 밖의 측정 결과. 출하 CQA가 OOS이면 배치가 거부됨.
라만(Raman) — 스펙트럼(곡선)이 시료의 분자 구성을 부호화하는 광산란 분광법으로, 매 1–2분마다 인라인으로 읽음. 일꾼격 소프트 센서 입력.
R²(결정계수, coefficient of determination) — 소프트 센서의 적합 점수: 1.0은 완벽, 0은 평균 추측보다 낫지 않으며, 음수는 그보다도 나쁨.
PCA / PLS — 주성분 분석과 부분최소제곱: 많은 상관된 측정을 몇 개의 결합된 패턴으로 압축하는 방법. MSPC 모니터링의 골격.
호텔링 T² / SPE(Hotelling's-T² / SPE) — 두 MSPC 한계: T²는 배치가 정상 패턴 안쪽 어디에 앉아 있는지를, SPE(제곱예측오차)는 모델이 배치를 도무지 설명하지 못하는 양을 측정함.
데모-대-공장 간극(demo-to-plant gap) — 큐레이션된 실연에서 잘하는 모델과 GMP 아래 매 교대마다 무인으로 돌아가는 모델 사이의 구조적 거리. 조사들이 AI/ML의 가장-많은-파일럿, 가장-적은-규모 프로필로 측정함.
지도학습(supervised learning) — 라벨이 붙은 예제로부터 함수를 적합하기. 연속 표적에 회귀(소프트 센서), 이산 라벨에 분류(비전 검사, OOS 예측).
비지도학습(unsupervised learning) — 라벨 없이 "정상"의 모양을 학습하기. 바이오공정에서는 MSPC 황금 배치 모니터링과 이상 탐지로, 좋은 배치들의 라이브러리만으로 외피를 정의함.
강화학습 / MPC(reinforcement learning / MPC) — 피드백으로 제어 정책을 학습하거나 최적화하기. 데이터 굶주림이라 바이오공정에서 대부분 연구/파일럿이며, 거기서는 물리 기반 MPC가 중요 경로를 지배함.
소프트 센서(soft sensor) — 값싼 인라인 신호(라만 스펙트럼)로부터 값비싼 오프라인 양(역가, 포도당, 젖산)을 기준 표본들 사이에서 추론하는 회귀 모델.
준/자기 지도, 전이, 하이브리드 모델링(semi-/self-supervised, transfer, hybrid modeling) — 네 번째 학습 갈래가 아니라 라벨 희소성을 위한 대처 전략 한 묶음으로, 각각 값싼 라벨 없는 신호, 관련 제품, 또는 메커니즘적 구조에 기대어 라벨을 덜 쓰는 방법.
소량 데이터 천장(small-data ceiling) — 바이오공정 ML의 구속 제약: 수백만이 아니라 학습할 비싼 운전 수십 개. 그래서 하이브리드 모델링과 사전이 블랙박스를 이기고 더 큰 신경망은 도움이 되지 않음.
콜드스타트(cold start) — 오프라인 기준 측정의 하루 한두 번 주기로, 모델이 얼마나 빨리 학습할 수 있고 표류가 얼마나 늦게 탐지되는지를 제한함. 희소 자원은 특징 행이 아니라 라벨임.
운전 간 변동성(run-to-run variability) — i.i.d. 가정을 깨뜨리고 배치 전체 떼어 두기 분할을 강제하는, 배치의 생물학적 비독립성과 비동일성.
비정상성 / 모델 쇠퇴(non-stationarity / model decay) — 모델 밑에서 움직이는 공정(세포 표류, 수지 노화, 로트 변경)으로, 그래서 모델은 한 번 검증되는 것이 아니라 일정에 따라 불신되어야 함.
데이터 누설(무작위 분할 함정)(data leakage / random-split trap) — 거의 복제본인 배치 내 이웃이 행 단위 분할의 양쪽에 떨어지기 때문에 부풀려진 지표를 보고하는 것. 이 분야의 가장 흔한 검증 오류로, 단일한 깨끗한 시뮬레이션 배치에서도 행 분할 R² 0.99 대 음의 떼어 둔 R²만큼 차이가 남.
지식 그래프 / 그룹 키(knowledge graph / group key) — batch_id를 부서지기 쉬운 문자열 이상으로 만드는, 타입화된 노드와 엣지의 그물(3권과 4권에서 지어짐): 추이적 bp:derivedFrom 계보 척추가 정직한 배치-단위-제외 분할에 필요한 계통별 그룹화를 공급하고, BFO 지속체/발생체 구분이 측정과 그 운전과 그 용기를 특징이 우연히 조인할 수 없는 별개 노드로 유지함.
SHACL 훈련 데이터 게이트(SHACL training-data gate) — 로트의 출하를 게이트하는 같은 폐쇄 세계 출하 셰이프(bp:ReleaseShape)를 훈련 집합 위에 완전성-과-범위 계약으로 재사용하여, 불완전하거나 범위를 벗어난 배치를 나중에 수수께끼 같은 잔차로 떠오르게 하는 대신 학습되기 전에 잡음.
성숙도 사다리(maturity ladder) — 상용 / 파일럿 / 연구: 배치가 실제로 얼마나 멀리 갔는가.
증거 등급(evidence tier) — 보도자료 한정 / 벤더 자체보고 / 자체 저자 동료심사 / 독립 동료심사. 마지막이 사실 바닥으로, 이 등급에서 또는 그 위에서 수치를 사실로 진술할 수 있음.

다음 이야기

우리는 틀을 갖추었습니다. 여기서 학습이 무엇인지, 살아 있는 공정이 다섯 가지 구체적 방식으로 규칙서를 왜 깨뜨리는지, 그리고 우리가 모든 주장을 매길 두 사다리. 이 장이 논증했듯, 구속 제약은 알고리즘이 아니라 데이터입니다 — 그 희소성, 그 주기, 그 준비성. 다음 장 데이터, 그 연료는 바로 그것으로 한 층 내려갑니다. 실제의 지저분한 바이오공정 데이터 자산 — 히스토리안 스트림, 듬성한 오프라인 분석, 종이와 디지털이 뒤섞인 기록 — 을 모델이 실제로 태울 수 있는 누설 없는 연료로 어떻게 바꿀지, 이 장이 미리 보인 dataio.py 토대를 전체 모음이 그 위에 서는 데이터 계층으로 지어 올리며. 데이터를 먼저 고치세요. 엔진은 그다음입니다.

이 장에서 다루는 내용​

데모와 공장 현장 사이의 간극​

실제 바이오공정 작업에 대응시킨 학습 분류 체계​

지도학습 — 회귀는 소프트 센서, 분류는 비전과 OOS 예측​

비지도학습 — 라벨이 필요 없는 방법, MSPC와 이상 탐지​

강화학습 — 데이터 체제와 규제 당국이 둘 다 붙잡아 두는 갈래​

간극에 있는 갈래들 — 라벨 희소성을 위한 대처 전략​

무작위 분할이 왜 거짓말을 하는가, 여덟 줄로​

소량 데이터 천장, 그리고 네 가지 더 깨진 가정​

소프트 센서 학습 문제의 해부​

그룹 키를 신뢰할 수 있게 만드는 것: 훈련 집합 아래의 지식 그래프​

미해결 과제: 데이터 천장이 언젠가 걷힐 것인가​

두 사다리: 성숙도와 증거​

이 장이 모델 모음에 더하는 것​

왜 중요한가​

실제 현장에서는​

핵심 용어​

다음 이야기​