UF/DF와 원액: 농도와 부형제의 소프트 센싱

📍 현재 위치: 4부 · 학습된 하류(Downstream, Learned) — 16장. 연마 크로마토그래피(polishing chromatography)는 단량체이고 전하-정확하지만 묽고 잘못된 완충액에 담긴 순수한 항체 풀을 하류에 넘겨주었습니다. 이 장은 마지막 변환을 학습합니다. 그 풀을 원액 농도까지 짜내고 완충액을 교환하는 것 — 그리고 모든 출하 핵심 품질 속성(critical quality attribute, CQA) — 규제 당국이 약물의 안전성과 유효성에 결부시키는 측정된 속성 — 이 마침내 측정되는 로트 DS-001을 생산하는 것.

분자는 이제 순수합니다. 아직 아닌 것은 완성(finished)입니다. 연마 후, 항체는 깨끗하지만 묽은 흐름입니다 — 리터당 몇 그램으로, 마지막 컬럼의 용출 완충액에 녹아 있는데, 그것은 환자의 용량에 필요한 완충액과는 전혀 다릅니다. 마지막 하류 단위 작업, 한외여과/정용여과(ultrafiltration/diafiltration, UF/DF) 의 일은 동시에 두 가지입니다. 막을 통해 물을 밀어내어 단백질을 원액 표적까지 농축하고(현대 고농도 mAb에서는 흔히 리터당 수십 그램), 옛 공정 완충액을 씻어내어 분자가 살게 될 제형 완충액으로 교체하는 것(정용여과)입니다. 막이 마침내 멈추면, 거기서 나오는 것이 원액(drug substance) — 공급망의 나머지가 제품으로 다루는 벌크 물질 — 이며, 우리 진행 예제에서 그것은 로트 DS-001(로트는 물질의 한 개별적이고 추적 가능한 배치입니다)로, PApool-001(정제 트레인 앞쪽의 단백질 A 포획 풀)과 그 뒤의 모든 계보로부터 유래합니다.

UF/DF는 학습 렌즈가 속을 만큼 단순해 보이는 단계를 만나는 곳이며, 또한 바이오리액터 이래 우리가 쫓아 온 출하 CQA가 마침내 측정되는 곳이기도 합니다. 두 숫자가 이 작업을 다스립니다 — 단백질이 얼마나 농축되었는가, 그리고 옛 완충액이 얼마나 남았는가 — 그리고 둘 중 어느 것도 믿기 쉬운 빠르고 값싼 GMP급(우수 제조 관리 기준, Good Manufacturing Practice — 약물 제조사가 반드시 따라야 하는 구속력 있는 품질 시스템 규칙) 인라인 분석(assay)(품질 속성의 실험실 측정)을 갖고 있지 않습니다. 그래서 이 장은 다시 한번 소프트 센싱 장입니다. 직접 측정하기 느리거나 비싼 양을, 늘 이용 가능한 값싼 신호로부터 추론하는 것입니다. 스키드가 이미 나르는 값싼 신호로부터 농도와 부형제 상태를 예측하고, 정용여과가 언제 끝나는지 예측하며, 그렇지 않으면 완성될 배치를 망치는 일탈을 표시합니다.

쉽게 말하면

소스를 졸인 다음 양념을 바꾸는 것을 떠올려 보세요. 충분히 걸쭉해질 때까지 물을 끓여 날리고(그것이 농축), 그다음 신선한 육수를 계속 더하며 다시 졸이기를 거듭하여, 옛 짠 국물이 새것으로 거의 완전히 교체될 때까지 합니다(그것이 정용여과). 어려운 부분은 맛보러 멈추지 않고 두 가지를 아는 것입니다. 지금 소스가 얼마나 걸쭉한지, 그리고 옛 국물이 아직 얼마나 남아 있는지. UF/DF 소프트 센서는 냄비의 겉모습과 느낌 — 색, 숟가락에 묻는 방식 — 으로 둘 다 읽어내는 요리사라, 샘플을 떠내어 기다리지 않고도 정확히 언제 끝났고 언제 무언가 잘못되었는지 압니다. 그리고 망치는 길도 있습니다. 너무 세게 너무 빨리 졸이면, 냄비 바닥에 막이 생기고 눌어붙습니다 — 그것은 다시 녹지 않고 배치를 망칩니다. 좋은 요리사는 소스가 반격하고 있음을 읽고 타기 전에 불을 줄입니다. UF/DF 일탈 모니터는 막에 대해 형성되는 바로 그 막(skin)을 지켜봅니다.

이 장에서 다루는 내용

UF/DF를 두 개의 결합된 소프트 센싱 문제로 틀 짓기 — 농도(물이 빠져나가며 움직이는 표적)와 부형제/완충액 상태(완충액이 교환되며 움직이는 표적), 그리고 둘에 대한 오프라인 분석이 제어하기엔 너무 느린 이유.
인라인 농도 소프트 센싱 — 가변경로길이 UV280, 굴절률, 라만을 하나의 g/L 숫자로 융합하는 것, 그리고 여기서 심층망이 아니라 선형 모델이 옳은 도구인 이유.
정용여과 종점 — 고정된 숫자 대신 올바른 정용부피(diavolume)에서, 정용부피의 분수만큼 조기에 멈추는 로그-잔차(log-residual) 공간의 학습된 종점 예측기.
일탈 탐지 — 젤층(gel-layer)/농도 분극(concentration-polarization) 결함, 그것들이 위반하는 정체막(stagnant-film) 플럭스 모델, 그리고 그 물리에 대한 단측(one-sided) 잔차가 잘못되어 가는 UF/DF 운전을 어떻게 표시하는가.
DS-001 노드 — 출하 CQA(단량체, 숙주세포 단백질(host-cell protein, HCP) — 생산 세포에서 이월되는 공정 불순물 — 나머지 패널)가 마침내 측정되는 곳, 소프트 센서가 그것들에 어떻게 연결되는가, 그리고 같은 패널을 HCP에서 통과하지 못하는 형제 로트 BATCH-2026-004의 대조적 운명.
실행 가능한 모듈 examples/platform/ml/ufdf_endpoint.py, 그것의 그대로의 출력, 그리고 한 건의 UF/DF 종점 기록을 필드 하나하나 푼 해부.
정직한 미해결 과제: 고농도가 선형 가정을 깨뜨리고, 참조값(reference)은 모든 것 중 가장 느립니다.

UF/DF는 한 스키드를 걸친 두 개의 소프트 센싱 문제다

학습에 앞서 물리에 대해 정밀해지는 것이 도움이 됩니다. 접선 흐름 여과(tangential-flow filtration, TFF) 스키드 — 프레임 위에 펌프, 막, 프로브를 배관으로 묶은 자족적 조립체 — 는 물과 작은 용질(완충염, 당)은 통과시키지만 큰 항체는 보유하는 기공을 가진 막을 가로질러 단백질 풀을 펌프질합니다. 막을 통과하는 유체가 투과액(permeate) 이고, 막에 걸려 남는 것이 보유액(retentate) 입니다. 한외여과(ultrafiltration) 단계에서는 단순히 투과액을 제거하므로, 보유된 부피가 줄고 단백질 농도가 부피-감소 계수(volume-reduction factor, VRF) 에 비례하여 상승합니다. 막이 단백질을 완전히 보유하면 질량 균형은 정확합니다(체걸름 계수(sieving coefficient) S는 용질이 투과액으로 통과하는 분율입니다 — S ≈ 0은 막이 모두 걸러 둔다는 뜻이고, S ≈ 1은 자유롭게 통과한다는 뜻이며, 여기서 보유되는 항체에 대해서는 S ≈ 0입니다). 막 뒤의 단백질 질량은 보존되므로,

c(t) · V(t) = c0 · V0        ⇒        c(t) = c0 · V0 / V(t) = c0 · VRF

8 L에서 1.6 L로 농축하면 농도를 다섯 배로 곱한 것입니다. 정용여과(diafiltration) 단계에서는 부피를 일정하게 유지합니다 — 투과액이 빠져나가는 바로 그 속도로 신선한 제형 완충액을 더하여 — 그래서 농도는 제자리에 머물고 옛 완충액 이온이 점진적으로 씻겨 나가고 교체됩니다. 이상적이고 잘 혼합된 보유액(retentate)에서 자유롭게 투과하는 작은 용질(체걸름 계수 S ≈ 1)에 대해, 투과액의 미분 부피 dVp에 걸친 용질 질량 균형은 V · dc = −S · c · dVp이며, 일정한 V에서 적분하고 정용부피(diavolume) DV = Vp / V(교환된 신선 완충액의 보유액-부피 횟수)를 대입하면 교과서적 지수 세척을 줍니다:

C_residual / C_initial  =  exp(−S · DV)   →   exp(−DV)   for S = 1

그래서 대략 세 정용부피가 옛 완충액의 약 95%를, 다섯이 약 99%를, 일곱이 약 99.9%를 제거합니다(이것들은 지수에서 곧장 따라옵니다. exp(−3) ≈ 0.05 잔류 = 95% 제거, exp(−5) ≈ 0.01 = 99%, exp(−7) ≈ 0.001 = 99.9%). 그 깨끗한 지수가 모든 UF/DF 모델이 의지하는 골격이며 — 그리고 그것은 바이오공정의 소량-데이터 영역에서 블랙박스를 위해 결코 버려서는 안 되는 종류의 믿을 수 있는 물리입니다. (같은 대수가 이상이 깨지는 두 가지 방식을 드러냅니다. 불완전한 혼합은 S를 실효적으로 1보다 낮아 보이게 하여 세척을 늦추고, 단백질-결합 또는 전하-분배된 짝이온은 겉보기 감쇠를 단일-지수가 아니게 만듭니다 — 둘 다 아래의 학습된 버전이 교과서의 S = 1 대신 적합된 속도 상수로 흡수합니다.)

실제 고농도 mAb 원액 레시피는 보통 둘이 아니라 세 단계입니다. UF1이 묽은 풀을 미리 농축하고, DF가 다루기 쉬운 중간 작업 농도에서 완충액을 교환하며, UF2가 최종 DS 표적까지 과농축합니다 — 보통 그 뒤에 시스템 보유분(system hold-up)(스키드의 배관과 사공간에 갇혀 남는 제품 부피)에서 단백질을 쓸어내는 완충액 플러시와 회수 헹굼이 따릅니다. 따라서 소프트 센서는 궤적의 서로 다른 지점에서 작동하며(정용여과는 UV가 결국 읽게 될 최종 농도 아래에서 돌아갑니다), 최종-농도 정확도는 UV 읽음만이 아니라 시스템 보유분과 플러시 회수에 달려 있습니다. 그렇더라도 두 다스리는 양은 서로 다른 일정으로 움직입니다. 단백질 농도는 UF 동안 상승하고 그다음 DF 동안 유지됩니다. 부형제 상태는 UF 동안 불변이고 DF 동안 감쇠합니다. 둘 다 출하에 중요합니다. 원액은 허용오차를 가진 표적 농도와 완충액/부형제 규격(씻겨 나간 잔류 옛 완충액, 맞춰 넣은 제형 부형제)을 가집니다. 그리고 둘 다 실시간으로 측정하기가 까다롭습니다. 농도는 고전적으로 샘플을 뽑아 오프라인 A280(280 nm에서의 흡광도로, 다음 절에서 자세히 다루는 단백질 농도 읽음값)이나 느린 단백질 분석을 돌려 측정하고, 부형제/완충액 상태는 삼투압, 이온 크로마토그래피, 또는 pH/전도도 벤치 점검으로 측정합니다. 각각이 충분히 오래 걸려, 실험실이 보고할 즈음 막은 이미 다음으로 넘어가 있습니다. 그 간극 — 지금 중요한 값 대 나중에 도착하는 확인 — 은 상류에서 역가 소프트 센서(titer soft sensor)를 만들어 낸 바로 그 측정 간극이, 가장 마지막 하류 단계로 이식된 것입니다.

인라인 농도: 가변경로길이 UV, 굴절률, 그리고 선형이 이기는 이유

UF/DF에서 단연 가장 중요한 인라인 측정은 단백질 농도이며, 그것을 얻는 상용급 방법은 가변경로길이 자외선(variable-pathlength ultraviolet, VPE/VPX) 분광법입니다. 화학은 비어-람베르트입니다. 280 nm에서의 흡광도는 단백질 농도 곱하기 광학 경로길이에 비례하며, A = ε · c · ℓ, 여기서 ε(질량 흡광계수, mass extinction coefficient)는 그 단백질이 얼마나 강하게 흡수하는지를 말하는 단백질별 고정 상수로 — 전형적 mAb에 대해 ε ≈ 1.42 L·g⁻¹·cm⁻¹(동반 모듈이 쓰는 값) — 따라서 ε만 알면 단일 흡광도 읽음 하나가 농도를 고정합니다. 리터당 몇 그램에서는 보통의 1 cm 큐벳이 잘 작동하지만, 수십 g/L의 고농도 원액은 A를 2–3 AU(흡광도 단위)를 한참 넘어, 미광(stray light) — 샘플을 통과하는 것 외의 경로로 검출기에 닿는 빛 — 이 지배하는 검출기의 비선형 꼬리로 몰아가는데, 그곳에서는 샘플을 통과해 나오는 빛이 너무 적어 이 누설이 지배하고 관계가 더 이상 직선이 아니게 됩니다. 가변경로길이 묘수는 광학 경로를 짧게 만드는 것입니다 — Repligen의 가변경로길이 기술은 ℓ을 약 5 µm까지 연속적으로 쓸어내립니다 — 그리고 A를 보정된 선형 창(관례상 A 1.5 AU 미만 — 보수적으로 보정된 천장이며, 눈에 띄는 비선형성은 2–3 AU에서 자리 잡습니다) 안에 유지하는 경로길이를 고릅니다. 그러면 기기는 c = A / (ε · ℓ)을 역산하므로, 단일 셀이 보유액을 결코 희석하지 않고 약 0.1 mg/mL에서 250 mg/mL 너머까지 농도를 읽습니다. Repligen의 FlowVPX/FlowVPE가 이것의 상업적 구현이며, KrosFlo KR2i 자동 TFF 시스템과 인라인으로 통합되어 UF/DF를 보유액 무게가 아니라 농도로 감시·제어하고, 그 분석 제품군은 2025년 3월 Repligen이 908 Devices의 바이오공정 분석 포트폴리오를 인수하며 들어왔습니다 [1] (상용, 벤더 자체보고 — 이 책의 모든 주장은 배포가 얼마나 성숙했고 증거가 얼마나 독립적인지를 나타내는 그런 태그를 답니다. 성숙도와 증거-등급 관례(maturity and evidence-tier conventions)를 보세요).

값싼 인라인 신호 두 개가 더 같은 정보를 다른 각도에서 나릅니다. 굴절률(refractive index) 은 용해된 단백질에 따라 거의 선형으로 상승합니다 — 로렌츠-로렌츠 관계가 단백질에 대해 거의 일정한 비굴절률증가분(specific refractive-index increment) dn/dc ≈ 0.185 mL/g로 선형화되어 n ≈ n_buffer + (dn/dc) · c가 되므로 — RI를 견고하고 표류에 강한 보조 채널로 만들며, 결정적으로 광학 흡광도가 그러는 방식으로 포화되지 않습니다. 라만 분광법(Raman spectroscopy) 은 단백질 농도 그리고 부형제 정체성을 한 스펙트럼에 나릅니다 — 부형제(excipients) 는 항체를 둘러싼 비활성 제형 성분(완충염, 당, 계면활성제)입니다(단백질 골격이 만들어 내는 두 스펙트럼 특징인 아마이드 I와 아마이드 III 띠가 단백질을 추적하고, 또렷한 완충액-화학종 피크가 부형제를 추적함). 바로 그것이 여러 속성을 동시에 UF/DF 감시하는 연구 역마가 된 이유입니다. 학습 과제는 이것들을 단일한 보정된 농도로 융합(fuse) 하는 것입니다. 구체적으로 그 융합은 작은 지도 회귀입니다. 인라인 채널들을 특징 행 x = [A280, n, …]으로 쌓고, 참 c가 오프라인 A280에서 온 접지 샘플(grounding samples) 한 줌을 모은 뒤, Σ (cᵢ − wᵀxᵢ)²를 최소화하는 가중치 w를 적합합니다 — 채널이 독립적 정보를 나를 때는 보통 최소제곱, 공선적(collinear) 일 때는 부분최소제곱(PLS)입니다 — 즉 채널들이 함께 움직여 서로의 정보를 중복할 때(UV와 RI가 그러한데, 둘 다 같은 c를 추적하기 때문)로, 이는 단순 최소제곱 가중치를 불안정하게 만들며 PLS가 다루도록 만들어진 것입니다. 채널이 둘뿐이고 접지점이 수백 개이면 공선성은 무해합니다 — OLS는 그저 가중치를 UV와 RI 사이에 나눌 뿐 — 그래서 동반 모듈은 보통 최소제곱을 씁니다. PLS는 라만의 공선적 파수 수백 개를 더할 때 제값을 하는데, 거기서는 잠재변수 투영(교차검증으로 고른 소수의 성분)이 보정을 안정적으로 유지하는 것입니다. 접지점 두 개면 이미 기울기와 절편이 고정되고, 열두 개면 여유를 두고 고정됩니다.

그리고 여기에 이 장이 크게 외치고 싶은 결정적 방법론적 요점이 있습니다. 농도에 대해서는 올바른 모델은 심층망이 아니라 작은 선형 모델입니다. 비어-람베르트는 c에 대해 진정으로 선형이고, 로렌츠-로렌츠 RI 관계도 c에 대해 진정으로 선형이며, 물리가 이미 함수 형태를 알려 줍니다. 접지 샘플 한 줌 위의 PLS 또는 보통 최소제곱 보정은 여기서 신경망을 맞먹거나 이길 것이고, 훨씬 더 안전하게 외삽하며(적합된 선은 마지막 훈련점에서 한 스텝 너머에서 예측 가능하게 거동하지만, 심층망은 분포 밖에서 무엇이든 할 수 있습니다), 그리고 — GMP에 결정적으로 — 심사자에게 사소하게 설명 가능합니다. 물리적 단위를 가진 두 계수를, 문헌의 ε와 dn/dc에 대조하여 온전성 점검할 수 있습니다. 물리가 이미 선형화한 문제에서 심층망에 손을 뻗는 것은 이 책 전체가 경고하는 으뜸 소량-데이터 죄악입니다. (심층학습은 관계가 진정으로 비선형이고 데이터가 풍부한 곳 — 고농도 점도, 전하-변이 풀링 — 에서 제 자리를 얻지, 비어-람베르트 선 위에서가 아닙니다.)

부형제/완충액 상태가 둘 중 더 어려운데, 전도도와 굴절률이 당신이 제거하려는 옛 완충액만이 아니라 모든 이온에 반응하기 때문입니다. 정용여과 동안 벌크 전도도는 옛-완충액 끝점에서 새-완충액 끝점을 향해 단조롭게 움직이지만, 교환 도중의 단일 측정값은 보정이 두 끝점 모두를 알지 못하는 한 잔류 옛-완충액 분율에 대해 모호합니다 — 바로 그것을 라만의 화학종 특이성이 해소합니다. 따라서 잔류 옛-완충액 분율을 위한 정용여과 소프트 센서는 더해지는 제형 완충액과 제거되는 공정 완충액을 분리하는 모델입니다. 선형 경우에는 알려진 새-완충액 전도도 기준선을 빼고 나머지를 순수-옛-완충액 읽음에 대해 재배율합니다. 바로 여기가 라만의 화학적 특이성(뭉친 이온 세기가 아니라 또렷한 스펙트럼 지문으로 두 완충액 화학종을 구별할 수 있음)이 전도도 같은 벌크 속성을 이기는 곳이고, 다변량 모델이 제값을 하는 곳입니다.

세척 수학이 숨기는 한 가지 미묘함이 있습니다. 현대 원액의 높은 단백질 농도에서, 보유액 내부의 평형 부형제와 pH 상태는 단순히 정용여과 완충액의 조성이 아닙니다. 하전된 부형제와 완충액 화학종은 도넌 효과(Donnan effect)(막에 걸려 남은 하전된 단백질이 막을 가로지르는 작은 이온의 평형 분포를 정전기적으로 기울임)로 막을 가로질러 불균등하게 분배되고, 단백질 자체가 부피를 배제하므로(그 분자가 작은 용질이 차지할 수 없는 공간을 물리적으로 점유하여, 같은 양의 부형제가 더 적은 자유수에 자리함), 최종 제형 수준은 DF-완충액 수준에서 어긋나 있습니다. 바로 그래서 제형 연구자들이 의도적으로 어긋난 완충액으로 정용여과하고, 그래서 부형제 소프트 센서 — 그리고 그 뒤의 오프라인 삼투압과 pH 참조 — 가 먹인 완충액이 아니라 평형에 이른 보유액에 대해 접지되어야 하는 것입니다.

정용여과 종점: 고정된 숫자가 아니라 올바른 정용부피에서 멈추기

순진한 UF/DF 레시피는 고정된 수의 정용부피를 정용여과합니다 — "항상 7 DV를 돌려라" — 나쁜 날에도 세척이 보장되도록 넉넉한 안전 여유로 골라서. 그것은 작동하지만 낭비입니다. 모든 여분의 정용부피는 신선한 완충액이고, 처리 시간이며, 막이 오염되거나 단백질이 젤층에서 응집할 또 하나의 창입니다. 학습하는 공장은 대신 종점을 예측합니다. 잔류 옛-완충액 신호가 감쇠하는 것을 지켜보다가, 모델이 잔류가 신뢰성 있게 규격 미만이라고 말하는 즉시, 신뢰 여유와 함께 멈춥니다.

종점 문제는 소프트 센서 더하기 임계 교차이며, 그것을 조기에 작동하게 만드는 묘수는 그것을 로그-잔차(log-residual) 공간에서 하는 것입니다. 특징은 정용부피에 걸친 인라인 전도도와 라만 궤적이고, 모델링되는 양은 잔류 옛-완충액 분율 f(DV)이며, 종점은 예측된 잔류 — 단일한 잡음 섞인 프로브 읽음이 아니라 — 가 세척 규격 f_spec 미만으로 떨어지는 첫 정용부피입니다. 바닥의 감쇠가 지수적이므로, f(DV) ≈ exp(−k·DV), 로그를 취하면 직선이 됩니다. ln f = ln(exp(−k·DV)) = −k·DV — 로그는 지수의 정확한 역이므로, 곡선이 기울기 −k인 직선으로 평평해지고, 직선은 적합하고 외삽하기가 사소합니다. 곡선의 초기 부분(첫 한두 정용부피, 옛 완충액이 아직 많아 신호-대-잡음이 가장 좋은 곳)에 최소제곱으로 k를 적합한 뒤, 그 직선을 풀어 교차점을 얻습니다:

DV_endpoint  =  −ln(f_spec) / k

그래서 첫 정용부피에 적합된 모델은 정용부피의 분수만큼 앞서 멈춤을 호출할 수 있으며, 회귀의 k에 대한 표준오차에서 곧장 나오는 예측 구간과 함께입니다. 선은 그냥 읽어내는 것이 아니라 적합되므로, 회귀는 또한 k에 대한, 따라서 예측된 멈춤 지점에 대한 정직한 오차 막대를 건네줍니다. 그 오차 막대가 바로 심사자가 조기 호출을 신뢰하기 전에 쌓아 두기를 원하는 안전 여유입니다. 이득은 구체적입니다. 레시피가 명령한 7 대신 모델이 예측한 3.0 정용부피에서 멈추는 것은 그 배치에 대해 정용여과 완충액을 두 배 이상 줄이며(그리고 비슷한 몫의 시간을, 투과액 플럭스가 안정적으로 유지되는 한 — DF 시간은 오염이 쌓이며 플럭스가 떨어지지 않는 동안에만 정용부피를 따라갑니다), 잔류는 여전히 입증 가능하게 규격 미만입니다.

이것은 또한 UF/DF가 이 분야가 출판하고 있는 AI-강화 지속 공정 검증(AI-enhanced continued-process-verification, CPV) 작업에 연결되는 곳입니다. 각 UF/DF 운전의 궤적(플럭스, 막 횡단 압력, 농도, 전도도)을 다변량 객체로 다루고 오픈소스 분석 장(open-source analytics chapter)이 온전히 정의하는 바로 그 다변량-SPC 도구로 배치-대-배치 감시합니다 — 과거의 좋은("황금") 배치의 주성분 모델을 세우고 두 개의 요약 경보(호텔링의 T² 와 제곱-예측-오차 Q, 그 외피로부터의 모델-내 거리와 모델-밖 거리)를 관리 한계에 대해 도표화하여 — 외피에서 멀어지며 표류하는 운전이 조기에 표시되게 하며, FDA와 EU GMP Annex 15 생애주기 공정 제어 기대에 정렬됩니다 [2] (파일럿, 독립 동료심사). 종점 모델과 CPV 모니터는 같은 궤적 모델의 두 얼굴입니다. 하나는 멈춤을 호출하고, 다른 하나는 거기 이르는 궤적이 정상으로 보였는지를 말합니다.

일탈 탐지: 막이 반격할 때

UF/DF는 온순해 보이지만 소프트 센서가 반드시 막아야 하는 시그니처 실패 모드를 가집니다. 농도 분극(concentration polarization) 과 젤층(gel layer) 입니다. 물이 막을 통해 당겨지면서, 단백질이 벌크로 되확산할 수 있는 것보다 빠르게 막 표면에 쌓여, 농축되고 점성 있는 경계층을 형성합니다. 정체막 모델이 정상 체제를 담습니다. 플럭스(flux) J(단위 막 면적을 단위 시간당 통과하는 액체의 부피)는 J = k_m · ln(c_wall / c_bulk), 여기서 c_wall은 막 표면 바로 위의 단백질 농도이고 c_bulk은 잘 혼합된 풀 안쪽의 농도이며, k_m은 교차류(crossflow) — 막 면을 가로질러 벽 층을 쓸어내는 공급물의 접선 휩쓸기 — 가 설정하는 되확산 물질전달 계수(벽에 쌓인 단백질이 얼마나 빠르게 벌크로 되확산할 수 있는지)입니다(앞 절의 정용여과 감쇠율 상수 k와 구별하려고 k_m으로 적음). 임계 플럭스를 넘으면 벽 농도 c_wall이 젤 농도 c_gel에서 포화되고 막이 질식합니다 — 플럭스가 붕괴하고, 막 횡단 압력(TMP)이 플럭스 이득 없이 오르며(압력-무관 평탄역), 최악의 경우 벽의 단백질이 변성되거나 응집하여, 나중에 SEC 출하 분석(SEC release assay)이 잡아낼 고분자량 화학종을 조용히 씨 뿌립니다. 일탈은 단일 농도 읽음에는 보이지 않습니다. 그것은 관계가 잘못되어 가는 것으로 나타납니다 — 농도 경사가 말하는 것보다 플럭스가 빠르게 떨어지거나, 농도의 상응하는 이득 없이 TMP가 오르는 것.

그것이 일탈 탐지를 이 책의 다른 곳에서 쓰인 같은 물리-대-잔차 발상에 자연스럽게 맞아떨어지게 합니다. 당신은 기계론적 기대를 가지고 있고 — 플럭스-대-TMP 선, J = k_m · ln(c_wall/c_bulk) 분극 곡선, VRF 대 농도 — 물리가 예측하는 것과 스키드가 실제로 하는 것 사이의 잔차 r = J_observed − J_expected(TMP, c)를 지켜봅니다. 젤층 오염은 언제나 플럭스를 억제하기만 하므로, 올바른 검출기는 단측(one-sided) 입니다. 표준화 잔차 r / σ_r가 음의 관리 한계를 지나 떨어질 때(가령 −3 아래) 경보하지, 양측 편차에 대해서는 아닙니다. 양의 잔차는 그저 유리한 물질 전달이기 때문입니다. r / σ_r을 말로 읽으면, 그것은 자신의 정상 산포 σ_r 단위로 측정된 잔차이므로, −3을 지난 값은 플럭스가 건강한 운전이 결코 헤매지 않는 것보다 세 배 넘게 물리 선 아래로 떨어졌다는 뜻입니다 — 이 책의 다른 곳 관리도가 쓰는 같은 3-시그마 트립입니다. 같은 단측 잔차는 또한 운전 전반의 점진적 막 오염(fouling)(일정 플럭스에서 오르는 TMP, 떨어지는 정규화 투과도)도 다루는데, 이것은 모든 것 중 가장 흔한 실제 UF/DF 일탈입니다. 운영상 작업자는 운전 전/후 정규화 수 투과도(Normalized Water Permeability, NWP) 측정 더하기 운전 도중 TMP 일탈 한계로 그것을 도표화합니다 — 심사자가 실제로 살피는 표준 막 오염/완전성 가드레일입니다.

그리고 젤층 오염은 솟구치기보다 쌓이므로, 견고한 트리거는 −3을 지난 단일 점이 아니라 표준화 잔차에 대한 단측 CUSUM(또는 EWMA)이 그 결정 구간을 교차하는 것입니다 — 단일한 잡음 섞인 딥은 무시하고 지속적 표류에만 발화하는 런-길이(run-length) 규칙입니다. 지속적인 음의 잔차가 결함 시그니처입니다. 젤층 형성, 오염되는 막, 고장 나는 펌프, 또는 점도를 바꾸는 온도 일탈. 이것은 이전 장의 크로마토그래피 궤적 감시(chromatography trajectory monitoring)와 구조적으로 동일합니다 — 다변량 궤적, 학습된 또는 물리 기반 정상 외피, 그리고 이탈에 대한 경보 — 컬럼 대신 TFF 스키드에 적용된 것입니다. 그것은 또한 규제 당국이 지지하는 인간-개입(human-in-the-loop) 자문 범주에 정확히 들어맞습니다. 모델이 일탈을 표시하고, 인간이 개입할지, 보류할지, 조사할지를 결정합니다.

학습된 마지막 하류 단계: 선형 농도 소프트 센서가 한외여과 경사를 읽고, 부형제 소프트 센서가 정용여과 세척을 읽으며 종점을 예측하고, 일탈 모니터가 젤층을 위해 플럭스-압력 관계를 지켜본다 — 함께 그것들은 진행 예제의 출하 CQA를 마침내 나르는 원액 로트 DS-001을 생산한다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

실행 가능한 모델: ufdf_endpoint.py

예제 모듈 examples/platform/ml/ufdf_endpoint.py는 두 소프트 센서와 종점 예측기를 모두 만들며, 진행 예제의 실제 숫자에 접지되어 있습니다. 농도 경사를 BATCH-2026-001의 실제 단백질 A 용출액 역가 — 22.58 g/L 에서 시작하는데, 이것은 protein_a_summary.csv(eluate_titer_g_L)에서 곧장 읽고, hplc_results.csv에서 읽은 출하된 원액 CQA(단량체 98.611%, HCP 28.203 ng/mg)에서 끝납니다. UF/DF 단계 자체는 시뮬레이터에 없으므로, 농도 경사와 정용여과 세척 곡선은 대리 물리(surrogate physics) — 비어-람베르트 UV, 막 질량 균형, 그리고 교과서적 지수 감쇠 — 이며 명확히 예시용으로 표시되어 있습니다. 소프트 센서 방법은 실재합니다. 그것이 적합되는 궤적만 합성입니다.

구조는 이 장의 논증을 정확히 반영합니다. simulate_ufdf는 두 단계 지상 진실을 깔아 둡니다 — UF 경사 c = c0 · VRF와 DF 세척 excipient_frac = exp(−DV) — 그다음 실제 물리 상수를 부호화하는 세 개의 잡음 섞인 인라인 채널로 그것을 관측합니다. ε = 1.42 L·g⁻¹·cm⁻¹의 가변경로길이 UV 대리, n = 1.3330 + 1.8e-4 · c의 굴절률, 그리고 2.5 + 13.0 · excipient_frac mS/cm의 전도도. fit_concentration_softsensor는 그다음 위 절이 유도한 두 항 선형 융합(uv280 + refractive_index → g/L)을 적합하여 분리 보류(held-out) 분할 위에서 채점하고, predict_df_endpoint는 이 장이 기술하는 바로 그 종점 방법을 구현합니다. 부형제 소프트 센서를 분리 보류 분할 위에서 적합하고, 예측된 잔류 분율의 로그를 취하며, 첫 한두 정용부피에 최소제곱으로 감쇠율 k를 적합하고, 그 직선을 풀어 교차점을 구한 뒤, 표준오차로부터 95% 신뢰구간을 보고합니다 — 전체 곡선의 결정론적 첫 교차를 교차 점검(cross-check)으로 곁에 둔 채로. ds_release_summary는 실제 출하 패널을 hplc_results.csv에서 도로 읽습니다.

# examples/platform/ml/ufdf_endpoint.py  (faithful excerpt)
DS_TARGET_G_L = 50.0          # high-concentration mAb DS target (illustrative)
EXCIPIENT_SPEC = 0.05         # residual old-buffer fraction to clear by diafiltration


def simulate_ufdf(c0: float, n: int = 400) -> pd.DataFrame:
    """Surrogate UF concentration ramp + DF wash-out (illustrative physics)."""
    # concentration (UF) phase: c = c0 * VRF as volume is reduced
    vrf = np.linspace(1.0, DS_TARGET_G_L / c0, n // 2)
    conc = c0 * vrf
    # diafiltration (DF) phase: residual old buffer decays as exp(-DV)
    dv = np.linspace(0.0, 8.0, n - n // 2)
    excip_df = np.exp(-dv)                                    # ideal wash-out decay
    df = pd.DataFrame({...})                                  # phase, diavolume, protein_g_L, excipient_frac
    eps = 1.42                                                # mAb A280 extinction (L/g/cm)
    df["uv280_AU_per_cm"]    = eps * df.protein_g_L + noise   # variable-pathlength UV
    df["refractive_index"]   = 1.3330 + 1.8e-4 * df.protein_g_L + noise
    df["conductivity_mS_cm"] = 2.5 + 13.0 * df.excipient_frac + noise
    return df


def fit_concentration_softsensor(df):
    """Linear is right here: Beer-Lambert UV + refractive index -> g/L."""
    X = df[["uv280_AU_per_cm", "refractive_index"]].to_numpy()
    # scored on a HELD-OUT split, not in-sample: the number a reviewer sees
    Xtr, Xte, ytr, yte = train_test_split(X, df["protein_g_L"].to_numpy(), test_size=0.3)
    reg = LinearRegression().fit(Xtr, ytr)
    ...


def predict_df_endpoint(df, spec=EXCIPIENT_SPEC, early_dv=2.0):
    """Endpoint by EARLY-WINDOW log-residual extrapolation, with a CI."""
    dfp = df[df.phase == "DF"]
    # excipient soft sensor (held-out): inline conductivity -> residual fraction
    reg = LinearRegression().fit(dfp[["conductivity_mS_cm"]], dfp["excipient_frac"])
    f_pred = reg.predict(...).clip(1e-4, None)
    # fit ln f = b0 + b1*DV on the FIRST one-to-two DV only, then solve the line:
    early = dfp[dfp.diavolume <= early_dv]
    b0, b1 = np.linalg.lstsq(...)          # least squares in log-residual space
    dv_end = (np.log(spec) - b0) / b1      # extrapolated crossing, before reaching it
    se_end = ...                           # 95% CI from the standard error on (b0, b1)
    return dv_end, se_end                  # plus a deterministic first-crossing cross-check

python platform/ml/ufdf_endpoint.py를 실행하면 아래 블록을 그대로 출력합니다. 시작 용출액(22.58 g/L)과 DS-001 출하 CQA는 실제 커밋된 데이터셋 값입니다. 소프트 센서 R²(분리 보류 분할 위에서 채점됨)와 종점 정용부피는 예시용 대리 궤적 위에서 계산됩니다:

UF/DF starts from the real Protein A eluate: 22.58 g/L -> DS target 50.0 g/L (illustrative)
concentration soft sensor (UV280 + RI -> g/L): R2=0.9997 RMSE=0.1452 g/L, final 49.89 g/L   # illustrative
diafiltration endpoint (early-window log-residual extrapolation): excipient<= 0.05 reached at 3.0 diavolumes [95% CI 2.99-3.01], decay k=0.998/DV   # illustrative
  cross-check: deterministic first crossing at 3.02 DV; excipient soft sensor R2=0.9997 (held-out)
DS-001 release CQAs (real): monomer 98.611%  HCP 28.203 ng/mg  all_pass=True
ASSERT ok: inline UV+RI recover protein concentration and the wash-out endpoint is extrapolated with a confidence interval (illustrative).

출력을 실행 가능하게 만들어진 이 장의 논증으로 읽으세요. 농도 소프트 센서는 단백질 농도를 거의 완벽하게 복원하는데(R² 0.9997, RMSE 0.1452 g/L) — R²는 모델이 설명하는 농도 변동의 분율로, 1.0이 완벽하고 0이 늘 평균을 추측하는 것보다 나을 게 없으며, RMSE(평균제곱근오차, root-mean-square error)는 실제 단위로의 전형적 빗나감으로 여기서는 약 0.15 g/L입니다. 결정적으로 그 R²는 분리 보류(held-out) 분할 위에서 채점되었지 인-샘플이 아니며 — 즉 모델이 적합되는 동안 결코 보지 못한 데이터점에서만 채점되었는데, 이것이 그것이 외우기보다 일반화하는지에 대한 유일한 정직한 시험입니다 — 따라서 적합이 결코 건드리지 않은 행에서 심사자가 보게 될 바로 그 숫자입니다. 거의 완벽한 분리 보류 R²는 모델이 물리와 일치할 때 정확히 기대되는 것이고, 리터당 약 7분의 1그램의 RMSE는 모델 편향이 아니라 그저 주입된 센서 잡음이며, 분리 보류 분할이 같은 자리에 떨어지는 것은 바로 비어-람베르트 선에는 과적합할 것이 없기 때문입니다. (그것 자체가 작은 교훈입니다. 이 문제에 대한 심층망은 잡음을 외워 기만적으로 더 낮은 훈련 오차를 게시한 뒤 분포 밖에서 실패할 수 있습니다.) 정용여과 종점은 3.0 정용부피에, 좁은 95% 구간 2.99–3.01과 함께 떨어지는데 — 레시피가 명령한 7에 한참 못 미칩니다 — 조기-창 로그-잔차 적합(감쇠율 k = 0.998/DV)에서 외삽되었으며, 전체 곡선의 결정론적 첫 교차 3.02 DV가 교차 점검으로 곁에 보고되고, 둘이 정용부피의 100분의 1까지 일치하는 것이 조기 호출이 믿을 만하다는 증거입니다. 조기 종점은 보수적 레시피가 썼을 완충액의 절반 이상(그리고 비슷한 몫의 시간)을 절약하며, 잔류는 여전히 입증 가능하게 5% 세척 규격 미만입니다. 그리고 DS-001 줄이 계보를 닫습니다. 원액은 실제 출하 CQA, 단량체 98.611%와 HCP 28.203 ng/mg를 나르며, 모두 통과합니다. (모듈의 assert conc["r2"] > 0.95와 assert lo <= endpoint <= hi가 실행 가능한 주장입니다 — 미래의 리팩터가 선형 융합을 깨뜨리거나 종점을 그 자신의 구간 밖으로 밀어내면, 조용히 틀린 소프트 센서를 출하하는 대신 실행이 큰 소리로 실패합니다.)

한 건의 UF/DF 종점 기록의 해부

UF/DF 배치는 헐벗은 "3 DV에서 멈춤"으로 끝나지 않습니다. 이 시리즈의 모든 산출물처럼, 종점은 멈춤 결정을 그것을 정당화한 궤적, 그것을 호출한 소프트 센서 예측, 그것이 점검된 규격, 그리고 그것이 생산하는 원액 로트에 잇는 구조화된 기록입니다. 처분(disposition) 전에 제조-과학 심사자가 하듯 그것을 해부하세요.

완전히 풀어낸 한 건의 UF/DF 종점: 그것을 입력한 인라인 궤적, 멈춤을 호출한 농도와 부형제 소프트 센서 예측, 그것이 만족한 규격과 일탈 점검, 결과 DS-001 로트가 나르는 실제 출하 CQA, 그리고 그것을 PApool-001에 그리고 앞으로 충전-마무리에 잇는 혈통 — 그것을 채점하는 참조가 전체 사슬에서 가장 느리다는 정직한 주석과 함께. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

위에서 아래로 읽으면 이 장이 필드로 펼쳐집니다. 헤더는 생산하는 모델과 버전 — ufdf_endpoint v1, 변경 관리 계획이 버전 매길 잠긴 산출물 — 과 그것이 produces하는 로트 DS-001, derivedFrom PApool-001을 명명합니다.

입력 블록은 인라인 궤적이며, 그 안의 모든 필드가 인라인 신호인데, 바로 그것이 여기서 소프트 센서가 가능한 이유 전부입니다:

variable-pathlength UV280 — 주요 농도 채널, A를 선형 창에 유지하도록 ℓ을 쓸어내는 A = ε·c·ℓ; 농도 소프트 센서에 입력됩니다.
refractive index — 포화-증명 보조 농도 채널, n ≈ n_buffer + (dn/dc)·c; UV280과 융합됩니다.
Raman — 단백질과 부형제 정체성 둘 다를 나르는 다중-속성 채널; 부형제 소프트 센서가 의지하는 화학적 특이성 입력.
conductivity — 정용여과 세척 적합을 구동하는 벌크 부형제/완충액-상태 채널.
flux와 transmembrane pressure — 일탈 모니터가 분극 물리에 대해 차분하는 짝; 그것들은 농도나 종점 모델에 입력되지 않고, 젤층 검출기에만 입력됩니다.

녹색 핵심은 기록이 정당화하려고 존재하는 결정입니다:

final concentration 50 g/L 표적 대비 49.89 g/L — UF 경사 끝에서의 소프트 센서 읽음(예시용).
endpoint 3.02 정용부피 — 예측된 잔류가 규격을 교차한 결정론적 첫 DV로, 조기-창 로그-잔차 호출값 3.0 DV에 대한 교차 점검(예시용).
residual excipient fraction 0.05 세척 규격 미만 — 종점이 호출된 양.

제약 행은 종점이 반드시 만족해야 하는 것을 적습니다 — 50 g/L 표적 둘레의 농도 허용오차와 0.05 미만 세척 규격 — 그래서 심사자가 모델이 멈췄다는 것만이 아니라 왜 거기서 멈췄는지를 볼 수 있습니다. 일탈 행은 플럭스-TMP 잔차 플래그, 단측 젤층 조기 경보를 나르며, 이 운전에서는 정상으로 기록되었습니다. CQA-전달 행이 이것을 출하-정의 노드로 만드는 것입니다. DS-001이 앞으로 나르는 실제 monomer 98.611%와 HCP 28.203 ng/mg 결과로, 둘 다 규격 안이고(단량체 규격 95–100%, HCP 100 ng/mg 미만) 둘 다 통과입니다. 보라색 관계 패널은 혈통을 기록합니다. 이 기록은 PApool-001에서 derivedFrom, DS-001을 produces, 제형과 충전-마무리(formulation and fill-finish)에 feeds, 오프라인 A280과 삼투압 참조와 reconciledWith, 그리고 그 참조에 대한 잔차가 관리 한계를 넘어 표류하면 retrains_when. 이 기록은 Book 4의 온톨로지(Book 4's ontology)가 그 DS-001 노드로 모델링하는 바로 그 원액 로트를 ML 쪽에서 본 것입니다 — Book 5는 이 책의 ng/mg 관례로 CQA를 읽고 소프트 센서 예측과 멈춤을 호출한 종점을 추적하는 반면, Book 4는 그 로트의 출하 패널을 형식적 SHACL 형상으로 검증합니다. 둘은 각 책의 렌즈를 통해 본 같은 로트이지, 모든 속성의 바이트-동일 복사본이 아닙니다.

CQA-전달 행을 중요하게 만드는 대조는 형제 로트입니다. DS-001(BATCH-2026-001)이 HCP 28.203 ng/mg에서 패널을 통과하는 반면, BATCH-2026-004는 거의 동일한 단량체(98.687%)를 나르지만 같은 100 ng/mg 천장 대비 128 ng/mg의 HCP — 숙주세포 단백질, 패널이 상한을 두는 잔류 세포-유래 불순물 — 규격 외(out-of-specification, OOS) 결과 를 나릅니다. UF/DF 소프트 센서는 그 로트를 구할 수 없습니다. HCP는 포획과 연마에서 상류로 결정되는 이월(carry-through) 불순물이고, UF/DF는 들어온 것을 무엇이든 농축할 뿐입니다. 그러나 기록 형식은 OOS 조사가 읽는 정확히 그것입니다 — 같은 필드, 같은 참조 — UF/DF 단계 자체가 정상으로 운전되었음(일탈 플래그 없음, 일정대로 종점)을 확인하여 그것을 면책하고, 조사를 상류로 향하게 합니다. 그것이 종점을 숫자가 아니라 구조화된 기록으로 적어 두는 것의 조용한 가치입니다. 그것은 양방향의 증거입니다.

온톨로지가 이 소프트 센서를 믿을 만하게 만드는 이유

그 derivedFrom/produces/reconciledWith 에지가 왜 장식이 아닌지에 대해 정밀해질 가치가 있습니다. 그것들은 소프트 센서를 FAIR — 찾을 수 있고(Findable), 접근 가능하며(Accessible), 상호운용 가능하고(Interoperable), 재사용 가능하게(Reusable) — 만들고, 더 핵심적으로는 믿을 만하게 만드는 시맨틱 층입니다. 패널의 출하 속성 네 가지 — 단량체, HCP, 종점, 농도 — 는 이 기록의 모든 소비자가 각각이 무엇인지에 합의할 때만 의미가 있고, 그 합의를 공급하는 것이 온톨로지입니다. Book 4는 모든 양에 안정적 IRI(국제화 자원 식별자, Internationalized Resource Identifier — 개념의 전역적으로 고유한 웹 이름으로, 깨지기 쉬운 스프레드시트 열 머리글의 온톨로지 대응물)를 부여하므로, 모델의 입력은 한 historian 내보내기가 conc_g_L로, 다른 것이 protein_concentration으로 적는 conc라는 열이 아니라, 자신의 qudt:unit을 나르는 bp:proteinConcMgPerMl입니다. IRI로 끌어온 특징은 조용히 틀린 열이나 틀린 단위로 바꿔치기될 수 없습니다 — 실험실에서는 검증되지만 현장에서는 표류하는 소프트 센서의 가장 흔한 원인입니다.

Book 4가 DS-001이 출하를 주장해도 되는지를 결정하는 데 쓰는 바로 그 출하-게이트 SHACL 형상(release-gate SHACL shape)은 또한 훈련-데이터 게이트로 두 번째 생을 얻습니다. bp:ReleaseShape는 단량체 결과가 존재하고, 단일하며, xsd:float이고, 95.0 이상이어야 한다고 말합니다. HCP 결과는 존재하고 그 한계 이하여야 하고, 농도는 45–55 mg/mL 창 안에 있어야 합니다. 그 같은 형상을 후보 훈련 행에 대해 돌리면, 모델의 입력이 완전하고 범위 안에 있다는 폐쇄-세계 보장을 얻습니다 — 누락되거나 중복된 CQA는 멸균 시험 누락이 로트를 실격시키는 것과 정확히 같이, 개방-세계 질의가 어깨를 으쓱하고 넘겼을 조용한 간극으로 적합에 끼어드는 대신 지금 검증 실패로 잡힙니다. ML 책이 거듭 돌아오는 비대칭 — 추론된 그래프가 추측하는 모델을 제약함 — 이 여기서 구체적입니다. 로트를 게이트하는 형상이 로트의 예측기가 학습하는 데이터도 게이트합니다.

두 개의 추가 에지가 열-이름 관점이 할 수 없는 핵심 작업을 합니다. 첫째, Book 4가 BFO 아래 그리는 연속체/사건(continuant/occurrent) 구분 은 측정(49.89 g/L 최종 농도, 물질에 내재하는 품질)을 운전(그것을 생산한 UF/DF 공정, 한 번 일어나 사라진 사건)과 구별되게 유지합니다. 그것들을 융합하는 것 — 하나의 흐릿한 "UF/DF" 노드라는 부주의한 실수 — 은 같은 스키드가 지난주에 다른 배치를 돌렸다고 말하거나, 종점을 운전에 그리고 농도를 로트에 붙이는 것을 불가능하게 만듭니다. 소프트 센서의 예측과 그것을 정당화한 공정은 하나의 노드가 아니라 두 개의 연결된 것으로 남습니다. 둘째, bp:derivedFrom 혈통 척추 — 전이적으로 선언되고, Book 4가 만드는 GraphRAG (bp:derivedFrom)+ 순회로 걸어지는 — 는 한-배치-제외(leave-one-batch-out) 교차검증의 그룹화 키입니다. 정직한 채점은 전체 물리 배치를 보류할 것을 요구하고, 그 그룹화는 bp:BATCH-2026-001이 historian, LIMS, 그리고 이 출하 기록에 걸쳐 하나의 전역적이고 안정적인 정체성이기 때문에만 가능합니다. 한 배치를 네 가지로 명명하거나 지나치게 열성적인 owl:sameAs로 둘을 융합하는 그래프는 그룹 경계를 깨뜨리고 보류 집합을 훈련에 누설할 것입니다 — 바로 그래서 0.9997의 분리 보류 R²가 분할 뒤의 정체성 규율만큼만 정직한 것입니다. 정체성, FAIR 특징, 그리고 SHACL 게이트는 Book 5에 볼트로 죈 Book 4의 관심사가 아닙니다. 그것들은 이 장의 R²가 조금이라도 의미를 가지는 조건입니다. 그 같은 검증된 그래프가 그다음 작업자가 "DS-001은 무엇에서 유래했고, 그 UF/DF 운전이 일탈을 표시했는가?"라고 물을 때 GraphRAG 도우미가 접지되는 대상입니다 — 모델은 유창하고 그럴듯하지만 틀린 혈통을 지어내는 대신, 타입된 에지를 순회하고 그것을 인용합니다.

미해결 과제: 고농도가 선을 깨뜨리고, 참조는 모든 것 중 가장 느리다

UF/DF 소프트 센싱이 위의 깨끗한 R²가 시사하는 것보다 왜 더 어려운지에 대해 정직해집시다. 첫 번째 어려움은 선형 가정이 정확히 원액이 사는 곳에서 열화한다는 것입니다. 비어-람베르트는 중간 농도에서 선형이지만, 고농도 mAb의 수십 g/L에서는 광학, 굴절, 그리고 특히 점도(viscosity) 거동이 모두 비선형으로 갑니다. 세 메커니즘이 쌓입니다. 높은 광학 밀도에서 흡광도가 미광과 검출기 비선형성에 대해 평탄해지고(경로길이를 짧게 하는 바로 그 이유), 굴절률증가분 dn/dc 자체가 용질-용질 상호작용이 자리 잡으며 표류하고, 점도가 가파르고 비선형으로 상승하여 젤층을 두껍게 하고, 되확산을 늦추며, 인라인 신호와 소프트 센서가 보고하려는 참 벌크 농도 사이의 관계를 굽힙니다. 가변경로길이 묘수는 흡광도를 읽을 수 있게 유지하지만, 포화 근처의 바닥 화학은 더 이상 보정이 적합된 깔끔한 선이 아닙니다. 이것이 아이러니하게도, 더 풍부한 모델(또는 하이브리드 역가 모델(hybrid titer model)이 하는 것과 정확히 같이, 학습된 비선형 보정을 비어-람베르트 골격에 볼트로 죄는 하이브리드)이 제값을 하기 시작하는 체제입니다 — 그러나 그것은 또한 데이터가 가장 희소한 체제이기도 한데, 고농도 운전은 비싸고 드물기 때문입니다. 정직한 입장은 농도 소프트 센싱이 선형 중간에서는 해결되었고 현대 피하(subcutaneous) 제형이 향해 미는 고농도 가장자리에서는 열려 있다는 것입니다(피하 주사는 용량을 피부 아래의 작은 부피로 전달하므로, 단백질이 들어맞으려면 매우 농축되어 채워져야 합니다) — 참고로 그 가장자리는 흔히 100–200 mg/mL 정도에 자리하는데(피하 고농도 mAb의 전형적 범위이지, 특정 제품에 대한 주장이 아닙니다), 바로 이 절이 미해결이라 부르는 비선형·고점도 체제입니다.

두 번째 어려움은 전체 사슬에서 가장 느린 참조입니다. 상류의 역가 소프트 센서는 몇 시간 후의 HPLC 분석으로 채점되고, 수확 결정은 며칠 후의 하류 HCP 결과로 채점됩니다. UF/DF 농도와 부형제 소프트 센서는 출하 패널 — 원액을 정의하는 바로 그 CQA — 로 채점되는데, 그것은 SEC(크기-배제 크로마토그래피, 응집체용), CEX(양이온-교환, 전하 변이체용), HCP, 잔류 숙주세포 DNA, 내독소, 생균수(생존 미생물 수) 분석의 전체 묶음 후에, 보통 막이 멈춘 며칠 후에 도착합니다. 표류하는 UF/DF 소프트 센서를 드러낼 잔차가 계산 가능해질 즈음, 원액은 이미 만들어졌고 어쩌면 이미 충전을 향해 움직이고 있습니다. 이것은 절대적 극단에서의 성긴-참조, 느린-피드백 체제(sparse-reference, slow-feedback regime)입니다. 가장 중요한 예측(나는 올바른 농도에 있는가, 그리고 완충액이 씻겨 나갔는가?)이 공정에서 가장 느리고 가장 비싼 지상 진실로 채점됩니다. 실용적 결과는 의도적인 운영 자세입니다 — 보수적 종점 여유, 출하를 기다리는 대신 운전 도중 취한 라인 인근(at-line) A280과 삼투압 샘플에 대한 잦은 재접지, 그리고 잠겨 있고 인간이-확인하며 결코 중대한 로트의 종점을 자율적으로 호출하도록 풀어 놓이지 않는 모델. 그것이 규제 당국이 요구하는 정확히 그 잠긴-모델, 인간이-확인하는 자세입니다.

통계적이라기보다 절차적인 네 번째 어려움이 있고, 품질 심사자는 그것을 가장 먼저 제기합니다. 출하-정의 로트를 건드리는 소프트 센서는 어떤 GMP 기록의 완전한 데이터 무결성(data integrity) 부담을 물려받습니다. 위의 종점 기록은 ALCOA+ — 귀속 가능(Attributable), 판독 가능(Legible), 동시 기록(Contemporaneous), 원본(Original), 정확(Accurate), 더하기 완전(Complete), 일관(Consistent), 영속(Enduring), 이용 가능(Available) — 이어야 하며, 바로 그래서 그것이 3 DV에서-멈춤이라는 결론만이 아니라 생산하는 모델과 버전(ufdf_endpoint v1), 귀속 가능한 승인, 그리고 그것이 계산된 원시 인라인 궤적을 나르는 것입니다. 그 기록이 전자적이므로, 21 CFR Part 11(전자 기록과 서명을 종이와 잉크의 법적 동등물로 만드는 미국 규칙)과 그 EU 대응물 GMP Annex 11이 적용됩니다. approvedBy 필드는 메타데이터가 아니라 구속력 있는 서명이며, 서명되지 않은 로트를 거부하는 같은 출하-게이트 형상(release-gate shape)이 서명되지 않은 UF/DF 처분도 거부합니다. 그리고 그 기록이 신뢰되기 전에, 그것을 계산하는 시스템이 자격검증되어야 합니다. 전통적 규율은 전산화 시스템 검증(Computerized System Validation, CSV) — V-모델의 IQ/OQ/PQ(설치·운영·성능 자격검증, Installation, Operational, and Performance Qualification) — 이지만, FDA의 컴퓨터 소프트웨어 보증(Computer Software Assurance, CSA) 재구성은 이제 노력을 비판적 사고와 위험 쪽으로 밀어붙입니다. 출하-중대 종점에 대해 인간에게 자문하는 소프트 센서는 라벨 프린터보다 훨씬 더 깊은 보증을 받을 만하지만, 모델이 잠겨 있고 자문적으로(결코 CQA를 자율적으로 움직이지 않고) 머무는 것이 바로 그것을 가장 무거운 등급이 아니라 더 가볍고 인간-개입하는 검증 외피 안에 유지하는 것입니다. 데이터 책(data book)은 ALCOA+, Part 11/Annex 11, 그리고 CSV-에서-CSA 전환을 온전히 전개합니다. 여기서 요점은 소프트 센서의 정확성은 필요하지만 충분하지 않다는 것입니다 — 그 기록은 또한 귀속 가능하고, 서명되며, 자격검증된 시스템 위에서 계산되어야 로트를 그것에 근거해 출하할 수 있습니다.

세 번째 어려움은 전이(transfer)와 일탈-라벨 문제입니다. 농도와 부형제 보정은 그것이 세워진 특정 막 화학과 로트, 특정 완충액, 특정 단백질, 그리고 특정 스키드 기하에 묶여 있습니다. 막 로트를 바꾸거나 스키드를 규모 조정하면 모델은 규제 목적상 재자격검증되기 전까지 새로운 절차입니다 — 이 책의 모든 분광 모델을 따라다니는 같은 전이 천장인데, 보정이 흡수한 ε, dn/dc, 전도도 기준선이 모두 매트릭스-의존적이기 때문입니다. 그리고 일탈은 설계상 드뭅니다(잘 운전된 공정은 거의 결코 젤층을 만들지 않습니다). 그래서 일탈 검출기는 양성 예가 극히 적은 극도로 불균형한 데이터셋 위에서 훈련됩니다 — 바로 그것이 일탈 절의 물리-잔차 이상 탐지(physics-residual anomaly detection)(기대된 플럭스-TMP 거동에서의 이탈을 표시함)가 결함을 거의 본 적 없는 지도 결함 분류기보다 여기서 더 견고한 이유입니다. 그것은 정상의 모델만 필요로 하는데, 그것은 모든 좋은 배치가 풍부하게 공급하지, 거의 목격한 적 없는 실패의 라벨된 예가 아닙니다.

이 장이 모델 모음에 더하는 것

이 장은 Book 5 예제 모음에 examples/platform/ml/ufdf_endpoint.py 를 기여합니다. BATCH-2026-001의 실제 단백질 A 용출액 농도에서 시작하여, 대리 UF 농도 경사와 DF 세척을 시뮬레이션하고, 선형 농도 소프트 센서(가변경로길이 UV280 플러스 굴절률)를 적합하며, 부형제 소프트 센서(전도도, 예시용)를 적합하고, 정용여과 종점을 예측된 잔류가 세척 규격을 교차하는 첫 정용부피로 예측하며, 원액이 마침내 나르는 실제 DS-001 출하 CQA를 읽어내는 독립형 모듈입니다. 그것은 상류 소프트 센서 모듈(soft-sensor modules)(soft_sensor_pls.py, soft_sensor_deep.py, 라만에서 나온 역가/VCD)과 수확 모듈(harvest module)(harvest_endpoint.py)과 협조하되 의도적으로 중복하지 않습니다. 그것들은 탱크에 무엇이 있고 언제 비울지를 예측하고, 이것은 완충액 교환이 언제 끝나며 완성된 원액이 어떤 농도에 도달했는지를 예측합니다. 인라인 농도 절에서 논했듯, 비어-람베르트 문제에 심층망이 아니라 선형 모델을 택하는 의도적 선택 자체가 이 모듈이 가르치는 교훈이며, assert conc["r2"] > 0.95(더하기 종점이 그 자신의 구간 안에 있다는 단언)가 그 교훈을 실행 가능하고 회귀-시험된 주장으로 만듭니다.

왜 중요한가

UF/DF는 원액을 옳게 만들 마지막 기회이며, 이전 장들이 이루려 애쓴 모든 것이 마침내 하나의 숫자로 현금화되는 단계입니다. 과·미달 없이 표적을 유지하는 농도 소프트 센서는 첫 시도에 용량 규격을 맞추는 원액을 뜻합니다. 채워 넣은 고정 횟수 대신 올바른 정용부피에서 멈추는 정용여과 종점 모델은 모든 배치에서, 영원히, 완충액, 시간, 그리고 막이 오염될 창을 절약합니다. 단백질이 변성되기 전에 젤층을 잡아내는 일탈 모니터는 그렇지 않으면 SEC 출하 분석(SEC release assay)을 — 그리고 그것과 함께 배치 전체를 — 통과하지 못할 고분자량 응집체를 막습니다. 이 모델들 중 어느 것도 CQA를 자율적으로 움직이지 않습니다. 그것들은 가장 출하-결정적인 하류 단계를 관측 가능하고, 방어 가능하며, 효율적으로 만드는 한편, 인간과 오프라인 패널이 최종 권한을 유지합니다. UF/DF를 옳게 잡으면 DS-001은 진행 예제가 필요로 하는 깨끗하고, 규격에 맞고, 농도에 맞는 원액입니다. 그것을 틀리면, 그 앞의 모든 비싼 단계가 이미 성공한 후에, 마지막 단위 작업에서 완전히 정제되고 거의 완성된 배치를 잃을 수 있습니다.

실제 현장에서는

여기서 가장 강력한 상용급 닻은 단백질 농도를 위한 인라인 가변경로길이 UV입니다. Repligen의 FlowVPX/FlowVPE는 업계 전반의 TFF 스키드에 배포되어, 약 0.1에서 250 mg/mL 너머까지 희석 없이 인라인으로 농도를 연속적으로 읽고, KrosFlo KR2i 자동 TFF 시스템과 통합되어 스키드가 UF/DF를 보유액 무게가 아니라 농도로 제어하며, 더 넓은 하류 PAT(공정 분석 기술, Process Analytical Technology — 품질을 실시간으로 감시·제어하기 위해 공정에 내장된 인라인 측정) 및 자동화 스택의 일부입니다(그 분석 제품군은 2025년 3월의 약 7천만 달러 규모 908 Devices 바이오공정 포트폴리오 인수를 통해 Repligen에 들어왔습니다) [1] (상용, 벤더 자체보고). 이것이 이 장의 농도 소프트 센서가 올라앉은 실제 배포된 골격입니다 — 다만 정밀해지는 것이 중요합니다. 인라인 UV 기기는 측정이고, 그것을(더하기 굴절률과 라만을) 보정된, 다중-속성, 종점-호출 소프트 센서로 바꾸는 모델이 아직 성숙 중인 부분입니다.

UF/DF의 기계학습 확장은 오늘날 대부분 파일럿과 연구이지, 제품화된 GMP 제어가 아닙니다. 가장 명확한 동료심사 신호는 Rolinger, Rudt & Hubbuch의 확장-칼만-필터-플러스-인라인-라만 접근(확장 칼만 필터는 공정 모델을 각 잡음 섞인 측정과 융합하여 숨은 양을 실시간으로 추적하는 재귀 추정기입니다)으로, 세 사례 연구(라이소자임, mAb, 이중특이성)에 걸쳐 한외·정용여과를 실시간 감시하며 밀도 측정 대비 정용여과 진행에 대한 민감도를 개선합니다 [3] (파일럿, 독립 동료심사), 그리고 Jesubalan과 Rathore의 UF/DF를 위한 AI-강화 지속-공정-검증 방법으로, 운전 궤적을 관리도와 기계학습으로 배치-대-배치 감시하는 다변량 객체로 다룹니다 [2] (파일럿, 독립 동료심사). 농도를 위한 인라인 굴절률과 완충액 상태를 위한 전도도는 보편적 상용 관행입니다. 그 신호들을 예측된 종점을 가진 다중-속성 소프트 센서로 학습된 융합하는 것이 응용 연구-에서-파일럿 최전선입니다. 더 넓은 그림은 이 책 전체가 거듭 닿는 그것이고, ISPE Pharma 4.0 설문이 확인하는 그것입니다. 바이오 제조의 ML은 CQA의 자율 제어가 아니라 감시와 인간-개입 의사결정 지원에 무리 지으며, UF/DF 종점이나 농도 소프트 센서는 FDA의 2023년 의약품 제조에서의 인공지능(Artificial Intelligence in Drug Manufacturing) 논의 문서(미국 의약품 규제 당국)와 EU/PIC/S GMP Annex 22 초안(유럽 및 국제 의약품-실사 기구)이 둘 다 기대하는 자문, 인간이-확인하는 범주에 정확히 들어맞습니다 — 잠겨 있고 검증된 모델이 인간 결정을 지원하며, 사전 결정된 변경 관리 계획과 함께, 결코 품질 속성을 스스로 조용히 움직이지 않는 것 [4][5]. 정직한 요약: 인라인 농도 측정은 실재하고 배포되어 있습니다. UF/DF를 위한 학습된 다중-속성 소프트 센싱과 종점 예측은 신뢰할 만하고, 물리에 접지되었으며, 동료심사된 파일럿입니다. 그리고 그중 어느 것도 중대한 원액 배치가 언제 끝나는지를 자율적으로 결정하지 않습니다.

핵심 용어

한외여과/정용여과(ultrafiltration/diafiltration, UF/DF) — 마지막 하류 단위 작업: 정제된 풀을 원액 표적까지 농축하고(한외여과) 완충액을 제형 매트릭스로 교환하여(정용여과) 원액을 생산함.
접선 흐름 여과(tangential-flow filtration, TFF) — UF/DF가 돌아가는 막 기하: 공급물이 막 표면을 가로질러 흐르는 동안 투과액이 통과하여 큰 항체를 보유함.
부피-감소 계수(volume-reduction factor, VRF) — 시작 부피 대 보유 부피의 비; 막이 단백질을 완전히 보유할 때 정확한 질량 균형에 의해 한외여과 동안 단백질 농도가 그것에 비례하여 상승함, c = c0 · VRF.
정용부피(diavolume, DV) — 정용여과 동안 교환된 신선 완충액의 한 보유액-부피; 자유롭게 투과하는 용질에 대해 잔류 옛 완충액이 대략 exp(−DV)로 감쇠함.
정용여과 종점(diafiltration endpoint) — 예측된 잔류 옛-완충액 분율이 세척 규격 미만으로 떨어지는 정용부피; 정용부피의 분수만큼 조기에 외삽될 수 있도록 로그-잔차 공간(DV = −ln(f_spec)/k)에서 호출되며, 과도한 정용여과를 피하기 위해 고정이 아니라 학습됨.
가변경로길이 UV(variable-pathlength UV, VPE/VPX) — 광학 경로를 짧게 하여 고농도 보유액이 희석 없이 선형 비어-람베르트 범위에 머물게 하는 인라인 자외선 농도 측정.
비굴절률증가분(specific refractive-index increment, dn/dc) — 굴절률을 선형이고 포화-증명인 보조 농도 채널로 만드는 거의 일정한 기울기(단백질에 대해 약 0.185 mL/g).
농도 분극 / 젤층(concentration polarization / gel layer) — 단백질이 되확산하는 것보다 빠르게 막에 쌓여, 플럭스를 질식시키고 응집을 위협함; 정체막 관계 J = k_m · ln(c_wall/c_bulk)로 모델링되는 주요 UF/DF 일탈 시그니처.
부형제 소프트 센서(excipient soft sensor) — 인라인 전도도와 라만을 잔류 옛-완충액 분율에 매핑하여, 오프라인 분석 없이 정용여과 종점을 호출할 수 있게 하는 모델.
원액(drug substance, DS-001) — 벌크 정제·농축·제형된 항체 물질; 진행 예제의 출하 CQA(단량체 98.611%, HCP 28.203 ng/mg)가 마침내 측정되어 모두 통과하는 로트.
비어-람베르트 선형성(Beer-Lambert linearity) — 농도 소프트 센싱에 심층망이 아니라 작은 선형 모델을 올바르고 설명 가능한 선택으로 만드는 진정으로 선형인 흡광도-농도 관계(A = ε·c·ℓ).
IRI-별 특징(FAIR feature) — 깨지기 쉬운 열 이름이 아니라 안정적 온톨로지 IRI(bp:proteinConcMgPerMl와 그 qudt:unit)로 식별되는 모델 입력으로, 조용히 틀린 열이나 단위로 바꿔치기될 수 없음; 소프트 센서를 시스템에 걸쳐 재현 가능하게 만드는 찾기-접근-상호운용-재사용(Findable-Accessible-Interoperable-Reusable) 규율.
ALCOA+ / 21 CFR Part 11 / CSV-에서-CSA — 어떤 GMP 기록이든 충족해야 하는 데이터 무결성 기대(귀속 가능·판독 가능·동시 기록·원본·정확, 더하기 완전·일관·영속·이용 가능), approvedBy 필드를 구속력 있게 만드는 전자-기록/서명 규칙(Part 11과 EU Annex 11), 그리고 종점을 계산하는 시스템을 자격검증하는 전산화 시스템 검증(CSV)의 위험-기반 컴퓨터 소프트웨어 보증(CSA) 재구성.

다음 이야기

원액이 만들어졌습니다. 순수하고, 표적 농도에, 올바른 완충액에 — DS-001, PApool-001에서 유래하고 출하 CQA를 나르며. 남은 것은 그 벌크 물질을 환자가 받는 용량으로 바꾸는 것입니다. 다음 장 제형과 충전-마무리: 컴퓨터 비전과 동결건조기(Formulation and Fill-Finish: Computer Vision and the Lyophilizer)는 5부로 들어가는데, 거기서 모든 QC를 통틀어 가장 강력한 상용 ML 사례 — 바이알과 주사기의 심층학습 자동 시각 검사 — 가 동결건조기의 소프트 센싱 및 제어를 만나며, 원액이 약물 제품 DP-001이 됩니다.

이 장에서 다루는 내용​

UF/DF는 한 스키드를 걸친 두 개의 소프트 센싱 문제다​

인라인 농도: 가변경로길이 UV, 굴절률, 그리고 선형이 이기는 이유​

정용여과 종점: 고정된 숫자가 아니라 올바른 정용부피에서 멈추기​

일탈 탐지: 막이 반격할 때​

실행 가능한 모델: ufdf_endpoint.py​

한 건의 UF/DF 종점 기록의 해부​

온톨로지가 이 소프트 센서를 믿을 만하게 만드는 이유​

미해결 과제: 고농도가 선을 깨뜨리고, 참조는 모든 것 중 가장 느리다​

이 장이 모델 모음에 더하는 것​

왜 중요한가​

실제 현장에서는​

핵심 용어​

다음 이야기​