세포주 개발: 기계학습으로 클론에 순위 매기기

📍 현재 위치: 2부 · 학습된 발견과 개발(Discovery & Development, Learned) — 6장. 직전 장 분자 발견(Molecule Discovery)은 생성적 설계와 개발성(developability) 예측을 써서 어떤 단백질을 만들지를 골랐습니다. 이제 우리는 어떤 세포가 그것을 만들지를 고릅니다 — 그리고 그것을 똑같은 소량-데이터, 고위험의 압박 아래에서, 다만 수백만 개의 후보 서열이 아니라 수천 개의 후보 클론을 두고 합니다.

세포주 개발(cell-line development, CLD)은 스크린 위의 서열이 살아 있는 공장이 되는 곳입니다. CHO 세포(중국 햄스터 난소 세포, 항체 제조의 표준 포유류 숙주) 풀(pool)에 mAb-A(이 시리즈가 따라가는 단클론 항체 — mAb)의 유전자가 형질주입(transfection)되고 — 곧 mAb-A 유전자가 세포의 DNA에 삽입되고 — 생존자들이 단일 세포로 희석되며, 살아남은 각 세포가 자라나 하나의 시조 세포에서 내려온 집단 — 하나의 클론(clone) — 이 됩니다. 수천 개의 클론 중 한 줌이 마스터 세포 은행(master cell bank)(세포주가 동결되어 나오는 보관용 모(母) 원종)의 후보가 되고, 정확히 하나의 계보가 WCB-CHO-001, 즉 작업 세포 은행(working cell bank)(마스터 은행에서 뽑아 각 배치에 씨를 뿌리는 일상용 바이알)이 되어 이 책의 모든 상업 배치에 씨를 뿌립니다. 그 선택은 다른 어떤 결정도 갖지 못한 방식으로 되돌릴 수 없습니다. 여기서 선정된 클론은 제품의 생애 내내 공정 개발(process development), 생산 바이오리액터(production bioreactor), 그리고 출하 규격(release specification)에 못 박힙니다. 빨리 자라지만 유전적으로 표류하는 클론을 고르거나, 역가는 높지만(항체를 많이 만든다 — 역가(titer)는 세포가 만드는 항체의 농도, 리터당 그램) 잘못된 글리코형(glycoform)(항체에 붙은 당 구조 패턴이 잘못된 것 — 이에 대해서는 아래에서 더)을 만드는 클론을 고르면, 그 비용은 몇 년 뒤 수억 달러로 하류에서 드러납니다.

전통적인 선택 방식은 유망한 모든 클론을 14일 유가식(fed-batch) 진탕 플라스크(shake-flask)나 미니 바이오리액터 운전까지 끝까지 키워(유가식(fed-batch) 운전은 한 번 충전한 뒤 굶기는 대신 약 2주의 수명 동안 배양물에 영양분을 공급합니다 — 표준 생산성 스크린입니다) 역가와 품질을 분석하고 순위를 매기는 것입니다. 그것은 느리고, 비싸며, 그리고 — 기계학습이 공격하는 지점인 — 늦습니다. 스크리닝 예산 대부분이 모델이라면 첫째 주에 패배자로 표시할 수 있었을 클론들에 쓰입니다. 이 장은 클론 선정을 학습-순위화(learning-to-rank) 문제로 재구성합니다. 값싼 초기 신호로부터 클론들이 결승선에서 어떤 순서로 끝날지를 학습하고, 비싼 후기 분석을 예측된 순위의 최상위에만 쓰는 것입니다.

쉽게 말하면

열두 명만 계약할 수 있는데 천 명의 어린 운동선수를 스카우트한다고 상상해 보세요. 각자에게 한 시즌을 다 돌릴 수는 없습니다. 그래서 값싼 초기 신호 — 단거리 기록, 수직 점프, 몇 주에 걸쳐 그 수치가 어떻게 추세를 보이는지 — 를 측정하고, 과거에 스카우트한 뒤 실제로 뛰는 것을 지켜본 선수들로부터 어떤 초기 신호가 실제로 좋은 커리어를 예측하는지를 학습합니다. 클론-순위화 모델은 세포에 대해 똑같이 합니다. 값싼 초기 신호(클론이 얼마나 빨리 자라는지, 현미경 아래에서 어떻게 보이는지, 락트산이 어떻게 추세를 보이는지)를 지켜보고, 14일 전체 결과를 이미 알고 있는 과거 클론들로부터 어떤 것이 비싼 후기 스크린에 들일 가치가 있는지를 학습합니다.

핵심 단어는 학습입니다. 이 모델이 작동하는 것은 오직, 과거 캠페인의 수천 클론에 대해 당신이 결국 14일 전체 결과를 보았기 때문입니다. 그 끝난 클론들이 훈련 집합입니다.

이 장의 나머지가 펼쳐 갈 반전이 있습니다. 좋은 스카우트는 가장 빠른 단거리 선수와 계약하지 않습니다 — 빠르고 동시에 내구력 있고 동시에 코칭이 통하는 선수와 계약합니다. 역가만 보는 스크린은 단거리 선수와 계약합니다. 다속성(multi-attribute) 순위화 모델은 진짜 선수와 계약합니다.

이 장에서 다루는 내용

우리는 클론 선정을, 몇 개의 분류 및 회귀 하위 모델 위에 얹힌 지도학습 학습-순위화 과제로 다룹니다. 다루는 것은 이미징 문제(고함량(high-content), 흔히 무표지(label-free) 현미경 검사 더하기 클론성(clonality) 보증과 클론 건강도를 위한 ML 분류기), 특징 문제(성긴 성장 곡선, 대사물질 궤적, 오믹스(omics) 판독을 클론별 고정 특징 벡터로 바꾸기), 역가·품질·안정성 예측을 하나의 순위 점수로 융합하는 제조성 지수(manufacturability index), 몇 달짜리 안정성 연구가 끝나기 한참 전에 유전적·역가 안정성을 호출하려 시도하는 초기 안정성 예측(stability prediction), 그리고 선정된 클론을 WCB-CHO-001에 잇는 GMP(우수 제조 관리 기준, Good Manufacturing Practice — 규제되는 상업-제조 체제)-및-계보(genealogy) 측면입니다. 실행 가능한 산출물은 examples/platform/ml/clone_rank.py로, 초기 특징으로부터 합성 클론 패널의 순위를 매기고 — 이 장의 핵심 실증 주장으로 — 다속성 순위화 모델이 역가만 보는 스크린을 이긴다는 것을 보입니다.

과제: 클론 선정은 회귀가 아니라 학습-순위화다

CLD를 "각 클론의 최종 역가를 예측한 뒤 정렬"로 틀 짓고 싶은 유혹이 있습니다. 그것은 점별(pointwise) 회귀 틀이며, 두 가지 이유로 잘못된 틀입니다. 첫째, 당신이 행동의 근거로 삼는 것은 클론의 절대 역가가 아니라 같은 캠페인 내 형제들에 대한 상대적 순위입니다. 절대 수치와 무관하게 상위 k개를 진행시키며, 캠페인 간 오프셋(다른 형질주입 효율, 다른 운전자, 다른 배지 로트)은 누가 이기는지를 바꾸지 않고 모든 클론을 함께 이동시키기 때문입니다. 둘째, 당신이 실제로 신경 쓰는 손실은 목록의 최상위에 집중되어 있습니다. 상위 20개 클론 사이의 순위 순서를 맞히는 것은 엄청나게 중요하고, 하위 800개 사이에서 맞히는 것은 그중 어느 것도 진행되지 않기에 무관합니다.

이것이 바로 학습-순위화가 만들어진 정확한 상황입니다. 세 가지 고전적 계열은 점별(pointwise)(각 클론의 점수를 독립적으로 예측한 뒤 정렬 — 단순하지만 상대 구조에 눈먼), 쌍별(pairwise)(각 클론 쌍에 대해 어느 쪽이 더 높은 순위여야 하는지를 학습 — LambdaMART와 RankNet이 최적화하는 목적함수), 그리고 목록별(listwise)(순위 지표 전체를 직접 최적화)입니다. 쌍별 목적함수가 가장 자연스럽게 맞습니다. 클론 i가 클론 j보다 진정으로 상위인 정렬된 쌍 (i, j)에 대해 모델 점수 s(·)를 정의하고, 로지스틱 쌍별 손실을 최소화합니다

L_pair = Σ_(i>j)  log( 1 + exp( -( s(x_i) − s(x_j) ) ) )

이는 비교 가능한 모든 쌍에 대해 더 나은 클론의 예측 점수를 더 나쁜 쪽 위로 단순히 밀어 올립니다. LambdaMART는 각 쌍을 그것을 맞바꿨을 때 순위 지표가 얼마나 바뀌는지로 가중하여, 순위 지표가 가장 민감한 곳 — 목록의 최상위 — 에 경사(gradient)를 씁니다. CLD의 "목록의 최상위가 중요하다"는 현실에 맞는 지표는 NDCG@k(rank k에서의 정규화 할인 누적 이득, normalized discounted cumulative gain)입니다.

DCG@k  = Σ_(r=1..k)  gain(clone at rank r) / log2(r + 1)
NDCG@k = DCG@k / IDCG@k     (IDCG@k = DCG of the ideal ordering)

1/log2(r+1) 할인은 rank 2에 떠오른 좋은 클론이 rank 40에 묻힌 것보다 훨씬 더 큰 값을 갖는다는 뜻으로, 이는 약 20개 클론을 진행시키는 스크린의 경제학과 정확히 일치합니다. NDCG@20이 높은 모델은 절대 역가 예측이 평범하더라도 올바른 클론들을 비싼 스크린으로 떠올려 줄 것입니다 — 그리고 그것이 습식 실험실(wet lab)이 신경 쓰는 유일한 것입니다.

실무에서는 소량-데이터 CLD 체제를 두 가지 실용적 틀이 지배하며, 아래의 예제는 두 번째를 씁니다. 첫째는 rank:pairwise / LambdaMART로 직접 훈련된 경사 부스팅 트리(XGBoost나 LightGBM 같은 GBDT)입니다. 둘째는 — 클론 수가 수백 대 낮은 자리이고 라벨이 거친 경우에 견고한 — "진행 여부"를 좋은 제조 클론 대 그렇지 않음의 이진 분류(binary classification)로 재주조하고, 분류기를 적합한 뒤 그 예측 확률로 순위를 매기는 것입니다. P(good)으로 순위를 매기는 것 자체가 유효한 점별 순위화 모델이며, 그것의 AUROC는 정확히 무작위로 고른 좋은 클론이 무작위로 고른 나쁜 클론을 능가할 확률 — 변장한 순위 품질 지표 — 입니다. 순위화에는 분류기가 보정(그 점수가 참 확률과 일치할 필요는 없음)될 필요가 없고, P(good)에 대해 단조(monotone)(더 나은 클론을 더 나쁜 것 위에 두기만 하면 됨)이기만 하면 됨에 유의하세요. AUROC와 순위 순서는 점수의 어떤 단조 변환에도 불변이므로, 클론을 올바르게 정렬하는 원시 predict_proba로 충분하며, 아래의 작동하는 예제가 바로 그 점에 기댑니다. 어느 쪽이든 더 깊은 요점은 성립합니다. 모델의 일은 스크린을 대체하는 것이 아니라 스크리닝 예산을 배분하는 것입니다. 최종 역가와 품질 수치는 여전히 생존한 후보들에 대한 실제 14일 운전에서 나옵니다. 모델은 어떤 클론이 그 운전을 받을 자격이 있는지를 결정합니다.

특징: 값싼 초기 신호, 그리고 여기서도 무는 콜드스타트

클론-순위화 모델은 자신이 일찍 그리고 값싸게 계산할 수 있는 특징만큼만 좋습니다. 전체 가치 명제가 비싼 후기 분석 이전에 행동하는 것이기 때문입니다. 특징 계열을, 대략 얼마나 일찍 이용 가능해지는지의 순서로:

이미징 특징. 첫날부터 각 웰(well)을 영상화할 수 있습니다. 고전적 특징은 합류도(confluence), 콜로니 형태(morphology), 웰 점유율, 콜로니별 형상 기술자(면적, 원형도, 견고도)입니다. 현대적 특징은 CNN이나 무표지 다중모드(multimodal) 현미경에서 학습된 임베딩(embedding)입니다(이에 대해서는 아래에서 더). 이미징은 두 질문에 한꺼번에 답합니다. 이 웰이 진정으로 클론성인가(규제상 필수), 그리고 이 클론이 건강하고 잘 생긴 모양인가.
성장 곡선 특징. 성긴 생존 세포 밀도(VCD) 판독값 — 이 책의 데이터에서는 examples/datasets/offline_assays.csv에서 대략 하루 두 번 샘플링된 오프라인 분석값 — 이 성장 모델에 적합되고, 원시 점들이 아니라 그 적합의 매개변수가 특징이 됩니다. 표준적 선택은 비선형 최소제곱으로 적합되는 로지스틱 형태 VCD(t) = K / (1 + exp(−mu_max·(t − t0)))로, 여기서 로지스틱 속도 매개변수(logistic rate parameter) mu_max(지수 성장기의 비성장 속도), 생존 세포 적분(integral of viable cells)(IVCD = ∫ VCD dt, 총 생합성 능력의 대리물), 수용-능력 점근선(carrying-capacity asymptote) K(최대 VCD의 대리물), 그리고 배양물이 정점에 이르는 날이 떨어져 나옵니다. (곰페르츠(Gompertz) 곡선은 mu_max가 그 자신의 매개변수와 다르게 관계되는 대안적 비대칭 시그모이드이며, 여기서는 로지스틱만 보입니다.) 원시 성긴 점들을 먹이는 대신 매개변수를 적합하는 것은 측정을 잡음 제거하는 동시에, 주어진 클론이 어쩌다 몇 개의 시점을 얻었든 상관없이 하류 모델에 고정 길이의 해석 가능한 벡터를 줍니다. 첫 며칠 동안의 클론의 성장 모양은 어떤 단일 VCD 점보다도 더 예측력이 있습니다.
대사 특징. 같은 성긴 오프라인 패널이 글루코스, 락트산, 글루타민, 암모니아, 삼투압(osmolality)을 담습니다. 단연 가장 정보가 많은 파생 특징은 락트산 궤적(lactate trajectory) — 구체적으로 클론이 락트산을 생산하다가 소비하는 쪽으로 언제 그리고 전환하는지("락트산 전환, lactate shift") — 입니다. 운용상 그것은 d[lactate]/dt의 부호가 양에서 음으로 뒤집히는 날입니다. 결코 전환하지 않는 클론은 센티넬(예: −1)로 부호화됩니다. 락트산을 계속 축적하는 클론은 대사적으로 비효율적이고, 제 배양물을 산성화하며, 역가가 나쁜 경향이 있습니다. 그 전환은 잘 확립된 건강 신호입니다. 기계론적으로, 락트산 소비로의 전환은 해당과정 과잉(glycolytic overflow)에서 산화적(TCA) 대사로의 이동을 표시하는데, 이는 높은 세포 밀도에서 생존력을 유지하고 락트산 축적이 강제하는 염기 첨가(그리고 삼투압 상승)를 줄여 줍니다 — 그래서 일찍 전환하는 클론이 역가를 잘 내는 경향이 있습니다.
초기 생산성. 3일째 또는 5일째 역가(조잡한 Protein A나 생물층 간섭계(biolayer-interferometry) 판독값이라도)는 최종 역가의 약하지만 실재하는 초기 예측자이고, 비생산성(specific productivity)(qP, 세포당 일당 피코그램)은 진정으로 생산적인 클론을 그저 빨리 자라는 클론으로부터 갈라냅니다. 유용한 초기 대리물은 qP ≈ titer / IVCD로, 만들어진 산물을 그것을 만든 세포-일(cell-days)로 정규화합니다 — 적당한 역가지만 작은 IVCD를 가진 클론은 세포당으로는 스타입니다.
오믹스 / 유전 특징. 트랜스진(transgene) 복제 수(클론이 삽입된 mAb 유전자를 몇 벌 지니는지)와 삽입 부위(integration-site) 맥락(유전자가 게놈의 어디에 안착했는지, 이는 그것이 얼마나 안정적으로 켜진 채로 남는지를 좌우합니다), 그리고 — 이용 가능한 곳에서는 — 스트레스와 미접힘 단백질 반응(unfolded-protein response)의 전사체(transcriptomic) 표지자. 이것들은 안정성에 가장 예측력이 있는 특징인데, 안정성이 가장 어려운 표적이기 때문입니다. 그것들이 클론의 생산성이 60세대 이상의 증식을 견뎌낼지를 말하기 때문입니다.

여기서 CLD는 바이오공정 ML 전체를 따라다니는 콜드스타트 현실(cold-start reality)을 그 자신만의 잔혹한 반전과 함께 물려받습니다. 당신이 가장 예측하고 싶은 라벨 — 장기 계대(passaging) 연구에 걸친 클론 안정성 — 은 관찰하는 데 몇 달이 걸려서, (초기-특징 → 확인된-안정) 쌍으로 된 당신의 훈련 집합은 고통스러울 만큼 느리게 자라고, 모든 라벨은 당신이 이미 전체 연구를 투자한 클론입니다. 당신은 가장 어려운 하위 모델이 필요로 하는 바로 그 예시를 영원히 부족하게 가집니다. 이것이 과거 분자와 과거 캠페인에서 온 지식을 넘겨받게 해 주는 하이브리드와 전이학습(transfer-learning) 접근이 이 책 어디에서만큼이나 여기서 중요한 이유입니다. CHO 하이브리드-모델링 논제 계열 연구 [4] (연구)는 정확히 이 제약 위에 세워졌습니다. 기계론적 핵심이 약 140개의 CHO 세포주를 기술하는 다중 클론 운동학 모델이, ML 층으로 하여금 초기 웰 플레이트와 T25 스크리닝으로부터 새 클론의 운동학 매개변수를 예측하게 하여, 훨씬 적은 후기 단계 운전으로부터 바이오리액터 거동을 예보합니다 — 클론별 라벨 기근에서 벗어나기 위해 클론들에 걸쳐 힘을 빌리는 것입니다.

고함량 이미징과 클론성 문제

이미징 모델의 두 가지 일은 종류가 다릅니다. 하나는 클론성 보증(clonality assurance)입니다. 규제 당국(ICH Q5D 아래 — ICH는 국제의약품규제조화위원회(International Council for Harmonisation)로, 그 지침은 규제적 무게를 가집니다. Q5D는 세포-기질 유래 및 특성 규명을 다룹니다)은 생산 세포주가 단일 세포에서 유래했다는 문서화된 증거를 요구합니다. 고전적 증거는 사진입니다 — 0일째 웰 안의 단일 세포 이미지 — 그러나 수천 개 웰의 인간 검토는 느리고 주관적이며, ML 이미지 분류기가 이제는 아마도 단클론(monoclonal)이 아닌 웰(두 시조 세포, 이중체(doublet), 세포로 오인된 잔해)을 표시하여 보조합니다. 여기서 모델은 보통 0일/1일 웰 절편(crop)에 대한 이진 분류기로 훈련된 CNN이며, 정확도보다 운영점(operating point)이 더 중요합니다. 클론성은 거짓 "단클론" 호출(다클론(polyclonal) 세포주를 진행시킴)의 비용이 거짓 "비단클론" 호출(좋은 웰을 재영상화하거나 폐기함)의 비용을 압도하는 스크리닝 문제이므로, 임계값은 비클론성 웰의 매우 높은 재현율(recall)을 위해 설정되고, 누락을 0으로 몰기 위해 더 많은 수동 검토를 받아들입니다.

결정적으로, 이것은 자율적 역할이 아니라 결정 지원(decision-support) 역할입니다. "이 웰은 클론성이다"라고 말하는 모델은 그 자체로 규제 부담을 충족하지 못합니다. 그것은 인간 검토자와 직교(orthogonal) 증거(두 시점 영상화, 한계 희석(limiting-dilution) 푸아송 통계)가 필요한 곳에 집중되도록 대기열을 분류(triage)합니다. 클론성 자체는 절대적 증명이 아니라 문서화된 단클론성 확률(probability of monoclonality) — 이미징 근거와 한계 희석 푸아송 통계의 결합 — 으로 확립되며, 바로 그래서 ML 이미지 분류기는 대기열을 분류할 수 있어도 규제 부담을 면제해 줄 수는 없습니다. 이 인간-개입(human-in-the-loop) 틀 — ML이 분류하고, 인간과 직교 방법이 결정한다 — 은 이 책의 모든 정직한 상용 배포가 거듭 띠는 모양입니다.

다른 일은 이미지로부터의 클론 건강 및 생산성 예측입니다. 여기서 가장 강한 연구 결과는 인상적입니다. 무표지 다중모드 비선형 광학 현미경(SLAM/FLIM — 동시 무표지 자가형광-다중고조파 영상화 및 형광-수명 영상화)을 ML 분류기와 결합하니, 생산을 향한 세포를 교란시킬 어떤 염색이나 표지도 없이, 계대 2(passage 2)(계대(passage)는 세포를 키워 새 용기로 나누는 한 번의 주기 — 배양 나이의 대략적 단위로, 각 계대는 여러 번의 세포 배가에 걸칩니다)라는 이른 시점에 96.8퍼센트가 넘는 균형 정확도(balanced accuracy)로 CHO 클론을 구별했습니다 [1] (연구). 무표지(label-free)가 핵심 단어입니다. 클론을 특성 규명하기 위해 당신이 더하는 무엇이든 그 클론이 약을 만들기 전에 제거했음을 증명해야 하는 무엇이므로, 세포 자신의 광학적 시그니처(산화환원/대사 판독으로서의 NAD(P)H/FAD 자가형광 비율, 2차 및 3차 고조파 구조 신호)에서 클론 정체성과 건강을 읽는 방법은 CLD에 독보적으로 적합합니다. 보완적 연구 계열은 순전히 이미지 분석만으로 상대-역가 예측 모델(relative-titer predictive model)을 세워, 세포주-개발 현미경 검사에서 정량적 형태 특징(크기, 원형도, 견고도)을 추출하고 어떤 역가 분석도 돌기 전에 고생산 클론에 순위를 매깁니다 [2] (연구) — 다만 그 같은 연구가 보고하는 정직한 경고와 함께, 숙주 세포가 바뀌면 정확도가 저하된다는 것, 곧 한 배경에서 훈련된 형태 모델의 고전적 일반화 실패입니다.

근거

무표지 SLAM/FLIM + ML 클론-분류 결과(계대 2에서 96.8퍼센트가 넘는 균형 정확도)는 독립 동료심사되었으나 (연구)입니다 — 배포된 GMP CLD 파이프라인이 아니라 학술적 시연 [1]. 이미지-분석 상대-역가 모델 역시 동료심사되었고 초기 단계이며, 다른 숙주 세포에서 정확도가 감소함을 스스로 보고합니다 [2]. 둘 다 일상적 산업 사용이 아니라 실현 가능성과 방향의 근거로 다루세요. 오늘날 CLD에서 가장 강한 상용 ML은 더 평범합니다. 자율적 클론 호출이 아니라, 이미징-보조 클론성 분류와 데이터 호수(data-lake) 기반 순위화입니다.

제조성 지수: 많은 예측을 하나의 순위로 융합하기

클론은 역가만으로 선정되지 않습니다. 그 결정은 다목적(multi-objective)입니다. 높은 역가, 올바른 제품 품질(단량체 순도, 전하 변이체, 글리코실화), 좋은 성장, 대사 효율, 그리고 — 가장 긴 막대인 — 안정성. 상용(production) 수준에 도달한 산업적 패턴은 제조성 지수(manufacturability index)입니다. CLD 워크플로 전반에 걸쳐 한 클론에 대해 취해진 모든 측정을 모으는 데이터 호수(data lake) 위에서 계산되어 이 목적들을 융합하는 단일 복합 점수입니다. 발표된 "CLD 4.0" 방법론은 정확히 이것을 기술합니다 — 원시 CLD 데이터를 데이터 호수로 끌어들이고, 어떤 단일 속성이 아니라 생산성, 성장, 제품-품질 기준에 걸쳐 클론에 순위를 매기는 세포주 제조성 지수(Cell Line Manufacturability Index, MICL)를 계산하며, ML을 적용하여 공정 및 CQA(핵심 품질 속성, Critical Quality Attribute) 위험을 표시하고, 자연어 생성을 써서 선정 보고서를 자동 작성하는 4단계 인더스트리-4.0 워크플로이며, 삼황화-결합(trisulfide-bond) 품질 문제를 가진 재조합 CHO 항체-펩타이드 융합체에서 시연되었습니다 [3] (상용).

이 지수는 도메인 가중치가 학습된 예측과 만나는 곳이며, 정직한 버전은 그 둘을 분리 가능하게 유지합니다. 각 구성 요소는 학습된 예측(예측 최종 역가, 예측 단량체 퍼센트, 예측 안정성 확률)일 수 있지만, 하나의 점수로의 융합은 투명하고 문서화된 가중입니다 — 품질 부서(quality unit)가 왜 클론 A가 클론 B보다 순위가 높았는지를 설명할 수 있어야 하고, "경사 부스팅이 그렇게 말했다"는 규제 당국이 받아들이는 설명이 아니기 때문입니다. 그래서 실용적 아키텍처는 이렇습니다. 학습된 하위 모델들이 불확실성과 함께 목적별 보정된 예측을 산출하고, 통제된(governed) 점수화 함수가 그것들을 순위로 결합합니다. 두 가지 융합 형태가 흔합니다. 가장 단순한 것은 정규화된 속성들의 가중 합입니다. 더 방어 가능한 것은 Derringer–Suich 만족도 함수(desirability function)로, 각 속성을 문서화된 표적/규격 곡선을 통해 만족도 d_i ∈ [0,1]로 매핑하고 기하 평균으로 결합합니다,

D = ( d_1 · d_2 · … · d_m )^(1/m)

그 핵심 속성은 어느 단일 d_i = 0이든 전체 점수를 0으로 만든다는 것입니다 — 하나의 임계 속성에 실패한 클론(가령 단량체가 규격 미만)은 눈부신 역가로 제 자리를 되사올 수 없습니다. 그 거부권(veto) 거동이 바로 다속성 선정이 원하는 것이고 가중 합이 결여한 것입니다. 어느 쪽이든 가중치와 표적 곡선은 개발팀이 설정하고 버전 관리됩니다. 이 분리가 이 지수를 감사 가능하게(auditable) 만듭니다. 그것은 또한 그것을 조율 가능하게(tunable) 만듭니다. 한 프로그램이 안정성이 최대 역가보다 중요하다고 결정하면, 당신은 모델이 아니라 가중치 하나를 바꿉니다.

manufacturability_index(clone) =
      w_titer    · norm(predicted_final_titer)
    + w_quality  · norm(predicted_monomer_pct)
    + w_glyco    · norm(predicted_glycan_score)
    + w_growth   · norm(IVCD)
    + w_metabolic· norm(lactate_shift_score)
    + w_stability· P(stable over 60 generations)
                 − penalty(clonality_uncertainty)

각 norm(...)은 예측 속성을 비교 가능한 0–1 범위로 재척도화하고, 각 w_*는 문서화되고 버전 관리되는 가중치이며, 안정성 항은 가장 어려운 하위 모델에서 온 확률이고, 클론성 페널티는 단클론성 증거가 약한 웰을 역가가 아무리 좋든 목록 아래로 밉니다. predicted_glycan_score 항 — 여기서는 예시로만 둠 — 은, 효과기 기능(effector-function)이 관련된 IgG의 경우 글리코형(저푸코실화, 고만노스)이 흔히 다른 면에서 훌륭한 클론을 실격시키는 클론-의존 속성이기 때문에 포함됩니다. 그것은 정확히 Derringer–Suich 만족도 함수가 0으로 만들어 전체 점수를 거부할 종류의 임계 속성입니다. 출력은 클론당 하나의 숫자 — 그리고, 더 유용하게는, 불확실성 띠를 가진 순서입니다. 그래서 팀은 확신 있는 상위 k개에 더해 위험을 덜 가치가 있는 분산 높은 아슬아슬한 탈락자들을 진행시킵니다. 위의 공식 블록(그리고 아래의 작동하는 예제)은 두 융합 형태 중 더 단순한 가중 합을 구현하지, 산문이 "더 방어 가능"하다고 부른 기하-평균 만족도를 구현하지 않습니다. 가중 합은 가독성을 위해 보이고, 만족도의 거부권 거동은 더 엄밀한 상용 선택지로 남겨 둡니다.

예산 배분으로서의 클론 선정: 값싼 초기 이미징, 성장 곡선, 대사 특징이 클론별 특징 벡터가 되고, 학습된 하위 모델들이 각 목적을 예측하며, 투명한 가중 제조성 지수가 클론에 순위를 매기고, 예측된 순위의 최상위만 실제 역가와 품질을 산출하는 비싼 14일 스크린을 받을 자격을 얻는다 — 가장 느리고 예측하기 가장 어려운 실측값인 몇 달짜리 안정성 연구와 함께. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

글리코실화: 클론과 공정이 공유하는 속성

위 지수의 predicted_glycan_score 항은 별도의 절을 받을 만합니다. 글리코실화(glycosylation)가 어느 단일 단계도 소유하지 않는 품질 속성의, 이 책에서 가장 명료한 예이기 때문입니다. 그것은 mAb-A의 생애 모든 단계에서 거듭 나타납니다 — 발견 단계의 서열 책임(liability), 여기 클론 선정에서의 효과기-기능 거부권, 공정 개발(process development)에서의 스케일업 노출, 그리고 QC에서의 출하 속성 — 그러나 책은 지금까지 그것을 어디서도 하나의 관통선으로 펼치지 않았습니다. 이 절이 그 공백을 메웁니다.

글리코실화는 항체 Fc 영역의 보존된 자리에 붙은 가지친 당 구조(sugar structures)(글리칸, glycan)의 집합입니다. mAb-A는 IgG1이고, IgG1에게 Fc 글리칸은 장식이 아닙니다. 그것은 효과기 기능(effector function) — ADCC(항체-의존 세포-매개 세포독성, antibody-dependent cell-mediated cytotoxicity)와 CDC(보체-의존 세포독성, complement-dependent cytotoxicity)를 통해 면역 살상을 동원하는 항체의 능력 — 을 조율합니다. 교과서적 지렛대는 이름으로 잘 확립되어 있습니다. 저푸코실화(afucosylation)(코어 푸코스 제거)는 ADCC를 가파르게 올리고, 갈락토실화(galactosylation)는 CDC를 조절합니다. 고만노스(high-mannose)와 다른 글리코형은 혈청 반감기를 줄이고 면역원성이나 청소율(clearance) 우려를 높일 수 있습니다. 그래서 글리코형은 진정한 CQA이고, 클론 선정에서는 효과기-기능 거부권(effector-function veto)이 될 수 있습니다 — 정확히 Derringer–Suich 만족도 함수가 0으로 만들어, 글리칸 프로필이 잘못된, 다른 면에서 고역가인 클론을 가라앉힐 종류의 속성입니다.

이 속성이 강제하는 — 그리고 명시할 가치가 있는 — 분리는 그것의 분자-내재적 부분과 공정-및-숙주-실현 부분 사이에 있습니다:

분자-내재적(초기에, 인실리코로 예측 가능). 서열이 N-연결 글리코실화 자리를 지니는지 여부조차 아미노산에 쓰여 있습니다. 곧 N-X-S/T 시퀀(sequon)(아스파라긴, 프롤린을 제외한 임의 잔기, 그다음 세린 또는 트레오닌)입니다. 발견 단계(discovery stage)의 개발성 모델은 시퀀 — 특히 CDR 안의 원치 않는 것 — 을 세포 없이 서열로부터 곧장 책임으로 표시할 수 있습니다. 이것은 그 장이 이미 스크리닝하는 응집 및 면역원성 책임과 똑같은, 서열로부터의 인실리코 체제입니다.
공정-및-숙주-실현(오직 하류에서만 측정 가능). 글리코형의 실제 분포 — 얼마나 저푸코실화되었는지, 얼마나 고만노스인지 — 는 서열에 없습니다. 그것은 살아 있는 시스템이 실현합니다. CHO 클론 자신의 글리코실화 기구, 배지, pH, 피드(feed) 전략, 그리고 바이오리액터(bioreactor)의 용존 가스 조건이 모두 그것을 이동시킵니다. 모델은 시퀀이 있는지 없는지를 약속할 수 있지만, 실현된 글리코형을 약속할 수는 없습니다. 그것은 공정이 필요합니다.

실용적 귀결은 이 장의 논거를 곧장 관통합니다. 인실리코 모델은 발견 단계에서 시퀀 책임을 표시하지만, 실현된 글리코형은 실제 배양만이 드러내는 클론-의존 속성(clone-dependent attribute)입니다 — 그래서 그것이 제조성 지수에서 목적별 하위 점수로 살며, 분자만으로는 결코 실격시킬 수 없는 클론을 거부합니다.

실현된 글리코형을 학습하는 것은 안정성과 같은 이유로 어렵습니다. 글리칸 프로필은 느리고 특화된 분석 — 방출-글리칸(released-glycan) HPLC나 질량분석 — 으로 판독되는 다속성 조성 데이터(multi-attribute compositional data)(전체로 합산되는 여러 글리칸 종의 분율)이므로, 빽빽한 흐름이 아니라 배치당 한 줌의 측정으로 희소하게 도착합니다. 그것이 조성 형태로 된 소량-데이터 천장(small-data ceiling)입니다. 분석을 대체할 수 있는 모델을 훈련하기에는 라벨된 글리코형 판독이 너무 적습니다. 그래서 글리칸 ML은, 이 장의 클론성 및 안정성 ML처럼, 분류-및-모니터(triage-and-monitor) 역할을 합니다 — 글리코형이 표적을 벗어날 법하여 초기의 집중적 점검이 가치 있는 클론과 조건을 표시하는 것 — 이지 출하 역할이 아닙니다. 방출-글리칸 분석이 여전히 마지막 말을 가지며, 이는 생산성에 대해 14일 역가 운전이 그러한 것과 똑같습니다.

작동하는 순위화 모델: 다속성 학습이 역가만 보는 스크린을 이긴다

동반 모듈 examples/platform/ml/clone_rank.py는 핵심 주장을 구체적이고 반증 가능하게 만듭니다. 학습된 다속성 순위화 모델이 역가만 보는 스크린을 능가한다 — 진행시킬 가치가 있는 클론을 찾는 데서. 출하할 수 있는 공개된 수천 개 클론 CLD 데이터셋은 없으므로, 이 모듈은 속성들이 숨은 다속성 진실과 상관되는 그럴듯한 240-클론 스크린을 합성하고, 그다음 초기 특징에 순위화 모델을 적합하여 역가만으로 순위 매기는 것과 정면으로 비교합니다. 모든 숫자는 합성 생성기에서 나오지만, 그 비교의 구조가 진짜 교훈이고, 그것이 만들어 내는 격차가 제조성 지수의 전체 논거입니다.

시뮬레이터는 각 클론에 다섯 개의 측정된 초기 속성을 줍니다 — 최종 역가(g/L), 비성장 속도(1/day), 응집 / 고분자량 품질 판독(HMW % — 단량체보다 큰 종으로 뭉친 항체의 분율, 바람직하지 않은 품질 결함), 초기 안정성-하락 추정(60세대까지 잃은 역가 %), 그리고 조잡한 비생산성 대리물. 그다음 역가만 보는 스크린이 볼 수 없는 숨은 진실을 정의합니다. 한 클론은 고역가이고 동시에 저응집이고 동시에 안정한 경우에만 "좋습니다". 그것이 축소판 제조성 지수입니다 — 다속성 라벨 — 그리고 실험은 다섯 속성 모두에 훈련된 분류기가 역가로 정렬하는 것보다 그것을 더 잘 복원하는지를 묻습니다.

# examples/platform/ml/clone_rank.py  (excerpt) — rank clones by a learned
# manufacturability score, and beat a titer-only baseline.
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split

N = 240

def make_clones(seed=2026):
    rng = np.random.default_rng(seed)
    titer = rng.normal(4.5, 1.2, N).clip(0.5, 9)              # g/L
    growth = rng.normal(0.55, 0.08, N)                        # 1/day
    aggregation = rng.normal(2.0, 1.1, N).clip(0.1, 8)        # HMW %
    stability_drop = rng.normal(8, 5, N).clip(0, 30)          # % titer loss by gen 60
    spec_prod = titer / (growth * 14)                         # crude qP proxy
    X = np.column_stack([titer, growth, aggregation, stability_drop, spec_prod])
    # "good" = high titer, low aggregation, stable — a multi-attribute truth a
    # titer-only screen cannot see.
    score = (titer / 9) - 0.6 * (aggregation / 8) - 0.5 * (stability_drop / 30)
    good = (score > np.quantile(score, 0.7)).astype(int)
    return X, good, titer

def main() -> dict:
    X, good, titer = make_clones()
    Xtr, Xte, ytr, yte, _, titer_te = train_test_split(
        X, good, titer, test_size=0.35, random_state=0, stratify=good)
    clf = RandomForestClassifier(n_estimators=300, random_state=0)
    clf.fit(Xtr, ytr)
    proba = clf.predict_proba(Xte)[:, 1]
    auroc = roc_auc_score(yte, proba)
    auroc_titer = roc_auc_score(yte, titer_te)           # baseline: rank by titer alone
    top5 = np.argsort(proba)[::-1][:5]                   # of advanced clones, how many good?
    top5_precision = yte[top5].mean()
    print("Clone manufacturability ranking (synthetic 240-clone screen)")
    print(f"  learned ranker AUROC = {auroc:.3f}  (titer-only baseline AUROC = {auroc_titer:.3f})")
    print(f"  precision@5 advanced clones = {top5_precision:.2f}")
    assert auroc > 0.70, "the learned manufacturability ranker should clear AUROC 0.70"
    assert auroc >= auroc_titer, "the multi-attribute ranker should beat titer-only picking"
    return {"auroc": float(auroc), "auroc_titer_only": float(auroc_titer)}

두 가지 설계 선택이 이 장의 논거를 실어 나릅니다. 첫째, 모델은 predict_proba로 클론에 순위를 매기는 RandomForestClassifier입니다 — 과제 절에서 온 "진행/비진행을 분류로 재주조한 뒤 P(good)으로 순위"라는 틀이며, 여기서 AUROC가 바로 순위 품질 지표입니다(무작위의 좋은 클론이 무작위의 나쁜 클론을 능가할 확률). 둘째, 베이스라인은 의도적으로 실제 팀들이 하고 싶어 하는 바로 그것입니다. roc_auc_score(yte, titer_te)는 보류된(held-out) 클론을 역가만으로 순위 매깁니다. 두 AUROC는 같은 보류 클론을 같은 다속성 진실에 대해 채점하므로 직접 비교 가능합니다. 코드와 산문을 대조하는 독자를 위한 기재 한 가지: 이 모듈의 spec_prod은 특징 절에서 정의된 titer / IVCD 대리물보다도 더 조잡한 qP 대용물입니다 — 그것은 적분된 세포-일이 아니라 성장률 대리값으로 나눕니다 — 그러니 둘을 혼동하지 마세요. 모듈을 실행하면 다음을 그대로 출력합니다:

Clone manufacturability ranking (synthetic 240-clone screen)
  learned ranker AUROC = 0.952  (titer-only baseline AUROC = 0.907)
  precision@5 advanced clones = 1.00

CLD 책임자라면 그 출력을 이렇게 읽을 것입니다. 학습된 순위화 모델은 역가만 보는 베이스라인 0.907에 맞서 AUROC 0.952에 이릅니다 — 그리고 결코 사소하지 않은 그 격차가 제조성 지수의 전체 논거입니다. 이 시뮬레이터에서, 현실에서처럼, 높은 역가가 좋은 클론임과 상관되기에 역가만으로도 이미 좋은 예측자입니다(0.907). 요점은 그것이 전체 이야기는 아니라는 것입니다. 순위화 모델이 얻는 0.045 AUROC는 역가가 볼 수 없는 응집과 안정성에 사는 신호입니다 — 역가는 아름답지만 응집하거나, 역가는 아름답지만 표류하는, 역가만 보는 스크린이라면 기꺼이 진행시키고 다속성 모델이 강등시키는 클론들입니다. (spec_prod은 역가에서 파생되므로 새로운 축을 더하는 것이 아니라 기존 신호를 다시 표현할 뿐이고, 순위화 모델이 활용하는 진정으로 새로운 정보는 응집과 안정성에 산다는 점에 유의하세요.)

precision@5 = 1.00은 습식 실험실이 말하는 언어로 된 실용적 보상입니다. 모델이 가장 먼저 진행시키는 다섯 클론 중 다섯 개 모두가 진정으로 좋습니다. (precision@5는 과제 절이 세운 NDCG@k의 이진, 비할인 사촌입니다. 여기서는 합성 라벨이 이진 좋음/안-좋음이라 등급 관련성(graded relevance)이 아무 이득도 주지 않기에 그것을 씁니다 — 등급 매겨진 제조성 라벨이라면 NDCG@20이 지표가 될 것입니다.) 그것이 스크리닝-예산 배분이 작동하는 것입니다 — 비싼 14일 운전이 초기에 측정하기 가장 값싼 한 속성뿐 아니라 모든 속성을 견뎌낸 클론에만 쓰입니다.

정직한 경고는 남습니다. 이 상승의 일부는 응집과 안정성 신호에서 옵니다. 특히 stability_drop은 여기서 마치 관측된 것처럼 모델에 건네지지만, 현실에서 그것은 후기 라벨 — 당신이 필요할 때 갖지 못한 그 하나의 숫자 — 입니다(아래의 "미해결 과제" 참조). 그리고 이것은 깨끗하고 알려진 진실을 가진 240-클론 합성 패널이므로, 절대 수치는 느리고 부분적인 안정성 라벨을 가진 잡음 섞인 실제 스크린에 비해 낙관적입니다. 그리고 모델은 여전히 선정하지 않습니다 — 순서를 매기고, 14일 운전과 안정성 연구가 여전히 그것이 채점받는 진실을 산출합니다.

하나의 클론-순위화 기록의 해부

클론의 순위는, 이 시리즈의 모든 산출물처럼, 벌거벗은 숫자로는 가치가 없습니다. CLD 순위화 시스템이 단일 클론에 대해 영속화하는 기록은 순위 뒤의 근거, 그 둘레의 불확실성, 승자를 앞으로 따라갈 계보, 그리고 결국 그 예측을 채점할 느린 실측값을 담습니다. 이것은 Book 2의 소프트 센서 예측 기록(soft-sensor prediction record)과 같은 규율 — 출처(provenance)가 숫자와 함께 이동한다 — 을 역가 추정이 아니라 클론에 적용한 것입니다.

하나의 클론-순위화 기록을, 완전히 펼쳐서: 예측을 이끈 초기 특징 벡터, 불확실성과 목적별 하위 점수를 가진 예측 지수와 순위, ICH Q5D를 충족하는 클론성 증거, 예측과 대조될 느린 14일 및 안정성 실측값, 그리고 — 정확히 한 계보에 한해 — 순위 매겨진 후보를 WCB-CHO-001로 바꾸는 계보 간선(edge). 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

이 카드를 위에서 아래로 읽으면 이 장의 논거가 필드로 펼쳐집니다.

헤더는 정체성과 재현성을 못 박습니다. campaign_id(CLD-mAb-A-03)로 범위가 정해진 안정적 clone_id(CLONE-0473) — 순위는 캠페인 안에서만 의미가 있으므로 그것이 묶음 키(grouping key)입니다 — 더하기 그 점수를 산출한 정확한 모델 이름과 버전. 버전이 없으면, 몇 달 뒤의 재순위화(더 많은 안정성 라벨이 존재하고 모델이 재훈련되었을 때)를 원본과 구별할 수 없고, 감사 추적(audit trail)이 끊깁니다.

입력 블록은 값싼 초기 근거입니다. 초기-특징 벡터로, 각 값이 그것이 이용 가능해진 날로 태깅되어, 검토자가 그 예측이 비싼 스크린 이전에 존재했던 신호에만 의지함을 확인할 수 있습니다. 그 타임스탬프는 장식이 아닙니다 — 그것은 누설 방어선(leakage guard)입니다. 14일 운전에서 정보를 조용히 "초기" 벡터로 되날라 온 특징은 모델의 외견상 기량을 부풀리고 상용에서 그것을 무너뜨립니다. 각 특징의 이용 가능 날을 태깅하는 것은 어떤 후기 진실도 초기 예측으로 새지 않았음을 기록의 표면에서 증명하는 방법입니다.

녹색 핵심은 예측 자체입니다 — 불확실성 띠를 가진(거짓 정밀의 점이 아닌) 제조성 index, 캠페인 내 예측 rank, 그리고 지수가 융합한 목적별 하위 점수(예측 역가, 예측 단량체 퍼센트, 예측 안정성 확률)로, 순위가 설명 가능하도록 보이게 유지됩니다. CLONE-0473이 7위라고 보는 검토자는 왜인지 읽을 수 있습니다. 강한 역가와 성장, 클론성 플래그 깨끗함, 좋지만 확실하지는 않은 안정성 확률. 하위 점수는 인간이 순수한 순서를 무시(override)할 수 있게 하는 것입니다 — 유일한 약점이 위험을 덜 가치가 있는 넓은 안정성 띠인 12위 클론을 진행시키는 것.

클론성 행은 규제 근거를 나릅니다. 단클론성 플래그 더하기 이미징 모델이 분류하고 인간이 확인한 두 시점 이미지 참조 — ICH Q5D가 기대하는 글자 그대로의 산출물. 이 행이 인간-개입이 기록되는 곳입니다. 필드는 모델의 신뢰뿐 아니라 검토자의 승인 서명과 직교 근거(두 시점 영상화, 한계 희석 통계)도 저장하므로, 기록이 규제 당국이 깎아내릴 모델 출력이 아니라 규제 서류(dossier)의 일부로 설 수 있습니다.

대조 블록은 기록을 정직하게 만드는 것을 담습니다 — 클론이 스크리닝된 뒤에 도착하는 측정된 14일 역가와 품질, 그보다도 몇 달 뒤 도착하는 장기 안정성 평결, 그리고 예측 순위와 관측 순위 사이의 잔차(residual). 그 잔차는 모델이 여전히 신뢰할 만한지를 당신에게 말해 주는 유일한 것입니다. 캠페인들에 걸친 잔차의 표류는 세계가 움직였고(새 배지 플랫폼, 새 벡터) 순위화 모델에 재훈련이 필요하다는 조기 경보입니다 — 드리프트 장(drift chapter)이 일반화하는 바로 그 모델-모니터링 논리.

보라색 관계 패널은 계보를 기록합니다. 과거 확인된 클론들에 trained_on, 공정-개발(process-development) 후보 명단에 feeds, 그리고 — 한 계보에 한해서만 — 이 책의 모든 배치(batch)와 모든 출하 기록(release record)이 내려오는, (다시, 마스터 세포 은행에서 뽑은) 작업 세포 은행 WCB-CHO-001이 becomes. 이 간선이 기록이 일시적일 수 없는 이유입니다. 그것은 온톨로지의 상부 척추(ontology's upper spine)가 약물 산물 바이알까지 줄곧 추적하는 계보의 머리이며, 몇 년 뒤 BATCH-2026-001을 감사하는 규제 당국은 그것을 따라 이 순위 매겨진 후보까지 거슬러 걸어올 것입니다.

기록을 신뢰할 수 있게 만드는 것: 열 이름이 아니라 시맨틱 기반

그 카드의 모든 필드는 그것이 가져와지는 이름만큼만 믿을 수 있으며, 바로 여기서 순위 매기는 모델은 조용히 Book 4가 짓는 온톨로지에 기댑니다. 이 장의 무게를 견디는 주장 셋은, 밑바닥에서는 시맨틱한 것입니다.

열 이름이 아니라 IRI로 가져오는 특징. 특징 벡터가 lactate_shift_day라고 말할 때, 열 이름 파이프라인은 상류의 어떤 이름 변경이나 단위 변경, LIMS-대-LIMS 마이그레이션이 조용히 깨뜨릴 수 있는 문자열을 신뢰합니다 — 모델은 이제 잘못된 양으로 계속 예측합니다. 견고한 대안은 각 특징을 그 온톨로지 IRI(Internationalized Resource Identifier — 개념에 대한 전역적으로 유일한 웹 이름)로 가져오는 것입니다. 그러면 락테이트-시프트 특징은 분기마다 바뀌는 스프레드시트 열 이름이 아니라, 고정된 단위와 의미를 가진 타입화된 bp: 속성에 묶입니다. 이것은 소프트 센서 패키지가 명명된 wn_400…wn_1800 채널로 강제하는 바로 그 특징 계약(feature contract) 규율을 클론 특징에 적용한 것입니다. 이름이 바뀌거나 단위가 다시 정해진 입력은 조용히 잘못 예측하는 대신 시끄럽게 실패합니다. 같은 모델이 소스-시스템 교체에서 살아남게 하는 것이 바로 이 시맨틱 결합입니다.

SHACL이 출하 게이트가 로트를 검증하듯 훈련 입력을 검증합니다. CLD ML에서 가장 어려운 누수·완전성 버그는 모델링 오류가 아니라, 열 이름 로더가 볼 수 없는 누락되거나 잘못된 형식의 입력입니다. 진행시킨 모든 클론의 클론성 증거가 실제로 존재했는가? 각 특징이 두 번째 식별자 아래 정리된 중복이 아니라 단일한 범위 내 값인가? 이것들은 출하 게이트의 SHACL 형상이 약물-물질 로트에 대해 답하는 바로 그 닫힌-세계 질문입니다 — "필수 결과가 누락되었는가?"는 존재해야 하는데 존재하지 않는 트리플에 관한 질문이고, 어떤 SELECT 질의도 이를 던질 수 없습니다. 클론의 특징 기록이 훈련에 들어가기 전에 같은 형상-검증 규율을 그 위에 돌리는 것이, 데이터의 표면에서 훈련 집합이 완전하고 범위 내임을 보장하는 방법입니다 — 모든 측정값에 대한 데이터 그림자의 거버넌스에 짝하는 데이터-품질 측면입니다.

derivedFrom이 그룹 키이고, BFO가 측정값을 운전과 구별되게 지킵니다. 해부 카드가 그리는 누수 가드 — campaign_id 그룹 키 — 는 형식적으로 계보 관계입니다. 계보 장이 짓는 전이적 bp:derivedFrom 척추(PROV-O / OBO 관계 온톨로지의 derives from에 정렬됨)가 당신이 분할할 때 그룹이 무엇인지를 정의합니다. 부모 형질도입 풀이나 캠페인을 공유하는 클론들은 독립이 아니므로, 점수를 정직하게 유지하는 배치-단위-제외 교차 검증(leave-one-batch-out cross-validation)은 우연한 열이 아니라 그 계보 간선으로 묶어야 합니다. 그리고 클론의 측정값(역가 판독 같은 연속체 품질)이 그것을 낳은 운전(시점체)과 결코 혼동되지 않는 이유는, 분류 체계 장의 BFO 연속체/시점체 구분입니다 — 14일 페드배치가 두 가지를 합치지 않고 용기에서 일어남(occurs in)이라고 온톨로지가 말하게 하는 바로 그 구분입니다. 이렇게 타입화되면, 클론-순위화 기록은 사적인 스프레드시트이기를 멈추고, 미래의 모델 — 또는 GraphRAG 질문 — 이 그 위에 설 수 있는 FAIR(찾을 수 있고, 접근 가능하고, 상호운용 가능하고, 재사용 가능한) 그래프 속의 노드가 됩니다. 사실의 묶음을 답을 기반 지을 만큼 정직하게 만드는 것이 바로 온톨로지이기 때문입니다.

미해결 과제: 안정성 연구가 끝나기 전에 안정성 예측하기

CLD ML의 정직한 미해결 문제는 안정성 예측(stability prediction)이며, 그것은 더 영리한 모델이 없어서가 아니라 구조적 이유로 미해결입니다. 생산 클론의 가장 중대한 속성은 그것이 생산성을 유지하는지입니다. CHO 세포는 유전적으로 가만있지 못하고, 계대 5에서 아름답게 역가를 내는 클론이 계대 60까지 트랜스진 복제를 잃거나, 메틸화로 프로모터를 침묵시키거나, 글리칸 품질에서 표류할 수 있습니다 — 그것이 선정된 한참 뒤, 흔히 은행화된 뒤, 때로는 임상에 들어간 뒤에. 따라서 유전적·생산성 안정성은 제조성 지수가 가장 일찍 예측하고 싶어 하면서 가장 못 하는 속성입니다. 작동하는 예제에서 이것은 마치 알려진 것처럼 모델에 건네진 stability_drop 특징입니다. 현실에서 그것은 당신이 필요할 때 갖지 못한 유일한 숫자입니다.

그 어려움은 삼중 결박입니다. 첫째, 라벨이 느리고 희소합니다. 안정성 확인은 여러 달짜리 연장 계대 연구(보통 제조에 쓰이는 시험관내 세포 나이 한계까지 — 여기서는 집단 배가/세대로 표현해 약 60세대 이상이며, Book 1은 같은 구간을 계대(passage)로 틀 짓고 한 계대는 여러 배가에 걸칩니다)를 요구하므로, 모든 훈련 라벨은 당신이 이미 전체 연구를 쓴 클론이고, 당신은 그것들을 한 번에 비싼 클론 하나씩 축적합니다 — 가장 첨예한 형태의 콜드스타트 문제. 수십 개의 확인된-안정 / 확인된-불안정 결과에 훈련된 모델은 한 줌의 점으로부터 고차원 유전 특징 공간에서 결정 경계를 그리도록 요구받습니다. 둘째, 신호가 미묘하고 일부 숨어 있습니다. 안정성에 가장 예측력 있는 초기 특징은 유전적·후성유전적(transgene 복제 수, 삽입 부위 염색질 맥락, 프로모터 메틸화 표류)이고, 이것들은 성장과 역가보다 측정하기 더 어렵고 비싸며, 그렇게 해도 분산의 일부만 설명합니다 — 불안정성은 부분적으로 0일째 유전학의 완전히 결정된 함수가 아니라, 확률적이고 계보-특이적인 사건입니다. 셋째, 불안정성은 드물고 닥치기 전까지 조용합니다 — 대부분의 클론은 충분히 안정하고, 불안정한 것들은 초기에 멀쩡해 보이며, 그 부류 불균형(class imbalance) 더하기 늦고 급작스러운 발병은 이것을 건초더미 속 바늘 문제로 만들어, 늘 "안정"이라고 예측하는 순진한 모델이 정확도에서 높은 점수를 받고도 쓸모없게 만듭니다.

그 결과로 오늘날 초기 안정성 예측은 위험 플래그(risk flag) — 지수에 기여하고 어떤 클론이 초기의 더 집중적인 안정성 점검을 받을지를 분류하는 확률 — 이지, 연구를 대체할 수 있는 평결이 아닙니다. 믿을 만한 앞길은 정확히 라벨 기근과 싸우는 것들입니다. CHO 게놈 불안정성과 프로모터 침묵에 대한 기계론적 지식을 접어 넣어 모델이 일반화하는 데 더 적은 라벨이 필요하게 하는 하이브리드 모델링(다중 클론 운동학-모델 접근이 한 사례 [4]), 그리고 분자와 숙주 배경에 걸쳐 안정성 신호를 나르는 전이학습으로 새 프로그램이 그 이전의 모든 프로그램으로부터 사전 지식(priors)을 물려받게 하는 것입니다. 그러나 지금으로서는 긴 안정성 연구가 모델이 대체하는 것이 아니라 모델이 미루어 따르는 것으로 남아 있습니다. 모델이 클론에 큰 확신을 가지고 순위를 매기고도 3년 차에 실패할 그 하나에 조용히 눈멀 수 있습니다 — 그래서 안정성 평결이 해부 기록의 대조 블록에 살며, 그럼에도 먼저 행동의 근거로 삼아야 했던 순위보다 몇 달 뒤에 도착합니다.

이 장이 모델 모음에 더하는 것

이 장은 Book 5의 자라나는 examples/platform/ml/ 모음에 examples/platform/ml/clone_rank.py를 기여합니다. 이 모듈이 제공하는 것:

다섯 개의 상관된 초기 속성과 의도적으로 다속성인 숨은 진실(좋음 = 고역가 그리고 저응집 그리고 안정)을 생산하는 합성 클론-패널 생성기(synthetic clone-panel generator)로, 실험이 독점 CLD 데이터셋 없이 단일-지표 선택의 실패 모드를 시연할 수 있게 합니다.
같은 보류 클론에 대해 역가만 보는 베이스라인(titer-only baseline)과 정면으로 채점되는 학습된 다속성 순위화 모델(원시 P(good)으로 순위 매겨진 평범한 RandomForestClassifier — 순위화에는 분류기가 보정될 필요 없이 P(good)에 단조이기만 하면 됩니다) — 제조성 지수가 왜 존재하는지에 대한 가능한 한 가장 깨끗한 시연.
순위 인식 지표(ranking-aware metrics) — 순위 품질 지표로서의 AUROC(좋은 클론이 나쁜 클론을 능가할 확률)와 진행된 클론의 precision@5, 곧 원시 R²가 아니라 CLD가 실제로 신경 쓰는 지표.
두 개의 내장 수용 단언(acceptance assert) — 하한선(auroc > 0.70)과 비교 회귀 단언(auroc >= auroc_titer) — 으로, 순위화 모델이 신뢰성 게이트 아래로 떨어지거나 역가만 보는 선택을 이기기를 멈추면 모듈을 실패시켜, 이 장의 핵심 주장이 산문으로만 단언되는 것이 아니라 코드로 강제되게 합니다.

이것은 의도적으로 분류에 의한 순위화 예제로, Book 5의 회귀 및 소프트 센서 예제와 구별되어, 모음이 학습-순위화를 일급 과제로 다루게 합니다. 그것은 라만 소프트 센서(Raman soft sensor)와 공정-개발 최적화 도구(process-development optimizer)를 중복하지 않고 보완합니다. 이것은 클론에 걸쳐 스크리닝 예산을 배분하고, 저것들은 선택된 공정을 예측하고 최적화합니다.

왜 중요한가

세포주 개발은 일방통행 문입니다. 여기서 선정된 클론은 WCB-CHO-001이 되어 이 책의 모든 하류 결정에 못 박힙니다 — 그것을 둘러싸고 개발된 공정(process), 그것에 맞춰진 바이오리액터(bioreactor), 그것을 위해 쓰인 규격(specification), 그리고 모든 상업 배치를 그것까지 거슬러 추적하는 계보(genealogy). 제대로 맞히는 것의 지렛대는 엄청나고, 잘못 맞히는 비용은 몇 년 뒤 멀리 하류에서 치러집니다. 기계학습의 기여는 선택을 대신하는 것이 아니라 — 최종 역가, 품질, 안정성은 여전히 실제 클론에 대한 실제 분석에서 나옵니다 — 스크리닝 예산을 보상받는 곳에 쓰는 것입니다. 올바른 클론을 몇 주 일찍 비싼 스크린으로 떠올리고, 비클론성이거나 건강하지 못한 웰이 자원을 소비하기 전에 잡으며, 초기의 집중적 점검을 받을 가치가 있는 안정성 위험을 표시하는 것. 작동하는 예제는 그 지렛대에 숫자를 붙입니다. 역가만이 아니라(0.907) 모든 속성에 순위를 매기는 것(AUROC 0.952)은 진행하는 소수 클론이 측정하기 가장 값싼 한 축이 아니라 모든 축에서 좋은 것들이라는 뜻입니다. 학습-순위화로 재구성하면, CLD는 소량-데이터 세계에서 ML이 진정으로 잘하는 것을 하는, 이 책 전체에서 가장 명료한 사례가 됩니다. 실험을 대체하는 것이 아니라, 어떤 실험을 돌릴지를 결정하는 것.

실제 현장에서는

CLD에서 ML의 상용 현실은 집중적이고, 정직하며, 화려하지 않습니다. 실제로 일상적 산업 사용에 도달한 방법론은 데이터-호수 기반 제조성 지수(data-lake-driven manufacturability index)입니다 — 발표된 CLD 4.0 연구가 기술하듯, CLD 워크플로 전반의 모든 측정을 모으고 역가만이 아니라 융합된 MICL 점수로 클론에 순위를 매기며, ML 위험-표시와 자연어 생성 선정 보고서를 갖춘 것 [3] (상용). 이미징-보조 클론성 보증은 결정 지원으로 널리 배포되어 있고(단일-세포 기원을 문서화하는 이미징 장비가 점점 ML-보조 웰 분류를 탑재해 출하됨), ICH Q5D 아래의 규제 부담이 모델이 아니라 제조사에 있으므로 늘 인간-개입 검토 아래에 있습니다. 더 진보된 결과 — 계대 2에서 96.8퍼센트가 넘는 균형 정확도의 무표지 SLAM/FLIM 클론 분류 [1], 이미지 전용 상대-역가 순위화 [2], 그리고 기계론적 운동학을 데이터와 융합하여 더 적은 운전으로 클론 거동을 예측하는 CHO 세포주 개발을 위한 하이브리드 모델링 [4] — 은 (연구)이고 동료심사되었으며, 아직 일상적이지는 않은 채로 방향을 가리킵니다.

여기에는 두 가지 주의가 속합니다. 벤더들은 점점 극적인 CLD 가속을 광고합니다 — 예컨대 어느 데이터-플랫폼 벤더의 세포주 개발이 8개월에서 2.5개월로 줄었다는 자체 보고 수치 — 그리고 그런 헤드라인 숫자는 벤더 자체보고 단일-출처 주장이지 독립적으로 검증된 것이 아니며, 확립된 사실이 아니라 야심의 예시로 읽혀야 합니다. 그리고 WuXi Biologics "Industrial Smart Lab" 결과 — 디코더 전용 트랜스포머 더하기 로봇 실험으로 세 CHO 클론에 걸쳐 평균 약 +26.8퍼센트 역가를 보고 — 는 동료심사되었으나 단일 회사이고, 자체보고이며, 공정-개발 규모(3–15 L)이지 GMP가 아닙니다 [5] (파일럿). 그것은 자율-실험실 최전선(autonomous-lab frontier)에 속합니다. 그리고 클론 선정 자체라기보다 공정-개발 실험에 가까우므로, 그 역가 수치는 CLD 선정 결과라기보다 자율-루프의 약속의 예시로 읽는 것이 가장 좋습니다. 냉정한 요약: CLD에서 오늘날 ML은 순위를 매기고 분류합니다. 그것은 선정하지 않으며 — 그리고 긴 안정성 연구가 여전히 마지막 말을 가집니다.

핵심 용어

CHO 세포(CHO cells) — 중국 햄스터 난소 세포로, 항체 약물을 제조하는 데 쓰이는 표준 포유류 숙주. 이 장 전체가 그중에서 선정하는 세포 기질.
형질주입(Transfection) — 표적 항체의 유전자를 숙주 세포의 DNA에 삽입하기. CHO 풀을 항체-생산 세포로 바꾸는 시작 단계.
클론(Clone) — 단일 시조 세포에서 내려온 세포 집단. CLD의 선정 단위이자 순위가 매겨지는 대상.
역가(Titer) — 세포가 생산하는 항체의 농도(리터당 그램). 대표 생산성 수치이지만, 좋은 클론이 충족해야 하는 여러 속성 중 하나일 뿐.
마스터 세포 은행(MCB) / 작업 세포 은행(WCB)(Master cell bank / working cell bank) — 2단 동결 원종 보관소. 시조 클론이 보관용 MCB로 증식되고, WCB는 MCB에서 뽑히며, 오직 WCB만이 일상 생산에 씨를 뿌린다(여기서는 WCB-CHO-001).
유가식(Fed-batch) — 한 번 충전하는 대신 약 14일의 수명 동안 영양분을 공급받는 배양 운전. 역가와 품질을 분석하는 표준 후기 스크린.
계대(Passage) — 세포를 키워 새 용기로 나누는 한 번의 주기. 배양 나이의 대략적 단위로, 각 계대는 여러 번의 세포 배가에 걸친다.
GMP(우수 제조 관리 기준, Good Manufacturing Practice) — 규제되는 상업-제조 체제. "GMP가 아님"은 아직 규제받지 않는 공정-개발 단계에 있다는 뜻.
CQA(핵심 품질 속성, Critical Quality Attribute) — 규격 안에 머물러야 하는 품질 속성(예: 글리코형, 단량체 순도). 클론 선정에서의 규격-기반 거부권 기준.
학습-순위화(Learning-to-rank) — 목적함수가 각 항목의 절대 값이 아니라 항목(클론)의 순서인 ML 틀. 점별, 쌍별, 목록별이 그 세 계열.
NDCG@k — rank k에서의 정규화 할인 누적 이득. 가장 좋은 클론을 목록 상위 가까이에 두는 것을 보상하고 깊은 곳의 이득을 1/log2(r+1) 인자로 할인하는 순위 지표.
순위 지표로서의 AUROC(AUROC as a rank metric) — ROC 곡선 아래 면적은 무작위로 고른 좋은 클론이 무작위로 고른 나쁜 클론보다 높은 점수를 받을 확률과 같다. P(good)으로 순위를 매기면 AUROC가 순위 품질 척도가 된다.
제조성 지수(Manufacturability index, MICL) — 예측 역가, 품질, 성장, 대사 효율, 안정성을 CLD 데이터 호수 위에서 계산해 하나의 순위로 융합하는 단일 복합 점수. CLD 4.0의 세포주 제조성 지수.
만족도 함수(Desirability function) — 각 속성을 [0,1]로 매핑하고 기하 평균으로 결합하는 Derringer–Suich 융합으로, 하나의 임계 속성에 실패하면 전체 점수가 거부된다.
클론성 보증(Clonality assurance) — 세포주가 단일 세포에서 내려왔다는(ICH Q5D 아래 요구되는) 문서화된 증거. ML이 높은 재현율 운영점에서 웰 이미지를 분류하여 보조하지만, 인간과 직교 방법이 결정한다.
고함량 / 무표지 이미징(High-content / label-free imaging) — 생산 전에 제거해야 할 염색 없이 클론 건강과 정체성을 특성 규명하는 현미경 검사. SLAM/FLIM이 연구 단계 사례.
비생산성(Specific productivity, qP) — 세포당 일당 산물의 피코그램. 진정으로 생산적인 클론을 그저 빨리 자라는 클론으로부터 갈라낸다.
글리코실화 / 글리코형(Glycosylation / glycoform) — IgG의 Fc에 붙은 당 구조로, 효과기 기능을 조율하고(저푸코실화는 ADCC를 올리고 갈락토실화는 CDC를 조절) 청소율에 영향을 준다. 클론 선정에서의 효과기-기능 거부권 속성. 그것의 분자-내재적 부분 — 서열이 N-X-S/T 시퀀을 지니는지 — 은 발견 단계에서 인실리코로 예측 가능하지만, 실현된 글리코형은 클론, 배지, pH, 피드에 달려 있어 오직 하류에서만 측정 가능하다.
락트산 전환(Lactate shift) — 클론이 락트산을 생산하다가 소비하는 쪽으로 전환하는 날. 최종 성능을 강하게 예측하는 초기 대사 건강 신호.
안정성(유전적 / 역가)(Stability (genetic / titer)) — 클론이 여러 세대에 걸쳐 생산성과 품질을 유지하는지. 라벨이 관찰하는 데 몇 달이 걸리기에 초기에 예측하기 가장 어려운 CLD 속성.
콜드스타트(Cold start) — 당신이 가장 필요로 하는 라벨(여기서는 확인된 안정성)이 가장 느리게 쌓이는 소량-데이터 조건. 그래서 가장 어려운 하위 모델이 영원히 덜 먹은 상태.
특징 계약 / IRI-결합 특징(Feature contract / IRI-bound feature) — 모델 입력을 깨지기 쉬운 열 이름이 아니라 안정적인 온톨로지 IRI(고정된 단위와 의미를 가진 타입화된 속성에 대한 전역적으로 유일한 웹 이름)로 가져오는 것. 그래서 이름 변경이나 단위 변경이 조용히 잘못 예측하는 대신 시끄럽게 실패한다.
SHACL-검증된 훈련 데이터(SHACL-validated training data) — 출하 로트를 통과시키는 바로 그 닫힌-세계 형상 검사("필수 값이 누락되거나 중복되었는가?")를 클론의 특징 기록이 훈련에 들어가기 전에 그 위에 돌리는 것. 그래서 완전성과 범위 내임이 데이터의 표면에서 보장된다.
그룹 키로서의 derivedFrom(derivedFrom as grouping key) — 배치-단위-제외 교차 검증에서 "그룹"이 무엇인지를 정의하는 전이적 계보 관계(PROV-O / OBO 관계 온톨로지의 derives from에 정렬됨). 그래서 부모 풀을 공유하는 클론들이 훈련/검정 선을 가로질러 결코 나뉘지 않는다.

다음 이야기

클론이 선정되었습니다. WCB-CHO-001이 존재하고, 그와 함께 거동이 여전히 일부만 알려진 살아 있는 공장이 존재합니다. 다음 장 공정 개발: 베이지안 최적화가 요인 격자를 이긴다(Process Development: Bayesian Optimization Beats the Factorial Grid)는 그 클론을 설계 공간으로 데려가 다음 학습 질문을 묻습니다. 조율 가능한 매개변수가 많고 고작 수십 번의 실험 예산을 가진 공정이 주어졌을 때, 어떻게 역가와 품질을 최대화하는 조건을 찾는가 — 그리고 왜 지금까지 학습한 모든 것에서 다음 실험을 결정하는 베이지안 최적화가, 모두를 미리 결정하는 정적 요인 격자를 이기는가.

이 장에서 다루는 내용​

과제: 클론 선정은 회귀가 아니라 학습-순위화다​

특징: 값싼 초기 신호, 그리고 여기서도 무는 콜드스타트​

고함량 이미징과 클론성 문제​

제조성 지수: 많은 예측을 하나의 순위로 융합하기​

글리코실화: 클론과 공정이 공유하는 속성​

작동하는 순위화 모델: 다속성 학습이 역가만 보는 스크린을 이긴다​

하나의 클론-순위화 기록의 해부​

기록을 신뢰할 수 있게 만드는 것: 열 이름이 아니라 시맨틱 기반​

미해결 과제: 안정성 연구가 끝나기 전에 안정성 예측하기​

이 장이 모델 모음에 더하는 것​

왜 중요한가​

실제 현장에서는​

핵심 용어​

다음 이야기​