규제와 거버넌스: FDA, Annex 22, 그리고 모델 검증하기

📍 현재 위치: 7부 · 오늘날 산업의 ML/AI — 27장. 사례연구 장(case-studies chapter)이 누가 무엇을 배포했는가를 채점하여, 우상단 사분면 — 독립적으로 검증되고 상업적 GMP에서 — 이 비어 있음을 발견했고, Purolea 경고 서한이 경고 표지로 그 분야의 가장자리에 앉아 있었습니다. 이 장은 누가 그것을 배포했는가에서 무엇이 허용되며 어떻게 그것을 증명하는가로 방향을 돌립니다. 규칙들, 그것들을 담은 문서들, 그리고 한 모델을 의도된 용도에서 방어 가능하고, 검증되고, 감시되는 배포로 데려가는 실작업 생애주기.

이전 장들은 모델을 만든 뒤 증거가 얼마나 좋은지를 물었습니다. 이 장은 모든 실제 배포가 결국 마주하는 더 어려운 질문을 묻습니다. "모델이 작동하는가?"가 아니라 "당신이 그것을 사용하도록 허용되는가, 그리고 당신의 라인을 멈춰 세울 수 있는 규제 당국에게 그것이 주장하는 바를 한다는 것을 증명할 수 있는가?"입니다. 그것은 기계학습과는 다른 규율이며, 영리한 소프트 센서가 GMP(Good Manufacturing Practice — 신약 공장이 따라야 하는 법적 구속력을 가진 품질 규칙. "cGMP"는 그 규칙이 요구하는 현행 판입니다) 배치에 손이라도 댈 수 있을지를 결정하는 바로 그 규율입니다. 소프트 센서(soft sensor)란 측정하기 어려운 양을 측정하기 쉬운 신호로부터 추론하는 모델로 — 여기서는 스펙트럼에서 읽어 낸 농도 — 느린 실험실 분석을 대신합니다. 신약 제조에서 AI를 위한 규제 풍경은 2022년 거의 비어 있던 상태에서 2025–2026년 구체적인 것으로 바뀌었습니다. AI를 위해 특별히 쓰인 초안 EU 부속서, 그것을 위한 ISPE 검증 플레이북, FDA의 위험 기반 신뢰성 프레임워크, 그리고 — 추상이 실재가 된 순간 — AI를 인용한 최초의 경고 서한(warning letter, 심각한 위반을 FDA가 공식 문서로 적시하고 신속한 시정을 요구하며 무시 시 집행 가능성을 알리는 서한). 이 장은 그 모든 것의 지도이며, MLOps 장(MLOps chapter)이 끊어 두었던 실마리에서 끝납니다. 바로 그 지도 아래에서, 우리 실행 예제의 글루코스 소프트 센서(running example's glucose soft sensor)를 문서별로 구체적으로 검증하는 것입니다.

쉽게 말하면

새 다리를 떠올려 보세요. 누구든 그 위로 차를 몰기 전에, 한 엔지니어가 서류철(dossier) — 계산서, 자재 증명서, 하중 시험 — 을 만들어야 하고, 독립적인 당국이 그 다리가 명시된 목적에 적합함을 서명합니다. 다리가 나를 교통량이 빽빽할수록 당국이 요구하는 증거는 더 많아집니다. 신약 공장의 AI도 똑같이 작동합니다. 당신은 그 모델이 무엇을 위한 것인지를 정확히 선언하고(그 "의도된 용도"), 틀린 답이 얼마나 해를 끼칠지를 판단하며(그 "위험"), 그 위험에 비례하는 증거를 모아 그 목적에 그 모델이 신뢰할 만함을 보입니다. 그런 다음 모델을 잠가서(lock) 조용히 바뀌지 못하게 하고, 표류(drift)를 지켜보며, 오직 의도적으로, 서류와 함께만 그것을 바꿉니다. 2026년 규제 당국의 핵심 메시지는 짧습니다. 모델은 조언할 수 있으나, 핵심 결정에 영향을 줄수록 더 많이 증명해야 하고, 결정은 모델이 아니라 사람이 내리고 서명합니다. AI가 대신 서명하게 둔 회사가 최초의 경고 서한을 받았습니다.

이 장에서 다루는 내용

FDA의 2023년 논의 문서 Artificial Intelligence in Drug Manufacturing과 더 넓은 2025년 AI 신약개발 지침, 그리고 증거를 모델의 "사용 맥락(context of use)"에 맞춰 조절하는 7단계 위험 기반 신뢰성 프레임워크.
초안 EU GMP Annex 22 심층 분석: 잠긴(정적·결정론적) 모델 대 적응형 모델, 사전결정 변경관리계획(predetermined change control plan, PCCP), 그리고 생성형, 지속 학습형, 적응형 AI를 핵심 GMP 결정에서 배제하는 명시적 조항.
떠받치는 규제 틀: ICH와 PIC/S의 자세, ISPE GAMP AI 가이드, 컴퓨터 소프트웨어 보증(Computer Software Assurance, CSA), 그리고 ALCOA+ 데이터 무결성 — 모델-검증 파일이 실제로 딛고 서는 네 기둥.
실작업 검증 생애주기 — GMP 아래 ML 소프트 센서를 위한, 의도된 용도 → 위험 → 데이터와 신뢰성 증거 → 잠금 → 감시 → 변경 관리의 처음부터 끝까지.
Purolea cGMP 경고 서한(2026년 4월 2일), AI를 인용한 최초의 것으로, 위의 모든 추상을 구체적으로 만드는 집행 닻.

FDA: 논의 문서, 프레임워크, 그리고 위험 비례성

제조에서 AI에 대한 FDA의 자세는 규칙이 아니라 질문으로 시작합니다. 2023년 이 기관은 논의 문서(discussion paper) Artificial Intelligence in Drug Manufacturing — 정식으로는 도켓 FDA-2023-N-0487 아래 연방관보 고시이자 정보 요청(88 FR 12943, 2023년 3월 1일, 그해 9월 의견 수렴 기간 재개) — 을 발표했고, 이것은 그 이름 그대로입니다. 구속력 있는 요구사항이 아니라 구조화된 질문 모음입니다 [1]. 그것이 이 분야에서 가장 중요한 규제 문서인 것은 정확히 그것이 하지 않는 일 때문입니다 — 답을 규정하지 않고, 제조자가 두루 생각해 봐야 할 쟁점들을 떠올려 줍니다. 그 주제 가운데 셋이 이 장의 나머지 전체를 관통합니다. 첫째, GMP 틀은 AI를 염두에 두고 쓰이지 않았으므로, 그것을 적용하려면 해석이 필요합니다. ML 모델은 명백히 "장비"(21 CFR 211.63/211.68 — CFR은 미국 연방규정집으로 성문화된 규칙집이며, 이 조항들은 그 장비 설계·세척 절입니다)도, 명백히 "전산 시스템"(Annex 11과 Part 11, 전산 시스템과 그 전자 기록·전자서명에 대한 각각 EU와 미국의 규칙)도, 명백히 "분석법"도 아니지만, 그 셋의 성질을 모두 가지며, 문서는 각 ML 용도가 어느 우산 아래 떨어지는지를 묻습니다. 둘째, 모델을 훈련시키고 그것에 입력되는 데이터를 관리하는 것 자체가 GMP 관심사입니다 — 문서는 출처(provenance), 대표성, 훈련 집합이 미래 운영 조건을 조용히 담지 못할 위험, 그리고 데이터 라벨 자체의 무결성을 제기합니다. 셋째, 모델은 바뀌며, 기관은 제조자가 모델을 그 생애에 걸쳐 어떻게 검증하고 재검증할지, 그리고 지속적 개선을 미탐지 표류와 어떻게 구별할지를 직접 묻습니다. 이 문서는 규제 당국이 소리 내어 생각하는 것이며, 그것을 읽는 것이 FDA가 결국 무엇을 기대할지를 이해하는 단연 가장 좋은 방법입니다.

FDA 사고의 밑바탕에 깔린 구조적 발상은 위험 비례성(risk proportionality)이며, 그것은 계산 모델에 대한 기관의 더 넓은 작업에서 구체적 형태를 가집니다. FDA의 2025년 1월 초안 지침 Considerations for the Use of Artificial Intelligence To Support Regulatory Decision-Making for Drug and Biological Products(도켓 FDA-2024-D-4689)은 7단계 위험 기반 신뢰성-평가 프레임워크를 수립합니다 [2]. 각 단계를 짚어 볼 가치가 있는데, 이 장 후반의 실작업 생애주기가 이 프레임워크를 한 모델에 적용한 것이기 때문입니다:

관심 질문을 정의한다. 모델이 알려 주려는 구체적 결정이나 관심사를 진술합니다 — "바이오리액터에 ML을 쓴다"가 아니라 "오프라인 분석 사이의 공정 중 글루코스를 추정하여 공급 시점을 정한다." 흐릿한 관심 질문은 반증 불가능한 검증 파일의 근본 원인입니다.
사용 맥락(context of use, COU)을 정의한다. 모델의 출력이 정확히 어떻게 쓰일지, 그리고 무엇을 구동하고 구동하지 않을지를 명시합니다 — 출력이 입력되는 결정의 범위, 루프 안 사람의 역할, 그리고 그 바깥에서는 모델이 자격이 없는 경계 조건. COU는 파일에서 가장 중대한 단일 진술이며, 그 하류의 모든 것이 그것으로부터 크기가 정해집니다.
모델 위험을 평가한다. 모델 위험은 두 인자의 곱입니다. 모델 영향력(model influence)(결정이 다른 증거 대비 모델 출력에 얼마나 의존하는가)과 결정 결과(decision consequence)(모델이 틀렸을 때 제품 품질이나 환자 안전에 미치는 해의 심각도). 고결과 결정에 대한 고영향 입력은 고위험이고, 회복 가능한 결정에 대한 저영향 입력은 저위험입니다. 이 단계가 이후 모든 것의 다이얼을 맞춥니다.
신뢰성-평가 계획을 수립한다. 사전에 연구, 데이터, 그리고 — 결정적으로 — 3단계에서 판단한 위험에 그 엄정함이 맞춰진 사전 진술 합격 기준(pre-stated acceptance criteria)을 펼쳐 놓습니다. 고위험은 보류(held-out) 데이터, 민감도 분석, 불확실성 정량화, 독립 검토를 요구하고, 저위험은 기본 점검만으로 충분할 수 있습니다. 결과를 보기 전에 관문을 쓰는 것이 평가를 정직하게 유지하는 것입니다.
계획을 실행한다. 계획한 그대로 연구를 수행합니다. 이탈은 조용히 흡수하는 것이 아니라 문서화하고 정당화합니다 — 옮겨진 합격 관문은 어떤 심사자에게든 위험 신호입니다.
신뢰성-평가 결과를 문서화한다. 모델이 약한 곳, 그것이 자격검증된 운영 범위, 가장자리에서의 잔차 거동을 포함하여, 사전 진술 관문에 비추어 증거가 실제로 무엇을 보였는지 기록합니다. 음의 공간 — 모델이 신뢰할 수 없는 곳 — 도 기록의 일부입니다.
COU에 대한 모델 적정성을 판정한다. 증거가 그 특정 사용 맥락에 충분한지 판단합니다. 부족하면 프레임워크가 루프를 돕니다. COU를 좁히거나, 증거를 더 모으거나, 모델의 영향력을 줄여서(인간 관문을 더해서) 좁혀진 용도에 대해 적정성이 도달될 때까지.

프레임워크의 묘미는 같은 일곱 단계가 사소한 스프레드시트와 CQA(critical quality attribute, 핵심 품질 속성)를 정의하는 신경망을 모두 다스린다는 것입니다. 다른 것은 4단계가 요구하는 증거의 깊이이며, 그것은 3단계에서 판단한 위험으로 정해집니다. 로트(lot)(또는 배치)란 함께 만들어진 한 덩어리 분량의 제품이고, 로트를 출하(release)한다는 것은 그것이 규격을 충족하여 출고해도 된다는 품질 부서의 공식 결정입니다 — 그러므로 인간 검토용으로 배치를 단순히 표시할 뿐인 모델은 그 출력이 한 로트를 출하하는 모델보다 적은 증명을 필요로 합니다. 이것이 이 책 전체의 두-축 규율을 규제로 번역한 것입니다. 사용 맥락은 의도된-용도 범위이고, 모델 위험은 당신이 빚진 증거의 양에 대한 곱셈자입니다.

결정적으로, FDA 문서들은 지침이자 논의 문서입니다 — 권위 있고 공개되어 있으나, 명시적으로 규칙이 아닙니다. 그것들은 기관이 어떻게 생각할지를 말해 주는 것이지, 당신이 무엇을 해야 하는지가 아닙니다. 단단한 선을 긋는 구속력 있는 수단을 보려면, 대서양을 건너야 합니다.

초안 EU GMP Annex 22: 선이 그어지는 곳

EU가 규제에서 제조 특화 AI 선을 처음 그었습니다. 초안 EU GMP Annex 22, "Artificial Intelligence"는 EudraLex Volume 4의 일부로, 개정 Annex 11 및 Chapter 4와 나란히, PIC/S와 협력하여 개발되어, 2025년 7월 7일 공개 자문에 부쳐졌습니다(의견 수렴 기간 2025년 10월 7일까지) — 이로써 AI를 위해 특별히 쓰인 최초의 GMP 텍스트가 됩니다 [3]. FDA가 질문을 던지는 곳에서, Annex 22는 약속을 합니다 — 그리고 그것들은 규제된 공장에서 ML을 배포하는 모든 팀이 알아야 할 만큼 날카롭습니다.

이 부속서의 핵심 구별은 정적(잠긴) 모델(static (locked) models)과 동적(적응형) 모델(dynamic (adaptive) models) 사이입니다. 정적 모델은 동결되어 있습니다. 그 매개변수는 배포된 후 바뀌지 않으므로, 모델의 검증된 생애 전체에 걸쳐 같은 입력이 같은 출력을 냅니다. 그것은 또한 결정론적(deterministic)입니다 — 동일 입력이 매 실행마다 동일 출력을 내며, 추론 시 확률적 표집이 없습니다. 동적 모델은 상용 중에도 계속 학습하며, 새 데이터로 자신을 갱신합니다. Annex 22의 대표 규칙이 곧장 따라옵니다. 핵심 GMP 응용에 대해서는 정적·결정론적 모델만을 허용하며, 그 결정론을 제공할 수 없는 세 범주를 핵심 용도에서 배제합니다 — 동적 지속 학습형(온라인 학습) 모델, 출력이 실행마다 재현 불가능한 확률적 모델, 그리고 생성형 AI와 대규모 언어 모델 [3][4]. 그 논거는 MLOps 장(MLOps chapter)이 향해 쌓아 온 그것입니다. GMP 검증은 재현성에 기대고, 자신을 바꾸거나 두 실행에서 다르게 답하는 모델은 일회성 시험으로 검증될 수 없습니다. 그래서 부속서는 이 모델들을 금지하지 않습니다 — 그것들을 자격 있는 인간을 루프에 둔 비핵심 용도로 한정하고, 핵심 결정은 가만히 있는 모델에 유보합니다.

여기서 "핵심(Critical)"은 그 GMP 무게를 지닙니다. 응용은 그 출력이 제품 품질, 환자 안전, 또는 데이터 무결성에 영향을 줄 때 핵심입니다. 우리의 공급을 조언하는 글루코스 소프트 센서(glucose soft sensor advising a feed)는 그 선 가까이 앉아 있습니다. 스스로 한 로트를 출하하는 모델은 정통으로 그 너머에 있을 것입니다. 부속서는 정적-모델 요구사항을, 검증 목차처럼 읽히는 일련의 기대들과 짝짓는데, 주의 깊은 독자라면 각각을 자기 파일이 필요로 할 섹션 제목으로 다뤄야 합니다. 문서화된 의도된 목적(intended purpose), 위험 평가(risk assessment), 훈련 및 입력 데이터에 대한 데이터-거버넌스(data-governance) 통제(대표성, 출처, 무결성), 시험-데이터 독립성(test-data independence) — 모델을 시험하는 데 쓰인 데이터는 훈련에서 보이지 않고 진정으로 보류되어야 하며, 부속서는 겹치는 시험·훈련 데이터가 증거를 무효화한다고 명시합니다 — 시험 전에 고정된 성능 및 합격 기준, 응용이 정당화하는 곳에서는 기록된 특징 기여(feature attribution)와 신뢰 점수를 포함하는 설명가능성(explainability) 기대, 위험에 적절한 인간 감독(human oversight), 그리고 배포 후 지속 감시(continuous monitoring). 그리고 그것은 생애주기 메커니즘을 성문화합니다. 배포된 모델에 대한 어떤 변경이든 변경 관리(change control)를 거치며, 사전결정 변경관리계획(predetermined change control plan, PCCP)이 계획된 재훈련이 새로운 규제 협상 없이 진행되도록 하는 수단입니다.

PCCP는 검증-대-학습 간극을 가로지르는 다리이기에 정확히 진술할 가치가 있습니다. PCCP는 모델이 미래에 어떻게 바뀔 수 있는지에 대한 사전 승인된, 문서화된 명세입니다 — 어떤 데이터로 재훈련될지, 알고리즘의 어느 부분이 고정된 채 남을지, 새 버전이 충족해야 할 합격 기준이 무엇인지, 롤백 계획이 무엇인지. 그 개념은 FDA/CDRH 의료기기 세계에서 빌려 온 것으로, 거기서는 확정된 PCCP 틀이 제조자에게 정의된 미래 변경의 봉투(envelope)를 사전 인가하게 해 줍니다. Annex 22는 같은 논리를 GMP 제조로 들여옵니다. 승인된 PCCP가 있으면, 계획이 기술하는 봉투 안에 머무는 재훈련은 새로운 제출을 요하는 예기치 못한 변경이 아니라 문서화된, 계획된 사건입니다. 모델은 여전히 그 자리에서(in place) 학습할 수 없습니다. 학습은 잠긴 버전들 사이에서 일어나며, 각각이 개별 검증된 객체이고, PCCP는 그들 사이 경로의 모양을 사전 승인합니다. 이것이 잠금-그다음-재학습(locked-then-relearn) 패턴의 규제 형태입니다. 모델을 잠그고, 바뀜 없이 돌리고, 표류를 탐지하고, 오프라인으로 새 후보로 재훈련하고, PCCP의 기준에 비추어 그것을 검증하고, 변경 관리를 거쳐 승격합니다 — 결코 그 자리의 조용한 편집은 아닙니다.

이 책이 계속하는 정직성 주석 하나: Annex 22는 초안입니다. 자문은 2025년 내내 진행되었고, 확정은 2026년 중반 무렵으로 예상되며, 특정 배제 항목들은 잠정적입니다 — 초안을 해석하는 동시대 문헌에서도 짚는 점입니다. 그것을 초안으로 인용하고, 최종 텍스트를 주시하세요 — 그러나 그 방향은 분명하며, 이미 신중한 회사들이 오늘날 AI를 설계하는 방식을 다스리고 있습니다.

떠받치는 틀: ICH, PIC/S, GAMP, CSA, 그리고 ALCOA+

Annex 22와 FDA 프레임워크는 홀로 서지 않습니다. 그것들은 AI 배포가 통째로 물려받는 확립된 품질 규제의 더미 위에 앉아 있습니다. 그 더미의 네 조각이 모델-검증 파일에서 실제 일을 합니다.

ICH와 PIC/S가 국제적 배경을 놓습니다. 제품-품질 생애주기는 이미 ICH(International Council for Harmonisation, 전 세계 의약품 규제 당국이 그 지침을 채택하는 기구) 품질 지침들이 다스립니다 — Q8(R2) 의약품 개발과 설계 공간(design space)(품질이 보장되는, 입력과 공정 설정의 입증된 다차원 범위), Q9(R1) 품질 위험 관리, Q10 의약품 품질 시스템, Q11 원료의약품 개발, Q12 생애주기 관리 — 그리고 핵심 공정 매개변수(critical process parameter)(제품 품질을 목표에 맞게 유지하려면 통제해야 하는 설정)나 CQA(critical quality attribute — 제품이 충족해야 하는 측정 가능한 핵심 품질 속성)에 손대는 ML 모델은 그 설계 공간 바깥이 아니라 안에서 작동합니다 [5]. 사실 Q9의 위험 사고는 FDA 신뢰성 프레임워크의 위험 다이얼의 부모이고, Q12의 생애주기-관리 도구는 PCCP가 꽂혀 들어가는 곳입니다. 감독기관 협력 체계인 PIC/S는 EU와 함께 Annex 22를 공동 개발했으며, 이는 부속서가 긋는 선이 EU만이 아니라 수십 개 관할권의 조사관들에 의해 적용되리라는 뜻입니다 — 유난히 멀리 닿는 초안입니다.

ISPE GAMP AI 가이드는 실무자의 번역 계층입니다. 2025년 7월, 확립된 GAMP 5(2판, 2022) 전산-시스템-검증 틀과 그 AI/ML에 관한 Appendix D11과 나란히 출판되어, GAMP의 위험 기반, 생애주기, V-모델 사고를 AI/ML로 확장하며, GMP 의사결정에서 LLM 기반 및 AI 시스템을 위한 일곱 통제 계층(seven control layers)으로 흔히 요약되는 구조를 도입합니다 — 데이터, 모델, 배포, 감시, 인간 감독에 걸쳐 [6]. Annex 22가 무엇이 유지되어야 하는지 말하는 곳에서, GAMP는 어떻게 그것을 보일지 말합니다. 의도된-용도 명세를 어떻게 쓸지, 시험을 위험에 어떻게 맞출지, 모델이나 그 틀이 벤더에게서 올 때(GAMP 범주 질문) 공급자의 기여를 어떻게 문서화할지, 그리고 구성상 결정론적이 아니라 통계적인 것에 대해 V-모델의 왼쪽 다리 명세를 오른쪽 다리 시험에 추적 가능하게 어떻게 유지할지.

컴퓨터 소프트웨어 보증(Computer Software Assurance, CSA)은 이 모든 것을 감당 가능하게 만드는 방법론적 전환입니다. FDA는 2025년 9월 24일 CSA 지침 Computer Software Assurance for Production and Quality System Software(도켓 FDA-2022-D-0795)를 확정하여, 2002년 소프트웨어-검증 지침의 검증 절을 대체했으며, 그 메시지는 문서를-위한-문서에서 비판적 사고와 위험 기반 시험(critical thinking and risk-based testing)으로의 의도된 경로 수정입니다. 실패가 실제로 제품이나 환자에 해를 끼칠 곳에 보증 노력을 쏟고, 위험에 충분한 가장 덜 부담스러운 증거를 쓰라는 것입니다 [7]. ML에는 이것이 해방적입니다 — scikit-learn의 모든 코드 경로나 PyTorch의 모든 계층을 시험하지 않는다는 뜻입니다. 당신은 당신의 모델이, 당신의 데이터에서, 그 의도된 용도에 대한 진술된 합격 기준을 충족한다는 것을 시험하고, 나머지는 위험에 맞춥니다. CSA는 모델-검증 파일이 증거가 풍부하면서 동시에 서류가 가벼울 수 있는 이유입니다.

ALCOA+는 증거 아래의 데이터-무결성 척추입니다. MHRA, PIC/S(PI 041), WHO가 성문화한 이 원칙은, 모델을 훈련, 시험, 또는 그것에 입력하는 모든 데이터가 귀속 가능(Attributable), 판독 가능(Legible), 동시 기록(Contemporaneous), 원본(Original), 정확(Accurate) — 더하기 네 개의 "+" 속성인 완전(Complete), 일관(Consistent), 영속(Enduring), 가용(Available) — 해야 한다고 봅니다 [8]. ML에 이것은 곁가지 관심사가 아닙니다. 모델은 그 뒤의 데이터만큼만 신뢰할 만하기에, 그것은 토대입니다. 출처를 귀속할 수 없거나 값이 조용히 편집된 훈련 집합은 모든 하류 신뢰성 주장을 오염시킵니다 — 그리고 원본과 동시 기록은 정확히 데이터셋 내용-해시(content-hash)가 방어하는 것인데, 해시가 검증 시점에 포착된 변경 없는 바이트에 증거를 묶기 때문입니다. 오픈소스 책의 ALCOA+ 장(open-source book's ALCOA+ chapter)은 이 속성들을 구성에 의해 데이터 파이프라인에 짓는 법을 보여 주고, 여기서 그것들은 신뢰성 증거가 무엇이든 의미하게 만드는 전제 조건이 됩니다.

실작업 검증 생애주기: GMP 아래 글루코스 소프트 센서

추상은 적용될 때만 제값을 합니다. 실행 예제의 라만 소프트 센서(Raman soft sensor) — soft_sensor_pls.py, 라만 스펙트럼에서 농도를 읽어 내어 느린 벤치 분석을 기다리지 않고 배양물을 조종할 수 있게 하는 PLS(Partial Least Squares, 부분 최소제곱) 모델 — 수백 개의 상관된 라만(배양물에 녹아 있는 것을 지문처럼 식별하는 레이저-광 산란 측정) 파장을 몇 개의 잠재 성분으로 압축하는 고전적 화학계량 회귀 — 를 가져다가, 위의 문서들이 요구하는 온전한 생애주기를 거쳐 걸어 봅시다. 실작업 대상에 관한 주석 하나: 커밋된 soft_sensor_pls.py는 동일한 파이프라인을 역가(titer) 위에서 시연하며(역가는 배양물 속 산물 항체의 농도로, 참조 분석이 가장 깨끗한 라벨이라 독자가 보는 하니스 관문이 Raman->titer R2 > 0.85로 읽힙니다), 글루코스(glucose)(세포가 먹는 당)는 같은 라만 스캔에서 같은 보정으로 읽히는 같은-스펙트럼 공동 대상 — 아래의 의도된-용도 진술을 틀 짓는 하류 제어 응용 — 입니다. 그래서 출력된 관문은 역가를 말하고 의도된-용도 서사는 글루코스를 명명합니다. 같은 모델, 같은 스펙트럼, 앞에 놓인 공정-중 제어 용도. 이것이 이 장의 척추입니다. FDA 프레임워크가 명명한 같은 일곱 단계가, 제조자가 실제로 실행하는 여섯 개의 운영 정거장으로 접혀 들어가, 한 모델 위에서 구체화됩니다. 모델은 황금 배치 BATCH-2026-001에 적합됩니다.

1. 의도된 용도(사용 맥락). 모델이 무엇을 위한 것인지, 그리고 — 똑같이 중요하게 — 무엇을 위한 것이 아닌지를 정확히 진술합니다. 모델은 라만 스펙트럼에서 공정 중 글루코스 농도를 예측하여, 생산 바이오리액터(production bioreactor) 단계 동안 일시 공급(bolus feed)의 시점과 크기를 조언한다. 그 출력은 조언용(advisory)이다. 인간 운전자가 제어 전략에 비추어 그것을 검토하고 공급을 결정한다. 그것은 자재를 출하하지 않고, CQA를 정의하지 않으며, 검증된 글루코스 범위 바깥이나 mAb-A 외의 어떤 제품에도 쓰이지 않는다. 그 한 문단이 FDA 프레임워크의 1단계와 2단계 — 관심 질문과 사용 맥락 — 를 한 호흡에 담은 것이며, 파일에서 가장 중대한 텍스트입니다. 다른 모든 것이 그것으로부터 크기가 정해지기 때문입니다. 그 마지막 절의 검증된 글루코스 범위는 구호가 아닙니다. 그것은 보정 배치가 실제로 걸친 글루코스 창(그리고 유가식 배양의 경우, 컨트롤러의 목표 대역 — 예시적으로 CHO 배양에서 몇 g/L 글루코스)이고, 그 바깥의 예측은 외삽(extrapolation)이며, soft_sensor_pls.py가 이미 계산하는 적용가능성-영역(applicability-domain) 관문(Hotelling T² 더하기 스펙트럼 잔차 SPE/Q)이 실행 시 그것을 표시합니다. 그 경계를 강제하는 관문이 코드 안에 있기에 경계는 반증 가능합니다.

2. 위험 평가. 모델 위험을 영향력 × 결과로 판단합니다(FDA 3단계). 소프트 센서는 공급 결정에 영향을 주지만 인간이 그것을 관문에 둡니다(중간 영향력), 그리고 틀린 글루코스 판독은 최악의 경우 공급 시점을 어긋나게 할 뿐입니다 — 회복 가능하고, 감시되며, 직접 출하를 정의하지 않습니다(중간 결과). 그래서 이것은 중위험, 조언용(medium-risk, advisory) 응용입니다. 대시보드보다는 더 면밀하고, 자율 컨트롤러보다는 훨씬 덜합니다. Annex 22 아래에서 그것은 잠겨 있고, 결정론적이며, 인간이 관문에 두기에 허용된 선 안쪽에 머뭅니다. 그것이 CQA에 대해 루프를 닫는다면, 부속서가 가장 무거운 증거 아래 정적 모델에 유보하는 영역으로 — 또는 상용 중에 학습한다면 아예 배제되는 곳으로 — 넘어갈 것입니다. 캠페인 자신의 실패로 위험을 구체화합시다. 그 자매 실행 BATCH-2026-004는 숙주세포 단백질(HCP)에서 규격 이탈(out-of-specification)이고, 모음의 MSPC 모니터(mspc.py)가 정확히 그 배치를 표시하며 그 SPE 기여를 HCP 신호로 가리킵니다. 그런 배치를 인간에게 표시할 뿐인 모델은 Annex 22 선의 조언 쪽이고, 그것을 자율적으로 출하하는 모델은 그 너머일 것입니다.

3. 데이터와 신뢰성 증거. 위험에 비례하는 증명을 모읍니다(FDA 4–6단계). 모델은 고정된, ALCOA+ 데이터셋 — 라만 스펙트럼(raman_spectra.parquet)과 짝지어진 오프라인 분석 — 으로 훈련되며, 데이터셋의 sha256이 기록되어 "어떤 데이터가 이것을 훈련했는가?"가 영원히 답해질 수 있습니다. 합격 기준은 시험 전에 고정됩니다. 라만→역가 R²가 0.85를 넘을 것. R²(결정계수)는 모델이 설명하는 농도 변동의 비율로, 1.0이면 완벽한 적합이고 0이면 평균을 찍는 것과 다를 바 없으므로 — 0.85는 조언용 센서에도 의도적으로 까다로운 기준입니다. 신뢰성 증거는 그 사전 진술 관문에 비추어 측정된 보류 지표, 모델이 자격검증된 운영 범위, 그리고 가장자리에서의 잔차 거동입니다. 그 보류 지표가 무엇을 입증하고 무엇을 입증하지 않는지에 정확합시다. soft_sensor_pls.py는 단일 황금 배치에서 시간별 스펙트럼의 무작위 보류(random hold-out) 위에서 평가하므로, 그 R²는 미래 배치로의 전방 외삽이 아니라 배치 내 보간(within-batch interpolation) — 한 실행 안에서 농도를 추적하는 것 — 을 측정합니다. 그것은 조언용 실행-중 용도에 대한 정직한 증거이지만, Annex 22가 궁극적으로 원하는 배치 간(cross-batch) 독립성은 모음의 다른 곳(보정-전이 및 표류 모듈)에서 시연되며, 상용 보정은 그 파일이 일반화를 주장하기 전에 여러 배치를 걸칠 것입니다. 다섯 성분이 내부-CV 1-표준오차 규칙으로 선택되는 PLS는 그 관문을 여유 있게 통과하고(R² 0.99 초과), 심층 1D-CNN은 대략 여덟 배의 매개변수 수(PLS 계수 702개에 대해 5,713개 매개변수)로 그것에 필적했으나 이기지 못했습니다 — 더 단순하고 더 설명 가능한 모델을 고른 것을 정당화하기에 파일에 들어갈 자격이 있는 종류의 음의 결과입니다. 같은 모듈은 Annex 22가 요구하는 특징 기여도 기록합니다 — 모델이 기대는 라만 띠를 명명하는 VIP 점수(1270 cm⁻¹ 근처 C–H/아마이드 영역에서 VIP 1 초과) — 그리고 추정치가 신뢰되기 전에 영역-밖 스펙트럼을 표시하는 예측별 적용가능성-영역 관문(Hotelling T² 더하기 스펙트럼 잔차 SPE)도. 핵심-인접 용도에 부속서가 원하는 기록된 신뢰 점수입니다. 이것이 아래에서 모음의 하니스(harness)가 소프트웨어-보증 유사물로서 실제 일을 하는 곳입니다.

4. 잠금. 검증된 객체를 동결합니다. 가중치, 전처리, 적합된 스케일러, 특징 계약(701-파수 입력 벡터), 그리고 운영 범위가 모두 버전 고정되고 그 자리에서 바뀔 수 없습니다. 모델은 즉석에서 학습하지 않고 추론 시 결정론적이어서, Annex 22의 두 요구사항을 한 번에 충족합니다. "잠김"은 글자 그대로 만들어집니다. 모델-버전 기록이 산출물을 그 데이터셋 해시, 그 분할과 시드, 그 동결된 초매개변수에 묶어, 배포된 모델이 자격검증된 바로 그 모델임이 증명 가능합니다.

5. 감시. MLOps 장의 두 탐지기(two detectors from the MLOps chapter)를 써서 잠긴 모델의 표류를 지켜봅니다. 입력 분포 위의 라벨 없는 PSI(새 로트나 오염된 프로브가 스펙트럼을 움직일 때 발화하는 선행 지표)와 성긴 오프라인 분석에 대한 I-MR 잔차 관리도(답이 틀려졌음을 증명하는 후행, 지상-진실 지표). 모음은 정확히 이것을 drift.py에서 실현하며, 그 잔차 관리도가 황금 배치에 주입된 프로브-오염 표류를 잡아냅니다. 감시는 선택적 윤내기가 아닙니다. 그것은 Annex 22의 지속-감시 기대이자 "영원히 검증된"의 운영 절반입니다.

6. 변경 관리. 모든 변경을 PCCP를 통해 다스립니다. 재훈련 트리거 — 지속된 PSI 위반 그리고 잔차 관리 이탈 신호, 더하기 달력 배수(backstop), 더하기 어떤 하드웨어 변경(프로브 교체, 수지-로트 변경, 규모 이동)에 대한 자동 재자격검증 — 이 변경-관리 경로를 엽니다. 재훈련은 PCCP의 사전 진술 합격 기준에 비추어 검증된 새 버전을 만들고, 오직 네-눈 관문(four-eyes gate)(두 번째 자격 있는 사람이 서명)을 통해서만 승격되며, 옛 버전이 결코 삭제되지 않기에 마지막 양호 버전으로의 롤백(rollback)이 항상 승격 한 번 거리에 있습니다. 모음의 lifecycle_retrain.py가 이 정거장을 코드로 구현한 것입니다. drift.py가 발화한 뒤, 도전자(challenger) 버전이 오프라인으로 재훈련되어, 보류된 재검증 창에서 챔피언을 이기고, 그 자리의 조용한 편집이 아니라 변경 관리 아래 다스려진 PROMOTE로 기록됩니다.

서류철의 데이터 주장이 기계 점검 가능해지는 곳: 그 밑의 온톨로지

위 정거장 중 셋은 명시할 가치가 있는 조용한 가정에 기댑니다. 그것이 서류철의 데이터-거버넌스 증명을 서명된 약속 이상으로 만드는 것이기 때문입니다. 3단계의 "고정된 ALCOA+ 데이터셋", 4단계에서 동결된 "특징 계약", 그리고 서류철의 데이터-거버넌스 증명은 모두 같은 훈련 데이터를 기술하며 — 그것을 기술하는 가장 방어 가능한 방법은 parquet 파일 안의 열 이름이 아니라 온톨로지(각 사물이 무엇인지 그리고 그것이 어떻게 관계되는지에 대한 공유된 기계 판독 가능 어휘)와 그 위에 지어진 지식 그래프(knowledge graph)입니다. 동반 온톨로지 책(Ontology book)은 이 장이 검증하는 바로 그 캠페인을 모델링하며, 그 구성 중 셋이 여기서 실제 규제 일을 합니다.

첫째, 훈련 라벨은 깨지기 쉬운 문자열이 아니라 의미론적으로 접지됩니다. soft_sensor_pls.py가 라만 스펙트럼을 오프라인 분석과 짝지을 때, 그것이 학습하는 대상은 타입이 매겨진, 단위를 지닌 값입니다 — 두 LIMS 내보내기가 다르게 철자할 수 있는 열 머리글이 아니라 안정적 IRI(모든 시스템에게 같은 것을 뜻하는 전역 식별자)로 끌어당겨져, 단위가 붙은 타입 양으로 나르는 monomerPct나 titer 판독. 그 온톨로지 IRI로 끌어당겨진 특징은 원본 시스템이 재매핑될 때 조용히 다른 측정이 될 수 없습니다 — ALCOA+가 모델에 입력되는 모든 데이터에 요구하는 정확한 출처와 원본/정확 보장을, 주장이 아니라 구조로 만든 것입니다.

둘째, 한 로트를 처분하는 그 같은 SHACL 출하-게이트 형상이 훈련 행도 받아들입니다. 출하 게이트와 SHACL 장(release gate and SHACL chapter)은 로트가 출고해도 되는지를 결정하기 위해 폐쇄세계 bp:ReleaseShape — 모든 필수 CQA가 존재하고, 단일하며, 타입이 매겨지고, 범위 안에 있음 — 을 짓습니다. 로트가 아니라 후보 훈련 부분그래프에 그것을 겨누면, 그 같은 형상이 HMW 결과가 조용히 적재되지 않은 행을, 그것이 학습기에 닿기 전에 거부합니다. 이것이 중요한 이유는 모델에 "완전함"의 토착 개념이 없기 때문입니다. 라벨이 빠진 로트를 건네받으면 그것은 대치하거나, 평균 내거나, 구멍 주변을 예측하고 확신에 찬 숫자를 보고합니다 — 정확히 SHACL이 금하려 존재하는 실패입니다. 출하-게이트 형상은 출하 예측기를 위한 라벨링 계약(labeling contract)이 됩니다. 유효한 PASS/OOS 라벨이 무엇인지조차 정의하는 폐쇄세계 규칙으로, 배포 후 발견되는 것이 아니라 심사자 앞에서 점검됩니다.

셋째 — 그리고 정직한 평가에 가장 중대하게 — derivedFrom 계보가 배치 간 주장이 필요로 하는 그룹화 키입니다. 3단계는 소프트 센서의 R²가 배치 간 일반화가 아니라 배치 내 보간임에 주의하고, Annex 22는 궁극적으로 더 어려운 증거를 원합니다. 순진한 무작위 분할이 그것을 공급할 수 없는 이유는 구조적입니다. 계보 척추(genealogy spine)는 DP-001, DP-002, DP-004가 모두 한 워킹 셀 뱅크를 거쳐 추적됨을 기록하므로, 그것들은 독립적인 행이 아닙니다 — 무작위 폴드는 자매 정보를 분할에 걸쳐 누출시켜 점수를 부풀립니다. 리콜의 범위를 정하는 전이적 bp:derivedFrom 엣지가 정확히 정직한 그룹화된, 단일-배치-제외 교차검증(grouped, leave-one-batch-out cross-validation)이 분할하는 키입니다 — 한 번에 계보 하나를 통째로 보류 — 그래서 리콜을 질의로 만드는 그 같은 엣지가 일반화 주장을 방어 가능하게 만듭니다. 그리고 그래프가 딛고 선 상위-온톨로지 분할 — BFO 지속자(continuant) 대 발생자(occurrent) — 는 측정(배치가 지니는 값)을 그것을 산출한 실행과 구별되게 유지하므로, 특징 행이 결코 용기를 제품인 양 실수로 부호화할 수 없습니다.

다음 장이 살피는 생성형 코파일럿(generative copilot)에 닿는 네 번째 끈이 있습니다. "DP-004는 출하되었는가?"를 받은 GraphRAG 어시스턴트(훈련 기억이 아니라 그래프에서 끌어낸 사실로만 답하는 언어 모델)는 진실되게 답합니다 — 아니요, 그것은 bp:hmwPct를 2.41 %에서 건드렸습니다 — 오직 모델의 유창함이 아니라 검증된 그래프가 그것이 접지되는 지상-진실이기 때문입니다. 훈련 행을 받아들이는 그 같은 온톨로지가 유창한 코파일럿이 출하 상태를 지어내지 못하게 막는 것입니다. 이 중 어느 것도 새 모델이 아닙니다. 그것은 서류철의 데이터-거버넌스 필드가 단지 신뢰되는 것이 아니라 감사되도록 하는 규율입니다.

다스려지는 루프로서의 모델-검증 생애주기: 의도된 용도가 그것의 범위를 정하고, 위험이 그것이 빚진 증거의 양을 정하며, 신뢰성 증거가 고정된 ALCOA+ 데이터셋 위 사전 진술 관문에 비추어 측정되고, 검증된 모델이 잠기고, 두 표류 탐지기가 그것을 지켜보며, 모든 변경이 PCCP와 롤백이 항상 가능한 네-눈 관문을 거친다 — 그것을 다스리는 문서들 안에 앉은 온 루프와, Annex 22 선 너머의 핵심-결정 구역은 의도적으로 비어 있다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

그 생애주기는 슬라이드가 아닙니다. 그것은 당신이 돌릴 수 있는 파일입니다. 모음의 run_all.py 하니스가 이 장의 기여이며, 그것은 의도적으로 또 하나의 모델이 아닙니다. 그것은 FDA 신뢰성 프레임워크와 CSA식 보증 점검의, 코드 안 유사물입니다. 모델은 그것이 돌았기에 신뢰할 만한 것이 아니라, 증거가 만들어지고, 고정된 데이터셋 위에서, 재현 가능한 절차로, 사전 진술 합격 기준에 비추어 점검되었기에 신뢰할 만한 것입니다. 모음의 대부분 모듈은 보류 지표에 대한 assert로 끝납니다 — 검증 프로토콜의 합격 기준에 해당하는 스크립트 수준의 등가물입니다 — 그리고 하니스는 각 모듈의 종료 코드를 평결로 다룹니다. 깨끗한 종료는 관문이 유지되었다는 증거이고, AssertionError는 모델이 자기 기준에 실패했고 PCCP 아래 조용히 무시되는 대신 배포를 막는다는 문서화된 증거입니다. 보류 지표가 적용되지 않는 곳에서는 관문이 대신 구조적 보장입니다 — AVI 형상 계약, 큐레이션된 최전선 스코어카드 — 그러나 원리는 동일합니다. 사전 진술 기준, 점검됨, 평결이 기록되고, 적합된 데이터셋의 sha256이 고정됨. python run_all.py를 돌리면 벤치마크가 아니라 검증 요약을 출력합니다:

model-credibility evidence harness — Book 5 suite
  dataset root: examples/datasets
  acceptance gate per model is the module's own assert

  PASS  soft_sensor_split_demo.py ch01  [raman_spectra.parquet:4d7f12c463eb]
        gate: random split inflates R2; the honest temporal split exposes the collapse
  PASS  developability.py        ch05  [(synthetic):(synthetic)]
        gate: germlining the N-G deamidation site lowers the liability score (3.0 -> 1.0)
  PASS  clone_rank.py            ch06  [(synthetic):(synthetic)]
        gate: manufacturability ranker AUROC > 0.70, beats titer-only
  PASS  bayesopt_doe.py          ch07  [(simulator):(simulator)]
        gate: BO reaches the grid optimum in fewer runs
  PASS  seed_ready.py            ch10  [(synthetic):(synthetic)]
        gate: inoculation-readiness AUROC > 0.70
  PASS  soft_sensor_pls.py       ch11  [raman_spectra.parquet:4d7f12c463eb]
        gate: Raman->titer R2 > 0.85 (within-batch interpolation)
  PASS  soft_sensor_deep.py      ch11  [raman_spectra.parquet:4d7f12c463eb]
        gate: deep soft sensor R2 > 0.85
  PASS  hybrid_model.py          ch11  [fedbatch_state.parquet:aba381af160e]
        gate: hybrid beats pure-ML extrapolation
  PASS  mpc_loop.py              ch11  [(simulator):(simulator)]
        gate: advisory MPC tracks glucose better than open-loop
  PASS  harvest_endpoint.py      ch12  [(simulated cohort):(simulated cohort)]
        gate: harvest-load model R2 > 0.70
  PASS  mspc.py                  ch18  [hplc_results.csv:e3d529ac583b, batches.csv:e3a78c7291c8]
        gate: MSPC flags ONLY the OOS batch; SPE points at HCP
  PASS  batch_mvda.py            ch18  [(simulator):(simulator)]
        gate: DTW+unfold+MPCA flags the stressed batches as trajectory outliers
  PASS  release_predict.py       ch18  [(simulated cohort):(simulated cohort)]
        gate: in-process features give AUROC > 0.70
  PASS  viral_lrv.py             ch14  [(synthetic):(synthetic)]
        gate: LRV recovers the spiking trend; 90% prediction interval covers ~90%
  PASS  vision_avi.py            ch17  [(synthetic):(synthetic)]
        gate: locked AVI head emits the per-vial 6-class shape contract
  PASS  drift.py                 ch22  [fedbatch_state.parquet:aba381af160e, offline_assays.csv:d5cae737bcad]
        gate: residual chart catches injected probe-fouling drift
  PASS  lifecycle_retrain.py     ch22  [fedbatch_state.parquet:aba381af160e, offline_assays.csv:d5cae737bcad]
        gate: challenger beats champion, back in control -> governed PROMOTE
  PASS  batch_outcome.py         ch23  [(synthetic):(synthetic)]
        gate: batch-failure AUROC > 0.80 and isotonic recalibration improves Brier
  PASS  integration_opcua.py     ch23  [(in-memory contract):(in-memory contract)]
        gate: non-GOOD writes raise MES exceptions; AD->UNCERTAIN, fault->BAD
  PASS  frontier_scorecard.py    ch28  [(curated):(curated)]
        gate: no 2024-2026 frontier capability clears all three gates for critical GMP (0/4)

credibility summary: 21/21 models cleared their acceptance gate on the pinned datasets
  every executed model produced evidence that cleared its stated gate.
  NOTE: passing the gate is necessary, not sufficient — GMP credibility
  also needs intended-use scope, change control, and human oversight.

저 마지막 NOTE를 조사관이 읽듯 읽으세요. 하니스는 증거가 존재하고 관문이 고정된 데이터 위에서 통과되었음을 증명합니다 — 생애주기 3단계(FDA 4–6단계)의 필요하고 기계 점검 가능한 핵심입니다. 그러나 그것은 코드가 공급할 수 없는 것을 명명하며 끝납니다. 의도된-용도 범위, 변경 관리, 인간 감독. 그것들은 스크립트가 아니라 검증된 시스템과 절차의 속성입니다 — 정확히 CSA와 Annex 22가 긋는 선이고, 합격하는 시험 모음이 검증 파일의 끝이 아니라 시작인 정확한 이유입니다.

모델-검증 서류철의 해부 (그 PCCP와 함께)

이 장의 거버넌스 단위는 예측이 아니라 서류철(dossier)입니다 — 함께 취하면 한 모델을 GMP 아래 배포 가능하게 만드는 문서 집합. 이 시리즈의 모든 산출물처럼, 그 가치는 가중치 곁에 따라가는 것 안에 있습니다. 품질 심사자나 조사관이 하듯 하나를 섹션별로 해부해 봅시다.

완전히 풀어낸 모델-검증 서류철 하나: 모든 것의 경계를 정하는 의도된-용도 범위, 증거 깊이를 정하는 위험 점수, 고정된 ALCOA+ 데이터셋 위 시험 전에 동결된 관문에 비추어 측정된 신뢰성 증거, 데이터-거버넌스와 잠긴-모델 통제, 모델이 어떻게 바뀔 수 있는지를 사전 승인하는 중첩 PCCP, 그리고 GxP-통제된 승인 서명과 재검증 날짜 — 모델 파일과 배포 가능한 검증된 객체의 차이. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

서류철을 위에서 아래로 읽으면 이 장이 필드로 펼쳐집니다. 헤더는 모델 버전 신원(glucose_softsensor v4)과 상태 — 조언 용도 승인됨 — 를 나르므로, 심사자가 한눈에 무엇이 묶여 있고 어떤 권한을 지니는지 압니다. 범위 필드는 의도된-용도 진술 — 사용 맥락 — 이며 가장 많은 일을 하는데, 다른 모든 필드의 깊이가 그것으로 정해지기 때문입니다. 조사관은 이것을 먼저 읽고 이후의 모든 주장을 그 경계에 비추어 시험합니다. 위험 필드는 모델 위험을 영향력 × 결과로 기록하고 그것을 파일이 나를 증거에 매핑합니다. 이것을 틀리면 대시보드를 과도하게 문서화하거나 컨트롤러를 과소 증명하게 됩니다. 신뢰성-증거 필드는 핵심이며, 모두 존재해야 할 네 개의 하위 항목을 가집니다. sha256으로 고정된 훈련 데이터셋, 보류 분할과 그 범위를 정직하게 명명한 것(여기서는 배치 내 보간에 모델을 자격검증하는 시간별 스펙트럼의 무작위 보류 — Annex 22가 궁극적으로 원하는 배치 간 독립성은 보정-전이 및 표류 증거가 나릅니다), 시험 전에 동결된 합격 관문(R² 0.85 초과), 그리고 그것에 비추어 측정된 결과 — 정장을 입은 run_all.py 증거로, 각 항목이 시험-전-동결로 도장 찍혀 어떤 관문도 사후에 옮겨지지 않았습니다. 통제 필드는 세 개의 증명을 담습니다. ALCOA+ 데이터-거버넌스 증명, 잠긴-모델 증명(가중치, 스케일러, 특징 계약, 범위), 그리고 출력을 누가 검토하고 결정하는지 명명하는 인간-감독 기술. PCCP는 정확히 그것이 문서의 가장 영리한 부분이기에 중첩 하위 카드입니다. 그 네 항목은 허용-변경 봉투(어떤 데이터와 어떤 고정된 알고리즘), 규칙으로 표현된 쓰인 재훈련 트리거, 새-버전 합격 기준, 그리고 롤백 계획이며, 모두 사전 승인으로 표시되어 모델이 사전에 안전이 증명된 경로를 따라 진화할 수 있습니다. 그리고 거버넌스 필드는 타임스탬프와 함께 네-눈 승인 서명, 변경-이력 로그, 그리고 다음 재검증 날짜를 나릅니다 — 모두 Part 11과 Annex 11 아래 전자서명으로 GxP-통제됨(GxP는 GMP를 포함한 우수 품질 규범 체제들을 아우르는 상위 용어), 전체를 감사 가능하게 만들고 인간 책임을 분명하게 만드는 핵심입니다. 모델 파일은 가중치를 가지고, 서류철은 이 모든 필드를 가지며, 그것이 오직 서류철만이 의약품에 관한 결정을 내릴 수 있는 이유입니다.

미해결 과제: 학습하는 모델을 "검증 안에" 유지하기

문서들이 다스리되 해소하지는 못하는 모순에 정직합시다. GMP 검증은 시스템이 해야 할 일을 한다는 것을 증명하고, 그것을 잠그고, 어떤 변경 전에도 다시 증명하라는 뜻입니다. 기계학습은 새 데이터에 응답하여 바뀜으로써 개선하라는 뜻입니다. 계속 학습하는 모델은 정의상 계속 바뀌는 시스템 — 재자격검증 없이 검증이 금하는 바로 그 하나 — 입니다. PCCP는 이 분야가 가진 최선의 수단이며, 진정으로 영리합니다. 그것은 허용된 변경의 모양을 사전 승인하여 재훈련이 새 협상이 아니라 계획된 사건이 되게 합니다. 그러나 그것은 지속 학습하는 모델을 검증 가능하게 만들지는 않습니다. 그것은 잠긴 모델들의 수열을 다스릴 수 있게 만듭니다. 학습은 여전히 버전들 사이에서 일어나고, 결코 한 버전 안에서는 아니며, 초안 Annex 22는 적응형 모델을 핵심 용도에서 배제함으로써 바로 그 한계를 성문화합니다.

주의 깊은 독자가 봐야 할 두 번째, 더 조용한 한계가 있습니다. PCCP는 누군가가 사전에 상상한 봉투 안의 변경만 사전 승인할 수 있습니다. 검증된 소프트 센서를 실제로 부수는 표류 — 어떤 역사적 배치도 담지 않은 프로브-오염 체제, 훈련 분포 바깥의 원자재 로트, 스펙트럼 기준선을 이동시키는 규모 이동 — 는 흔히 봉투 바깥의 것들이고, 봉투 밖 변경은 정확히 PCCP가 새로운 검증 협상 없이 축복할 수 없는 것입니다. 그래서 이 수단은 당신이 예상한 변경에 가장 강하고 실제로 당신을 놀라게 하는 변경에 가장 약한데, 이는 당신이 보호를 가장 원하는 곳이 어디인지에 대한 불편한 뒤집힘입니다.

더 깊은 미해결 잔여물은 MLOps 장(MLOps chapter)이 명명했고 이 장이 물려받는 것입니다. 유일한 참 지상-진실 표류 탐지기가 구성상 후행(lagging by construction)인데, 모델의 오차를 드러낼 오프라인 참조가 하루 한두 번 도착하기 때문입니다. 개념 표류(concept drift)가 시작되는 순간과 그것을 증명하기에 충분한 성긴 분석이 쌓이는 순간 사이에, 오도하기 시작한 검증된 모델은 작동하는 것과 똑같아 보입니다. PSI 입력-표류 탐지기는 답이 아니라 스펙트럼을 지켜봄으로써 선행 시간을 벌지만, PSI 이동은 답이 움직였을지 모른다는 가설일 뿐입니다 — 그것은 느린 진실 없이는 오차를 확인할 수 없습니다. PCCP는 표류를 탐지했을 때 무엇을 할지를 말해 줍니다. 그것을 탐지하는 데 걸리는 시간을 줄여 주지는 못합니다. 그래서 GMP 아래 "검증 안에" 있는 모델은 실은 규율된 의심에 잡혀 있는 모델입니다 — 잠기고, 감시되고, 느린 진실에 주기적으로 대조되며, 데이터가 그렇지 않다고 증명할 때까지 틀렸다고 가정되는. 검증 역설은 서류와 생애주기로 다스려지는 것이지 그것들로 해소되지는 않으며, 이것을 이해하는 규제 당국은 "당신의 모델은 완벽한가?"가 아니라 "당신의 증거는 무엇이고, 당신의 트리거는 무엇이며, 누가 서명하는가?"를 물을 것입니다. 기술의 정직한 현주소는 그 세 질문에 좋은 답이 있고, 그 뒤의 질문 — 학습하는 시스템을 무인으로 신뢰하는 법 — 에는 아직 없다는 것입니다.

이 장이 모델 모음에 더하는 것

이 장의 기여는 examples/platform/ml/run_all.py이며, 그것은 또 하나의 모델이 아니라 모음의 거버넌스 산출물입니다 — FDA 신뢰성 프레임워크와 CSA식 보증 점검의 코드 유사물로, 그 하위-프로세스와 sha256 메커니즘은 두 문단 위에서 이미 자세히 다뤘습니다. 여기서 그것에 관해 특징적인 것은 더 큰 지도 안에서의 그 자리입니다. 그것은 사례연구 원장(case-studies ledger)(외부 배포를 성숙도와 증거 등급으로 채점)과 표류 탐지기(drift detectors)(배포된 모델을 감시)와 조율하되 중복하지 않습니다. 하니스는 검증 시점에 앉아, 신뢰성 증거가 고정된 데이터 위 사전 진술 관문에 비추어 만들어졌음을 단언합니다 — 생애주기의 증거 단계의 필요하고 점검 가능한 핵심 — 그리고 그 닫는 NOTE가 코드 안 이 장의 논제입니다. 관문을 통과하는 것은 필요하나 충분하지 않습니다. GMP 신뢰성은 의도된-용도 범위, 변경 관리, 인간 감독도 필요하며, 그중 어느 것도 스크립트가 공급할 수 없습니다. 하니스는 증거를 감사 가능하게 만들고, 서류철과 인간이 그것을 배포 가능하게 만듭니다.

왜 중요한가

이 책의 모든 모델은 다스려지기 전까지 책임(liability)입니다. 표류하여 배양물을 잘못 공급하는 소프트 센서, 표시해야 할 배치를 통과시키는 MSPC 모니터, 근본 원인을 지어내는 생성형 코파일럿 — 각각이 제품과 환자에 대한 진짜 위험이며, 영리한 모델을 방어 가능한 배포로 바꾸는 유일한 것은 이 장이 그리는 규율입니다. 범위가 정해진 의도된 용도, 위험에 비례하는 증거, 잠긴 검증된 객체, 결코 만료하지 않는 감시, 그리고 모든 핵심 관문의 인간. 그 규율은 좋은 공학 위에 얹힌 관료적 마찰이 아닙니다. CSA와 Annex 22 아래에서 그것은 좋은 공학 그 자체이며, 정확히 틀린 답이 해를 끼칠 곳에 초점을 맞춥니다. 그것을 내면화한 회사들은 GMP에서 AI를 확신 있게 배포할 수 있습니다. 그러지 않은 회사 — 배치가 만들어지고 출하되는 방식을 다스리는 기록을 AI가 생성하게 두면서, 그것을 읽는 품질 부서가 없었던 회사 — 는 최초의 AI 경고 서한을 받았습니다. 그 두 결과 사이의 간극은 모델의 품질이 아닙니다. 그것은 서류철, 잠금, 모니터, 그리고 서명의 있고 없음입니다.

실제 현장에서는

규제 틀은 2년 만에 성긴 것에서 구체적인 것으로 갔고, 2026년에는 진정으로 사용 가능합니다. 지침 쪽에서는: FDA의 2023년 논의 문서 Artificial Intelligence in Drug Manufacturing이 질문의 틀을 잡고, 그 2025년 AI 신약개발 초안이 7단계 위험 기반 신뢰성 프레임워크를 공급하고, ISPE GAMP AI 가이드(2025년 7월)가 그것을 데이터, 모델, 배포, 감시, 인간 감독에 걸친 일곱 통제 계층을 가진 검증 플레이북으로 번역하며, 확정된 컴퓨터 소프트웨어 보증 지침(2025년 9월 24일)이 온 노력을 문서 과중이 아니라 위험 기반이자 최소 부담으로 만듭니다 [1][2][6][7]. 구속력 쪽에서는: 초안 EU GMP Annex 22가, 확정이 2026년 중반 무렵으로 예상되며 2025년 내내 EU/PIC/S 자문 중으로, 최초의 제조 특화 AI 규칙입니다 — 핵심 GMP에 대해 정적·결정론적 모델만 허용하고 적응형, 확률적, 생성형 AI를 핵심 용도에서 배제하며, PCCP를 변경-관리 수단으로 둡니다 [3][4]. 그 둘 아래, ICH Q8–Q12와 ALCOA+가 AI 배포가 빠져나올 수 없는 물려받은 품질 및 데이터-무결성 척추입니다 [5][8]. 그리고 집행 닻은 이제 가설이 아니라 실재합니다. 2026년 4월 2일 FDA가 AI를 인용한 최초의 cGMP 경고 서한(WL 320-26-58, 2025년 10월 조사에 뒤이어)을, 품질-부서 검토 없이 AI 에이전트를 써서 의약품 규격, SOP, 그리고 주(master) 생산·관리 기록을 생성한 회사 Purolea에 발부했습니다 — AI가 공정-검증 요구사항을 빠뜨렸고 품질 부서가 그것을 잡아내지 못했습니다 [9][10]. 기관은 21 CFR 211.22(c)(품질-부서 감독)와 211.100(생산 및 공정 통제)을 인용했습니다. 위반은 "당신이 AI를 썼다"가 아니라 — AI가 GMP를 다스리는 문서를 만들었는데 어떤 인간 품질 부서도 그것을 검토하지 않았다는 것, 이 장의 온 생애주기가 공급하도록 지어진 정확히 그 빠진 네-눈 관문이었습니다. 지침, 초안 규칙, 그리고 그 하나의 집행 조치를 함께 읽으면 메시지는 한 문장입니다. 모델은 조언할 수 있고, 증거는 위험에 맞아야 하며, 자격 있는 인간이 결정하고 서명합니다.

핵심 용어

GMP / cGMP — Good Manufacturing Practice(우수 제조 관리 기준), "c"는 현행(current). 신약 공장이 따라야 하는 법적 구속력을 가진 품질 규칙. 한 단계가 제품 품질, 환자 안전, 또는 데이터 무결성에 영향을 줄 때 핵심 GMP다.
소프트 센서(soft sensor) — 측정하기 어려운 양(여기서는 농도)을 측정하기 쉬운 신호로부터 추론하여, 느린 실험실 분석을 대신하는 모델. 이 장의 실행 예제.
PLS / R² — PLS(Partial Least Squares, 부분 최소제곱)는 소프트 센서의 핵심에 있는 화학계량 회귀로, 수백 개의 상관된 라만 파장을 몇 개의 잠재 성분으로 압축한다. R²(결정계수)는 그 적합을 채점하며, 1.0이 완벽이고 이 장의 관문은 0.85다.
AUROC — ROC 곡선 아래 면적. 분류기가 양성을 음성보다 얼마나 잘 순위 매기는지에 대한 0.5에서 1.0까지의 점수로, 0.5가 우연이고 1.0이 완벽이므로 하니스의 0.70–0.80 관문은 최소한의 유용한 식별 기준이다.
로트 / 배치 출하(lot / batch release) — 로트(또는 배치)는 함께 만들어진 한 덩어리 분량의 제품. 출하(release)는 그 로트가 규격을 충족하여 출고해도 된다는 품질 부서의 공식 결정. "로트를 출하하는" 모델은 그 결정을 내리는 것 — 가장 고결과 용도다.
의도된 용도 / 사용 맥락(intended use / context of use) — 모델의 출력이 무엇에 쓰이고 쓰이지 않을지에 대한 정밀한 진술. 다른 모든 검증 요구사항의 크기가 정해지는 범위(FDA 프레임워크 2단계).
모델 위험(model risk) — 모델 영향력 × 결정 결과. 모델이 빚진 신뢰성 증거의 양을 정하는 위험 점수(FDA 7단계 프레임워크, 3단계).
신뢰성-평가 프레임워크(FDA 7단계)(credibility-assessment framework (FDA 7-step)) — 관심 질문 → 사용 맥락 → 모델 위험 → 신뢰성-평가 계획 → 실행 → 결과 → 적정성. 사소한 모델과 고위험 모델을 똑같이 다스리는 위험-비례 구조로, 증거가 부족하면 사용 맥락을 좁히려 루프를 되돈다.
정적(잠긴) 모델(static (locked) model) — 검증 후 동결되어 그 생애 전체에 걸쳐 같은 입력이 같은 출력을 내는 모델. 추론 시 결정론적이며, Annex 22가 핵심 GMP 용도에 허용하는 유일한 종류.
동적 / 적응형 모델(dynamic / adaptive model) — 상용 중에도 계속(온라인) 학습하는 모델. 일회성 시험으로 검증될 수 없기에 초안 Annex 22 아래 핵심 GMP 용도에서 배제됨.
초안 Annex 22(draft Annex 22) — AI에 관한 초안 EU/PIC/S GMP 부속서(자문 2025년 7–10월): 핵심 용도에 정적·결정론적 모델만 허용하고, 적응형, 확률적, 생성형 AI를 배제하며, 의도된 목적, 위험 평가, 데이터 거버넌스, 시험-데이터 독립성, 인간 감독, 시험 전에 고정된 합격 기준, 그리고 지속 감시를 요구함.
사전결정 변경관리계획(PCCP)(predetermined change control plan (PCCP)) — 모델이 어떻게 바뀔 수 있는지에 대한 사전 승인된 문서화 명세(허용-변경 봉투, 동결된 알고리즘, 합격 기준, 롤백)로, 봉투 안의 재훈련이 새 규제 협상이 아니라 계획된 사건이 되게 함. FDA 의료기기 틀에서 빌려옴.
잠금-그다음-재학습(locked-then-relearn) — 핵심 응용에 허용되는 유일한 패턴: 모델을 잠그고, 돌리고, 표류를 탐지하고, 오프라인으로 새 검증된 버전으로 재훈련하고, 변경 관리를 거쳐 승격한다. 학습은 버전들 사이에서 일어나고 결코 한 버전 안에서는 아니다.
ISPE GAMP AI 가이드(ISPE GAMP AI Guide) — GAMP 5(2판)의 위험 기반, 생애주기, V-모델 검증 사고를 AI/ML로 확장한 2025년 7월 실무자 플레이북. 데이터, 모델, 배포, 감시, 인간 감독에 걸친 일곱 통제 계층과 함께.
컴퓨터 소프트웨어 보증(CSA)(Computer Software Assurance (CSA)) — 소프트웨어 보증에 대한 FDA의 위험 기반, 비판적-사고 접근(2025년 9월 확정): 실패가 제품이나 환자에 해를 끼칠 곳에 초점을 둔 최소 부담 증거.
ALCOA+ — 귀속 가능, 판독 가능, 동시 기록, 원본, 정확, 더하기 완전, 일관, 영속, 가용. 모델을 훈련, 시험, 또는 그것에 입력하는 모든 데이터가 지녀야 하는 데이터-무결성 속성으로, 일부는 데이터셋 내용-해시로 방어됨.
시험-데이터 독립성(test-data independence) — 시험 데이터가 훈련에서 진정으로 보류되어야 한다는 Annex 22의 요구(시계열의 경우, 섞지 않고 시간으로 분할). 겹치는 시험·훈련 데이터는 모델의 신뢰성 증거를 무효화함.
의미론적으로 접지된 특징 / 라벨(semantically-grounded feature / label) — 안정적 온톨로지 IRI로 끌어당겨져 타입이 매겨진, 단위를 지닌 값으로 나르는 모델 입력이나 대상. 원본 시스템이 재매핑될 때 조용히 다른 측정이 될 수 없으므로, 훈련 데이터에 대한 ALCOA+ 원본과 정확의 구조적 형태(식별자와 단위).
SHACL 받아들임 게이트(SHACL admission gate) — 후보 훈련 부분그래프가 행이 되기 전에 그 위에 같은 폐쇄세계 bp:ReleaseShape(모든 필수 CQA가 존재하고, 단일하며, 타입이 매겨지고, 범위 안)를 돌려, 텅 비거나 잘못 라벨된 기록을 심사자 앞에서 잡아냄. PASS/OOS 출하 예측기를 위한 라벨링 계약(출하 게이트와 SHACL).
계보 그룹화 키(derivedFrom)(lineage grouping key) — 자매 로트를 한 워킹 셀 뱅크에 묶는 전이적 계보 엣지. 정직한 단일-배치-제외 교차검증이 분할하는 그룹화 키로, 배치 간 일반화 점수가 자매 누출로 부풀려지지 않게 함(관계와 계보).
네-눈 관문(four-eyes gate) — 두 번째 자격 있는 사람이 모델 버전이나 AI 생성 기록의 승격을 검토하고 서명해야 한다는 요구. 그 부재가 Purolea 경고 서한을 부른 통제.
Purolea 경고 서한(Purolea warning letter) — 품질-부서 검토 없이 AI를 써서 GMP 기록을 생성한 회사에 대한, FDA의 AI를 인용한 최초의 cGMP 경고 서한(WL 320-26-58, 2026년 4월 2일). 21 CFR 211.22(c)와 211.100 아래 인용됨. 집행 닻.

다음 이야기

규칙들이 그려졌고, 생애주기가 실작업되었으며, 그 하나의 집행 조치가 선이 어디 떨어지는지를 정확히 보입니다. 모델은 조언하고, 인간이 결정하며, 증거는 위험에 맞아야 합니다. 그것이 다스려지는 현재입니다. 마지막 본격 장 최전선: 파운데이션 모델, 자율 실험실, 그리고 에이전트형 AI(The Frontier: Foundation Models, Autonomous Labs, and Agentic AI)는 반대쪽을 봅니다 — 선을 옮기겠다고 약속하는 자율주행 바이오리액터, 연합 학습(federated learning), 바이오공정 파운데이션 모델, 그리고 에이전트형 AI를 보고, 각각이 통제된 시연에서 일상적 상업 GMP 사용으로 실제로 얼마나 멀리 왔는지를 정직하게 묻습니다. 거버넌스 장은 실제 배포가 방어 가능해지는 조건을 말해 주고, 최전선 장은 내일의 능력 중 어느 것이 그 조건을 충족할 수 있고 어느 것이 지금으로서는 증거와 규칙 양쪽의 잘못된 편에 있는지를 말해 줍니다.

이 장에서 다루는 내용​

FDA: 논의 문서, 프레임워크, 그리고 위험 비례성​

초안 EU GMP Annex 22: 선이 그어지는 곳​

떠받치는 틀: ICH, PIC/S, GAMP, CSA, 그리고 ALCOA+​

실작업 검증 생애주기: GMP 아래 글루코스 소프트 센서​

서류철의 데이터 주장이 기계 점검 가능해지는 곳: 그 밑의 온톨로지​

모델-검증 서류철의 해부 (그 PCCP와 함께)​

미해결 과제: 학습하는 모델을 "검증 안에" 유지하기​

이 장이 모델 모음에 더하는 것​

왜 중요한가​

실제 현장에서는​

핵심 용어​

다음 이야기​