디지털 스레드와 디지털 트윈

📍 현재 위치: 4부, 마지막 장 — 온톨로지와 FAIR를 통해 데이터에 공유된 의미를 부여하는 법을 배웠으니, 이제 그렇게 연결되고 의미를 갖춘 데이터가 무엇을 가능하게 하는지 살펴봅니다. 바로 전체 수명주기를 관통하는 하나의 추적 가능한 실, 그리고 그 실이 먹여 살리는 살아 있는 모델입니다.

이전 장 온톨로지와 FAIR 데이터는 데이터를 연결하기 위한 가장 깊이 있는 도구들을 우리에게 주었습니다. 온톨로지(ontology)(용어가 무엇을 의미하는지에 대한 형식적이고 공유된 모델 — 그 클래스, 그 관계, 상위 기반인 BFO(기본 형식 온톨로지(Basic Formal Ontology), 일반적 범주들로 이루어진 최상위 골격), 그리고 도메인 수준의 IOF 바이오제약 온톨로지(산업 온톨로지 파운드리(Industrial Ontologies Foundry)의 제조용 공유 어휘))와 FAIR 원칙(데이터를 찾을 수 있게(Findable), 접근할 수 있게(Accessible), 상호운용 가능하게(Interoperable), 재사용 가능하게(Reusable) 만드는 것)입니다. 이 도구들은 목적지가 아닙니다. 그것들은 베틀입니다. 이 장은 그 베틀로 짜내는 옷감에 관한 이야기입니다.

거버넌스가 적용되고 연결되어 의미론적으로 유의미한 데이터가 의약품의 전체 수명주기에 걸쳐 흐를 때 — 첫 설계 결정에서부터 그 용량을 투여받는 환자에 이르기까지 — 두 가지 강력한 일이 가능해집니다. 첫째는 디지털 스레드(digital thread)입니다. 모든 단계를 잇는 하나의 연속적이고 추적 가능한 기록입니다. 둘째는 디지털 트윈(digital twin)입니다. 그 스레드를 통해 흐르는 실제 데이터에 의해 최신 상태로 유지되는, 공정이나 장비의 살아 있는 가상 모델입니다. 둘 다 앞선 장들에서 다룬 모든 것에 대한 보상입니다. 그리고 둘 다 그것들을 먹여 살리는 데이터만큼만 좋습니다.

쉽게 말하면

주문 제작한 집을 떠올려 보세요. 디지털 스레드는 건축업자가 보관하는 완전하고 연결된 파일입니다. 건축가의 설계도, 모든 자재의 영수증, 검사관의 승인, 그리고 석고보드를 붙이기 전 모든 벽의 사진 — 이 모두가 연결되어 있어 "왜 이 보가 여기에 있지?"라고 물으면 진짜 답을 얻을 수 있습니다. 디지털 트윈은 그 위에 얹힌 스마트홈 모델입니다. 집의 가상 복제본으로서, 센서로부터 실시간 데이터를 받아 보일러가 고장 나기 전에 곧 고장 날 것임을 알려주고, 온도조절기를 높이면 어떤 일이 벌어질지 시뮬레이션할 수 있습니다. 하나는 연결된 기록이고, 다른 하나는 그 기록이 가능하게 만드는 살아 있는 모델입니다.

이 장에서 다루는 내용

디지털 스레드 — 무엇인지, 그리고 어떻게 마침내 배치 계보(batch genealogy)를 실현하는지
디지털 트윈 — 그리고 서술형에서 처방형에 이르는 세 가지 성숙도 수준
둘 다 요구하는 것 — 그리고 앞선 장들의 기반 없이는 왜 실패하는지
무엇에 좋은지 — 제어, 가정 시나리오(what-if), 더 빠른 기술 이전
그것들의 솔직한 한계 — 모델 검증, 규제적 위상, 데이터 지연

디지털 스레드: 설계에서 환자까지 하나로 연결된 기록

우리는 이 책 전반에 걸쳐 한 배치의 이야기 조각들을 만났습니다 — 설계 결정, 센서 추적 데이터, 실험실 결과, 자재의 계보. 각각은 자기만의 시스템에서, 자기만의 형식으로 존재했습니다. 디지털 스레드는 이 모두를 하나의 추적 가능한 종단 간(end-to-end) 기록으로 연결하려는 야심입니다. 개발 → 공정 → 제품 → 환자, 모든 단계가 그 앞뒤의 단계와 연결됩니다.

수명주기를 하나의 사슬로 그려 보세요. 설계 끝에는 품질 설계 기반(Quality by Design, QbD) — 품질을 나중에 시험으로 걸러내는 대신 의도적으로 처음부터 쌓아 넣는 개발 철학 — 아래 만들어진 지식이 있습니다. 이는 물리적 책에서 공정 개발이 생성하는 바로 그 설계 측 지식 — 파라미터가 어떻게 특성을 움직이는지 지도화하는 소규모 연구 — 과 같은 것입니다. 가이드라인 ICH Q8(R2) 하에서 팀은 목표 제품 품질 프로파일(Quality Target Product Profile, QTPP)(의약품이 환자에게 무엇을 해야 하는지)을 정의하고, 핵심 품질 특성(critical quality attributes, CQAs)(범위 내에 유지되어야 하는 제품 속성)을 식별하며, 이를 제어하는 핵심 공정 파라미터(critical process parameters, CPPs)가 무엇인지 파악하고, 설계 공간(design space) — 좋은 제품을 신뢰할 수 있게 산출하는, 입증된 조건의 영역 — 을 지도화합니다 [8]. 공정 끝에는 각 제조 실행에서 나오는 센서 스트림과 배치 기록이 있습니다 — 예를 들어 CHO 배양(차이니즈 햄스터 난소 세포(Chinese hamster ovary cells), 치료용 항체의 표준 포유류 생산 숙주)이 2주 동안 자라는 생산 생물반응기에서 태어납니다. 제품 끝에는 출하 시험이 있습니다. 그리고 그 너머, 원칙적으로는, 환자 결과(outcomes)가 있습니다.

배치 계보: 종이 보물찾기에서 질의 가능한 기록으로

디지털 스레드는 그 사슬을 어느 방향으로든 걸어갈 수 있게 해주는 결합 조직입니다. 이것이 바로 배치 계보(batch genealogy) — 완성된 바이알을 그것을 만든 모든 자재, 파라미터, 결정까지 거슬러 추적할 수 있는 혈통 — 를 종이 더미를 뒤지는 보물찾기가 아니라 질의 가능한 현실로 마침내 만들어 주는 것입니다. 스레드가 갖춰지면, 모든 공정 과학자가 묻고 싶지만 깔끔하게 답할 수 있는 이는 드문 질문을 던질 수 있습니다. 어떤 조건이 최고의 제품을 만들었는가? 구체적으로, "pH가 7.0에서 7.4 사이에 머물렀고 그리고 용존 산소가 공기 포화도 40% 이상을 유지했으며 그리고 최종 SEC(크기 배제 크로마토그래피(size-exclusion chromatography)) 단량체 순도가 95%를 넘은 모든 배치를 보여 달라"와 같은 질의는 히스토리안의 센서 태그 — 히스토리안은 모든 센서 측정값(BR101.pH.PV, BR101.DO.PV)을 보관하는 시계열 데이터베이스입니다 — 를 LIMS(실험실 정보 관리 시스템(Laboratory Information Management System), 실험 시험 결과의 기록 시스템)의 순도 결과와 결합하여, 부합하는 만큼의 배치 — 가령 한 해 실행 중 열두어 개 — 를 반환합니다. 이는 서로 대화하도록 설계된 적이 없는 시스템들을 가로지르는 결합이며, 스레드 없이는 그저 불가능한 일입니다.

그 계보는 또한 물리적 책이 규제 의무로 규정하는 바로 그 역추적 책무이기도 합니다. 완성된 로트가 의심스러울 때 제조사는 그것을 먹인 모든 자재와 결정을 재구성해야 합니다 — 제조 이야기를 닫는 품질, 규제, 데이터 규율입니다. 스레드는 그 의무를 사후 조사에서 상시적인 질의로 바꾸는 것입니다. 계보 기록 자체가 스레드 형태의 데이터 구조이며, 그것은 필드별로 해부될 가치가 있습니다 — 그것이 다음 절입니다.

배치 계보 기록의 해부

스레드 안의 각 배치는 작고 구조화된 기록 — 물리적 실행의 데이터 측 메아리 — 을 드리우며, 그 기록이 스레드 전체가 지어지는 단위입니다. 그것은 물리적 책이 하나의 생물반응기를 읽듯 필드별로 읽을 가치가 있습니다. 모든 필드가 스레드가 다른 데이터를 걸어 두는 고리이기 때문입니다. 아래 도해는 이 책이 처음부터 끝까지 꿰는 작업 예제 배치 BATCH-2026-001을 해부합니다. 그 루트 키, 기록이 태어나는 타임스탬프, status 출하 판정(in_progress, complete, released, rejected), 대표적인 CQA(monomerPct), 그것을 생성한 단계들의 phase_lineage, 그리고 — 계보의 심장 — 배치를 그 상류 부모(시드 트레인 로트 — 세포를 생산 규모까지 키워 올리는 단계적 증식 배양 — 그리고 한 에지 더 거슬러, 그것들을 시작하기 위해 해동한 워킹 셀 뱅크 바이알)로 가리키는 derivedFrom 에지입니다.

배치 계보 기록을 필드별로 해부: 루트 키, 생성 타임스탬프, 출하 판정, CQA 결과, 단계 계보, 그리고 배치를 그 부모로 잇는 derivedFrom 에지 — 종이 보물찾기를 하나의 재귀 질의로 바꾸는 데이터 구조입니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

이것은 추상이 아닙니다. 같은 기록이 오픈소스 책에서 구체적인 코드로 실체화됩니다. derivedFrom 에지는 s88.genealogy 에지 테이블(s88 스키마는 레시피와 장비를 분리하는 ISA-88 배치 제어 표준의 이름을 딴 것입니다)의 문자 그대로의 자식-부모 행이 되고, status 판정은 s88.batch 행의 status 열이 되며, 전체 계보는 그 에지들에 대한 단일 재귀 질의로 필요할 때 재구성됩니다. 앞으로 읽으면 여기의 해부는 데이터 포인트이고, 구현 책으로 읽어 들어가면 그것은 CREATE TABLE과 INSERT입니다. 같은 에지는 지식 그래프의 RDF derivedFrom 트리플로도 똑같이 표현될 수 있으며, 이는 계보를 맨 외래 키로서가 아니라 온톨로지로 타입 지어진 의미와 나란히 질의할 수 있게 해주는 것입니다.

의약품 수명주기를 가로지르는 디지털 스레드의 흐름: 한 줄로 늘어선 네 단계 — 설계 및 개발(QTPP, CQA, CPP, 설계 공간), 공정 실행(센서, 배치 기록), 제품 및 출하(QC 시험 결과), 환자(결과 및 안전성)가 왼쪽에서 오른쪽으로 전진 흐름 화살표로 연결됩니다. 그 줄 아래에는 환자에서 설계로 거슬러 가는 장미색 점선 역추적 화살표가 배치 계보를 나타냅니다. 네 단계 모두 공유 버스로 내려가, 모든 단계를 잇는 하나의 연결된 추적 가능한 기록인 디지털 스레드라는 중앙 노드로 데이터를 보냅니다.

디지털 스레드는 모든 수명주기 단계를 하나의 기록으로 연결하여, 앞으로(원인에서 결과로) 또는 뒤로(결과에서 원인으로) 걸어갈 수 있게 합니다. 계보는 더 이상 검색이 아니라 질의가 됩니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

의미론적 트리플이자 검증된 셰이프로서의 같은 기록

계보 기록은 데이터베이스 행만이 아닙니다. RDF로 쓰이면 그것은 기계가 추론할 수 있는 사실이 됩니다. 위에서 해부한 derivedFrom 에지는 바로 4권이 자기 온톨로지의 척추로 삼는 전이적 객체 속성(transitive object property)입니다 — BATCH-2026-001 derivedFrom SEED-001과 SEED-001 derivedFrom WCB-CHO-001을 아는 추론기가 누구도 단언하지 않은 장거리 링크 BATCH-2026-001 derivedFrom WCB-CHO-001을 추론한다는 뜻입니다. Turtle(RDF의 텍스트 구문으로, a는 "is a"로 읽고 세미콜론은 같은 주어에 대한 또 다른 사실을 더합니다)에서 작업 예제 배치의 계보는 그저 몇 개의 명시된 부모 에지에 불과합니다:

# RDF로 표현한 계보 기록 — 직접적인 부모 에지만 단언하고,
# 전이성이 셀 뱅크까지 거슬러 나머지 사슬을 추론합니다.
bp:derivedFrom a owl:ObjectProperty , owl:TransitiveProperty .
bp:BATCH-2026-001 a bp:Batch ; bp:derivedFrom bp:SEED-001 .
bp:SEED-001       a bp:SeedCulture ; bp:derivedFrom bp:WCB-CHO-001 .

그 의미론적 타이핑이야말로 스레드가 깨지기 쉬운 공유 키가 아니라 의미로 계보를 결합하게 해주는 것입니다 — 관계와 계보 장이 derivedFrom의 도메인과 레인지를 Material → Material로 고정함으로써, 배치의 부모를 그것을 실행한 작업자로 가리키는 부주의한 적재가 계보 걷기를 슬그머니 오염시키는 대신 모순으로 표시되게 만드는 바로 그 수와 같습니다. 그리고 모든 공정 과학자가 묻는 수명주기 질문 — 어떤 로트들이 실패한 로트의 혈통을 공유하는가? — 은 그래프 순회이므로, 자연스럽게 역량 질문(competency question)(데이터 모델이 답할 수 있어야 하는, 합격/불합격 인수 시험으로 쓰이는 평이한 영어 질문)이 됩니다. SPARQL(RDF용 질의 언어로, SQL이 테이블에 대해 그러하듯)로 표현하면, 공유 운명(shared-fate) 질의는 derivedFrom을 공통 조상까지 걸어 올라갔다 다시 내려옵니다:

# CQ: DP-004가 실패할 때, 어떤 약품이 그 혈통을 공유하는가?
PREFIX bp: <https://example.org/bioproc#>
SELECT DISTINCT ?affected WHERE {
  bp:DP-004 (bp:derivedFrom)+ ?shared .   # 실패한 로트의 조상
  ?affected (bp:derivedFrom)+ ?shared .   # 그것에서 파생된 다른 모든 것
  ?affected a bp:DrugProduct .
  FILTER(?affected != bp:DP-004)
}

스레드의 완전성(completeness) 자체도 강제할 수 있습니다. 기록이 실어 나르는 출하 판정은 결코 슬그머니 빠져서는 안 됩니다 — 빠진 무균 시험 결과는 미해결 질문이 아니라 실패한 로트입니다 — 그러나 개방 세계(open-world) 추론기는 명시되지 않은 것은 무엇이든 그저 알 수 없음으로 취급합니다. 실행 가능한 가드는 폐쇄 세계(closed-world) SHACL 셰이프(셰이프 제약 언어(Shapes Constraint Language) — 그래프 데이터가 요구된 구조를 갖추었는지 검증하는 어휘)이며, 출하 게이트 장이 이를 사용해 사양을 실행 가능하게 만듭니다. 최소한의 셰이프는 스레드 안의 모든 출하된 로트가 서명되고 통제된 상태를 실제로 지니도록 요구합니다:

# 스레드 안의 출하된 로트는 정확히 하나의 통제된 상태와 서명을 지녀야 합니다.
bp:ReleaseShape a sh:NodeShape ;
    sh:targetClass bp:DrugProduct ;
    sh:property [ sh:path bp:releaseStatus ;
                  sh:minCount 1 ; sh:maxCount 1 ; sh:in ( "PASS" "OOS" "PENDING" ) ] ;
    sh:property [ sh:path bp:approvedBy ; sh:minCount 1 ;
                  sh:message "Release record is unsigned." ] .

서명 행은 또한 스레드가 W3C PROV-O 어휘가 모델링하는 형식적 의미의 출처(provenance)를 실어 나르는 곳이기도 합니다 — 누가 서명했는지(에이전트), 어떤 행위였는지(활동), 어떤 엔터티를 뒷받침하는지 — 그래서 "누가 이 로트를 출하했고, 어떤 근거로?"가 필드에 입력된 이름이 아니라 구조화된 사실이 됩니다. 이렇게 모델링되면, 디지털 스레드는 결합된 테이블 더미이기를 그치고 계보, 완전성, 책임성이 모두 기계로 검증 가능한 지식 그래프가 됩니다. 이를 수행하는 전체 온톨로지 — 그 분류 체계, 그 derivedFrom 척추, 그리고 그것을 검증하는 SHACL 게이트 — 는 4권의 클래스와 분류 체계 및 출하 게이트 장의 주제입니다.

스레드가 중요한 또 다른 이유는, 수명주기가 늘 별개의 배치들이 깔끔하게 이어지는 순서는 아니기 때문입니다. 연속 바이오공정(continuous bioprocessing) — 세포가 쉬지 않고 생산하고 물질이 단일 탱크에 멈추는 대신 연결된 단위 작업들(별개의 공정 단계들 — 여과 한 단계, 크로마토그래피 한 단계 — 을 사슬처럼 이은 것)을 통해 연속적으로 흐르는 공정 — 에서는 기록의 경계를 지을 깔끔한 "배치의 끝"이 존재하지 않습니다 [6]. 애초에 "배치"가 무엇인지를 정의하는 일, 그리고 끊김 없는 흐름 속에서 계보를 추적하는 일은 스레드가 풀어야 할 데이터 문제가 됩니다 [6]. 이는 진정으로 미해결된 문제 가운데 하나이므로, 이 장 말미에서 다시 다룹니다.

디지털 트윈: 실제 데이터가 먹여 살리는 살아 있는 모델

디지털 스레드는 기록입니다 — 풍부하지만 근본적으로는 무슨 일이 일어났는지에 대한 서술입니다. 디지털 트윈은 한 걸음 더 나아갑니다. 실제 사물 — 생물반응기, 정제 단계, 공정 전체 — 의 가상 표현으로서, 그 물리적 짝에서 나오는 데이터에 의해 지속적으로 갱신되어 가상 버전이 실제 버전과 보조를 맞춰 유지됩니다 [1]. 이 개념은 마이클 그리브스(Michael Grieves)가 2002년경 제품 수명주기를 아우르는, 물리적-가상 짝을 이룬 시스템으로 처음 정식화했습니다 [1]. 디지털 스레드는 사실상 실제 시스템이 자기 트윈을 정직하게 유지하도록 하는 통로입니다.

세 가지 성숙도 수준: 모델, 섀도, 트윈

핵심 단어는 지속적으로입니다. "디지털 트윈"이라 불리는 많은 시스템은 사실 그렇지 않습니다. 신중한 분류 체계는 물리적 버전과 가상 버전 사이에서 데이터가 어떻게 흐르는지에 따라 세 가지를 구분합니다 [2]:

디지털 모델(digital model)은 자동 데이터 연결이 없습니다 — 손으로 갱신하는 시뮬레이션입니다. 실제 반응기를 바꿔도 모델은 알아차리지 못합니다.
디지털 섀도(digital shadow)는 물리적 측에서 가상 측으로 향하는 일방향 자동 흐름을 가집니다. 모델은 실시간 데이터로 스스로를 갱신하지만, 공정에 되받아 작용할 수는 없습니다.
엄밀히 정의된 디지털 트윈(digital twin)은 양방향 자동 흐름을 가집니다. 가상 버전은 실시간으로 실제 버전을 비출 뿐 아니라, 결정이나 명령을 그것에 되먹일 수 있습니다 [2].

데이터 흐름으로 구분되는 세 가지 디지털 트윈 성숙도 수준의 상태 도해: 상단에 실제 생물반응기를 나타내는 물리적 자산 막대; 그 아래 세 개의 박스 — 점선 수동 갱신으로 먹여지는 레벨 1 디지털 모델, 자산에서 아래로 향하는 일방향 실시간 데이터 화살표로 먹여지는 레벨 2 디지털 섀도, 그리고 두 개의 화살표(아래로 향하는 짙은 실시간 데이터 화살표와 자산으로 다시 올라가는 보라색 명령 화살표)를 가진 레벨 3 디지털 트윈; 하단에는 서술형, 예측형, 처방형으로 이어지는 녹색 야심 사다리. 세 수준은 오직 데이터가 어떻게 흐르는지로 구별됩니다: 자동 연결 없음(모델), 일방향 아래로(섀도), 또는 양방향(트윈). 야심의 녹색 사다리 — 서술형, 예측형, 처방형 — 는 처음 두 단은 일방향 섀도 위에서 올라타며, 오직 처방형 단만이 루프가 닫히기를 요구합니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

이 구분은 현학이 아닙니다. 업계가 "트윈"으로 마케팅하는 것의 상당수는 실은 모델이거나 섀도입니다 [2][4] — 그리고 그 차이를 아는 것이 특정 시스템이 무엇을 할 수 있고 무엇을 할 수 없는지를 정확히 알려줍니다. 그 경계선은 데이터 포인트의 수명주기가 어딘가에 그저 내려앉는 값과 작용하기 위해 되돌아 이동하는 값 사이에 긋는 선과 같습니다. 모델은 막다른 기록이고, 섀도는 일방향 피드이며, 오직 트윈만이 센서에서 결정으로, 그리고 다시 액추에이터로 돌아오는 왕복을 완성합니다.

트윈에는 야심의 수준도 존재합니다. 유용한 사다리는 서술형(descriptive) → 예측형(predictive) → 처방형(prescriptive)으로 이어집니다:

서술형 트윈(descriptive twin)은 현재 상태를 비춥니다 — 공정이 지금 무엇을 하고 있는지에 대한 실시간의 충실한 그림입니다.
예측형 트윈(predictive twin)은 다음에 무슨 일이 일어날지 예측합니다 — CQA가 어디로 향하는지, 크로마토그래피 컬럼이 언제 오염될지(물질이 충전재를 막으면서 성능을 잃는 것)를 말입니다.
처방형 트윈(prescriptive twin)은 가장 멀리 나아갑니다. 공정을 목표에 유지하는 시정 조치를 권고하거나 직접 실행합니다.

이 야심 사다리는 위의 모델–섀도–트윈 구분과 같은 축이 아닙니다. 서술형 또는 예측형 트윈은 일방향 디지털 섀도 위에서 행복하게 올라탑니다 — 공정에 전혀 손대지 않고도 비추고 예측하는 것입니다. 모델이 시정을 실행하는 처방형 단만이, 엄밀한 트윈을 만드는 양방향 흐름을 필요로 합니다. 그것이 루프가 진정으로 닫히기를 요구하는 유일한 단입니다.

특히 바이오제조에 관해서는, 검토자들이 완전한 트윈은 여전히 열망에 머물러 있다고 경고하며, 단일한 도약 대신 단계적 경로 — 기본적인 정상상태 모델에서부터 데이터 통합과 예측력을 점진적으로 높여 가는 길 — 를 제안합니다 [4].

하류 트윈: 생물반응기뿐 아니라 단백질 A 포획

트윈을 생물반응기에 대해서만 이야기하기는 쉽습니다. 상류 배양이 조밀하고 연속적인 센서 스트림이 사는 곳이기 때문입니다. 그러나 하류의 정제 트레인도 똑같이 트윈으로 만들 수 있으며, 그 예제는 구체화할 가치가 있습니다. 공정의 데이터가 풍부한 단위 작업 대부분이 실은 거기에 자리 잡고 있기 때문입니다. 단백질 A 친화 포획(Protein A affinity capture)을 생각해 보세요 — 첫 정제 단계로, 항체가 자신의 Fc 줄기로 수지에 결합하고, 불순물은 폐기물로 흘러나가며, 저(低)pH 완충액이 농축되고 훨씬 더 순수한 풀을 용출시키는, 물리적 책의 포획 크로마토그래피 장이 걷는 단계입니다. 그 컬럼의 서술형 트윈은 실시간 UV 크로마토그램(컬럼에서 흘러나오는 것의 추적)과 인라인 pH 및 전도도를 비춥니다. 예측형 트윈은 포획 단계를 노화시키는 단 하나를 예측합니다. 바로 수지의 동적 결합 용량(dynamic binding capacity, DBC) — 제품이 결합하지 않은 채 빠져나가기 전에 수지 1리터가 담을 수 있는 항체의 양 — 이 수지가 오염됨에 따라 사이클마다 떨어지는 것이며, 그래서 모델은 돌파(breakthrough)가 일어나 증명할 때까지 기다리는 대신 컬럼이 언제 제품을 새기 시작할지를 말해 줍니다. 처방형 트윈이라면 용량이 떨어지는 동안 수율을 유지하기 위해 적재 부하(수지 1리터당 적재되는 항체 그램 수)를 조정할 것입니다. 같은 것이 폴리싱과 UF/DF(한외여과/정용여과(ultrafiltration/diafiltration) — 최종 원료의약품을 조정하는 농축 및 완충액 교환 단계)에도 적용됩니다. 각 단계는 트윈이 올라탈 수 있는 자기만의 압력, 플럭스, 전도도 스트림을 내놓습니다. 반응기만이 아니라 트레인 전체의 트윈이야말로, 예측된 응집체 수준 — 각 하류 단계가 제거해야 하는 고분자량 화학종 — 을 그것을 제거했어야 할 단위 작업까지 추적할 수 있게 해주는 것입니다.

참고

섀도(shadow)라는 단어가 이 책에서 다른 의미로 반복된다는 점에 유의하세요. 1장의 데이터 섀도(data shadow)는 한 배치가 드리우는 기록의 총체입니다 — 센서 추적 데이터, 서명, 결과로 이루어진, 무슨 일이 일어났는지에 대한 기록입니다. 여기서의 디지털 섀도(digital shadow)는 다른 것입니다. 공정으로부터 스스로를 갱신하지만 되받아 작용할 수는 없는, 실시간 일방향 모델입니다. 둘은 그저 단어를 공유할 뿐입니다. 서술형 트윈은 실시간 거울 층이고, 예측형 트윈은 공정이 어디로 향하는지 예측하며, 처방형 트윈은 그 모델들 — 5부의 분석 — 이 공정에 되받아 작용하기 시작하는 지점입니다.

기반 없이는 트윈이 실패하는 이유

디지털 트윈은 그것을 먹여 살리는 데이터 스레드만큼만 신뢰할 수 있습니다 — 그리고 그 스레드는 이 책의 앞선 모든 부에서 다룬 것들로 지어집니다. 이것이 이 장의 핵심 주장이므로, 그 의존성을 명시적으로 밝힐 가치가 있습니다. 그 이유를 보려면, 아무런 기초 작업도 되어 있지 않은 공정에 순진하게 트윈을 갖다 붙인 모습을 상상해 보세요 — 빠진 기반이 하나씩 무엇을 망가뜨리는지를 여기서 살펴봅니다.

첫째, 통합된 데이터 소스(integrated data sources)(2부)입니다. 생물반응기의 트윈은 그것의 실시간 센서 스트림을 필요로 하고, 공정 전체의 트윈은 기기, 제어 시스템, 공장 정보 시스템에서 나오는 데이터를 한데 꿰매야 합니다. 기업 통합 표준 ISA-95는 정보를 수직으로 — 현장 제어에서 제조 실행(MES, 즉 제조 실행 시스템(Manufacturing Execution System) 계층으로, 단계별 배치 기록을 구동합니다)을 거쳐 기업 시스템까지, 그리고 다시 아래로 — 옮기기 위한 정전(正典)적 모델을 제공합니다 [7]. 실무에서 그 전송 계층의 교환은 흔히 OPC UA(Open Platform Communications Unified Architecture) 위에서 이루어지는데, 이는 값뿐 아니라 그 데이터 타입과 공학 단위까지 함께 실어 나르는 벤더 중립적 산업 표준입니다 — 그래서 측정값은 의미를 트윈이 추측해야 하는 맨숫자가 아니라 "22.5, type Double, unit °C"로 도착합니다. 그것은 배선(wire)을 풀 뿐, 의미(meaning)를 풀지는 않습니다. 연결성 장에서 보았듯이, CHO 생물반응기용 컴패니언 사양이 아직 발행되지 않은 상황에서는 규격을 따르는 두 OPC UA 서버조차 같은 양을 다르게 명명할 수 있습니다 — 바로 그래서 아래의 의미론적 기반이 여전히 필요한 것입니다. 그 수직 통합이 없으면 트윈은 자기가 볼 수 있는 센서 위로는 눈이 멀어 있습니다.

둘째, 감지(sensing) 그 자체입니다(역시 2부). 실시간 트윈은 중요한 것들에 대한 실시간 측정을 필요로 합니다. FDA의 공정 분석 기술(Process Analytical Technology, PAT) 프레임워크는 바로 핵심 품질·공정 특성을 공정이 진행되는 동안 측정하려는 추진력이며, 어떤 실시간 섀도나 트윈도 이에 의존합니다 [9]. PAT가 없으면 실시간 데이터가 없고, 실시간 데이터가 없으면 트윈도 없습니다 — 오직 모델만 있을 뿐입니다.

셋째, 무결성과 거버넌스(integrity and governance)(3부)입니다. 먹이는 데이터가 모든 개별 측정값 수준에서 신뢰할 수 없으면, 트윈은 허구를 충실하게 모델링합니다. 규제 기관이 따르는 데이터 무결성 기대치는 ALCOA+입니다 — 데이터는 귀속 가능(Attributable, 누가 기록했는지에 결속됨)하고, 읽을 수 있고(Legible), 동시적(Contemporaneous, 사후에 채워 넣는 것이 아니라 일어난 그대로 기록됨)이며, 원본(Original)이고, 정확(Accurate)해야 하며, 여기에 완전성(Complete), 일관성(Consistent), 영속성(Enduring), 가용성(Available)이라는 "+" 확장이 더해집니다. 실시간 트윈은 동시성(Contemporaneous)과 정확성(Accurate) 차원에 가장 크게 기댑니다 — 한 시간 거슬러 소급 기록된 측정값, 또는 감사 추적 없이 슬그머니 수정된 측정값 위에 지어진 예측은, 공정이 실제로 한 일을 더 이상 반영하지 않는 기록 위에 지어진 예측입니다. 그 전자 기록과 서명은 21 CFR Part 11과 EU GMP Annex 11에 의해 법적 구속력을 가지며, 거버넌스는 애초에 트윈이 누구의 데이터를 신뢰할지를 결정하는 것입니다.

넷째, 의미론과 FAIR(semantics and FAIR)(4부 — 우리가 지금 닫고 있는 부)입니다. 여러 시스템의 데이터를 융합하는 트윈은, 그들의 "온도"와 자신의 "온도"가 같은 단위로 같은 용기에 대해 같은 것을 의미한다는 것을 알아야 합니다. 그 공유된 의미 — 그리고 맨 측정값을 그것이 속한 배치, 단계, 장비에 결속하는 행위 — 야말로 온톨로지, FAIR의 상호운용성(Interoperable), 그리고 구현 책의 맥락화(contextualization) 단계가 제공하는 바로 그것입니다. 시스템 간 데이터 융합은 산업용 트윈의 핵심 의존성으로 거론됩니다 [3]. 누구의 온도를 읽고 있는지 분간하지 못하는 트윈은 잡음을 융합하고 있는 것입니다.

하이브리드 기계론 더하기 데이터 모델링

바이오제조에서 이를 묶어 주는 기술은 하이브리드 모델링(hybrid modeling)입니다 — 기계론적 모델(첫 원리 과학에서 나온 방정식)과 데이터 기반 머신러닝 모델을 결합하는 것입니다. 순수하게 기계론적인 모델은 생물학의 지저분함을 담아낼 수 없고, 순수하게 경험적인 모델은 학습된 데이터 밖에서는 신뢰할 수 없기 때문입니다 [5]. 기계론적 골격은 물리와 화학량론(물질이 반응하고 소모되는 고정된 정량적 비율)이 알려진 곳 — 물질 수지, 산소 전달, 공급의 희석 산술(추가되는 각 공급이 탱크에 이미 있는 것을 얼마나 희석하는지) — 에서 모델을 정직하게 유지하고, 데이터 기반 층은 어떤 방정식도 깔끔하게 포착하지 못하는 세포 대사의 부분들을 흡수합니다. 하이브리드는 어느 한쪽도 홀로 할 수 없는 일을 해냅니다. 합리적으로 외삽하면서 동시에 살아 있는 배양의 지저분한 현실에 들어맞는 것입니다.

이것은 더 이상 순전히 학술적인 이야기만은 아닙니다. 상용 플랫폼들이 이제 이를 현장용으로 묶어 제공합니다 — 지멘스(Siemens) gPROMS와 아스펜테크(AspenTech)의 Aspen Hybrid Models는 기계론 더하기 데이터 모델을 구축하며, DataHow(DataHowLab) 같은 바이오공정 전문 기업은 세포 배양 트윈을 직접 겨냥합니다.

왜 중요한가

여기 데이터 관리 차원의 귀결을 평이하게 말하면 이렇습니다. 디지털 스레드와 디지털 트윈은 새로운 데이터 소스가 아닙니다 — 그것들은 여러분의 기존 데이터 전부가 마침내 연결되고, 신뢰할 수 있고, 의미를 갖췄을 때 비로소 가능해지는 것입니다. 어떤 의미에서 앞선 모든 장은 이를 위한 준비였습니다. 무결성 없는 통합은 빠르게 움직이는 거짓을 줍니다. 의미론 없는 무결성은 아무도 결합할 수 없는 신뢰할 만한 데이터를 줍니다. 거버넌스 없는 의미론은 합의된 진실의 원천이 없는 아름다운 모델을 줍니다. 스레드와 트윈은 그 모두를 동시에 요구하는 구성물입니다 — 그래서 그것들은 한 조직의 데이터 관리가 실제로 작동하는지를 가늠하는 가장 참된 시험입니다.

현실 세계에서

물리적 자산이 실시간 데이터 스레드를 가상 모델로 흘려보내고, 그 모델이 의사결정을 되먹이는 디지털 트윈의 계층 도해

디지털 트윈의 해부: 실제 데이터 스레드로 살아 움직이는 모델이 의사결정을 되먹입니다.

저자가 AI의 도움을 받아 직접 제작한 그림입니다.

이 구성물들이 바이오제조 기업에게 실제로 무엇을 가져다주는 것일까요? 몇 가지 구체적인 것들입니다. 예측형 또는 처방형 트윈은 모델 기반 제어(model-based control)를 가능하게 합니다 — 센서가 이미 읽은 것에만 반응하는 대신, 모델의 예측에 따라 공정을 조종하는 것입니다 [3][5]. 그것은 가정 시나리오(what-if scenarios)를 가능하게 합니다 — 실제의 값비싼 물질을 위험에 빠뜨리기 전에 제안된 변경을 인 실리코(in silico)(컴퓨터 안에서) 시험하는 것입니다 [3]. 그것은 기술 이전과 규모 확대(technology transfer and scale-up)를 가속합니다 — 공정을 처음부터 다시 학습하는 대신 검증된 모델을 레시피와 함께 들고 다님으로써, 공정을 소규모 개발 반응기에서 대규모 제조 반응기로, 또는 사이트 간에 옮기는 것입니다 [4]. 그리고 그것은 실시간 출하(real-time release)를 예고합니다 — 배치가 만들어지는 동안의 인프로세스(in-process) 데이터로 그 배치를 인증함으로써, 충분히 이해되고 실시간으로 모니터링되는 공정이 모든 라인 끝 실험실 시험을 며칠씩 기다리는 대신 공정 이해에 근거한 출하를 뒷받침할 수 있게 하는 것입니다 [9].

표준 기구들은 그 레일을 깔고 있습니다. 기업 통합을 위한 ISA-95 [7], 그리고 트윈이 스스로 생성하지 않은 데이터를 융합하게 해주는 의미를 위한 앞 장의 FAIR 및 온톨로지 작업입니다.

데이터 자체의 제약 아래에서 모델을 검증하기

"모델이 검증되었다"는 말은 바이오공정이 유난히 까다롭게 만드는 방법론을 숨기고 있으며, 그 함정들을 짚어 둘 가치가 있습니다. 그것들이 트윈의 예측을 신뢰할 수 있는지를 결정하기 때문입니다. 첫째는 정확도로 위장한 데이터 누출(data leakage)입니다. 바이오공정 모델을 정직하게 채점하는 방법은 그룹화(배치 단위 제외, leave-one-batch-out) 교차 검증입니다 — 무작위 행이 아니라 배치 전체를 떼어 놓는 것입니다. 같은 실행에서 나온 행들은 독립적이지 않으며, 무작위 분할은 모델이 나중에 채점받을 바로 그 배치를 미리 엿보게 해 그 수치를 그럴듯한 거짓으로 부풀리기 때문입니다. 하이퍼파라미터를 조정할 때 같은 교훈이 더 날카로워집니다. 중첩 교차 검증(nested cross-validation)은 조정을 내부 루프에 두고 손대지 않은 외부 폴드의 점수만 보고함으로써, 같은 폴드에서 조정하고 읽는 추정치가 슬그머니 주장하는 낙관을 벗겨냅니다. 5권의 모델과 검증 장이 둘 다 실행 가능한 코드로 풀어냅니다.

둘째는 예측이 언제 지도 밖으로 벗어났는지를 아는 것입니다. 트윈은 좁고 특성화된 창에서 돌아가는 검증된 공정을 조종하지만, 그것이 가장 필요한 순간은 이탈(excursion) — 바로 학습 데이터가 없는 곳 — 입니다. 적용 범위(applicability domain) 검사(모델이 학습된 영역 밖에 놓인 입력을 표시하는 가드 — 다변량 소프트 센서에서는 호텔링 T²와 제곱 예측 오차 검정)야말로 자신만만한 외삽을 가시적인 경고로 바꾸어, 트윈이 깔끔한 잘못된 수치를 반환하는 대신 "나는 만들어지지 않은 것을 요구받고 있다"고 말하게 합니다.

셋째는 트윈이 지켜보는 공정이 살아 있고 움직인다는 것이며, 그래서 트윈은 공정 드리프트(process drift)(실제 배양이 진정으로 변하는 것 — 계대를 거치며 적응하는 세포주, 새로운 원자재 로트)와 모델 드리프트(model drift)(공정은 멀쩡한데 트윈이 낡아 가는 것 — 그 밑에서 서서히 오염되는 프로브)를 구별해야 합니다. 둘은 서로 다른 계기와 서로 다른 대응을 필요로 하며, 이를 혼동하면 멀쩡한 모델을 재학습시키거나 낡은 모델을 신뢰하게 됩니다. 5권의 MLOps 장이 둘을 가려내는 드리프트 탐지기를 구축합니다. 이 모든 것이, 트윈의 모델이 적합도가 좋은 .pkl 파일이 아니라 자신의 학습 데이터 해시, 검증 증거, 작동 범위, 그리고 그것을 감사 가능하게 만드는 계보 에지 — 어떤 데이터셋으로 trainedOn, 어떤 버전을 supersedes, 어떤 탐지기로 monitoredBy — 를 실어 나르는 잠긴(locked), 버전 고정된 객체여야 하는 이유입니다. 즉석에서 계속 학습하는 모델은, 지금으로서는, 핵심 품질 특성에 닿는 어떤 것에 대해서도 규제적으로 받아들여지지 않습니다. 인정된 패턴은 잠금 후 재학습(locked-then-relearn)으로, 재학습이 통제되고 문서화된 사건이지 결코 슬그머니 제자리에서 수정하는 것이 아닙니다.

검증된 모델을 기술 이전을 통해 운반하기, CSA 아래에서

위에서 거명한 운영상의 보상 — 더 빠른 기술 이전 — 에는 명시할 가치가 있는 품질 규율이 따라붙습니다. 검증된 트윈을 소규모 개발 반응기에서 대규모 제조 반응기로, 또는 사이트 간에 옮기는 것은 규모 확대와 기술 이전(scale-up and technology-transfer) 사건이며, 트윈은 공짜로 이전되지 않습니다. 규모는 혼합, 산소 전달, 전단력을 바꾸므로, 10 L에서 들어맞던 모델은 새 규모에서 그 예측이 신뢰받기 전에 2,000 L에서 재자격화(re-qualify)되어야 합니다. 트윈을 둘러싼 소프트웨어 자체가 IQ/OQ/PQ — 설치 적격성, 운영 적격성, 성능 적격성, 시스템이 제대로 설치되고, 제대로 작동하며, 실제 작업 부하에서 제대로 수행됨을 입증하는 V-모델 검증 단계로, CSV에서 CSA로 장이 걷습니다 — 을 통해 커미셔닝되고 자격화되어야 하는 전산화 시스템입니다. 그 노력을 쓰는 현대적이고 위험 기반의 방법은 컴퓨터 소프트웨어 보증(Computer Software Assurance, CSA)입니다 — "모든 시험을 똑같이 문서화하라"에서, 환자에게 영향을 주는 기능에는 엄격한 스크립트 증명을, 사소한 기능에는 더 가벼운 비스크립트 점검을 두는 비판적 사고로의 FDA의 전환입니다. 인간에게 조언만 하도록 연결된 트윈은, CQA에 작용하도록 연결된 트윈보다 더 적은 위험과 더 가벼운 보증 부담을 집니다 — 나머지 검증이 얼마나 무거워야 하는지를 정하는 단 하나의 구분입니다.

모델 검증과 규제적 수용: 솔직한 한계

주의

트윈에는 실재하는 한계가 있고, 정직한 실무는 그것들을 분명히 말합니다. 트윈은 그 근간의 모델이 검증되어야 — 명시된 한도 안에서 실제 공정을 예측한다고 입증되어야 — 만 신뢰할 수 있는데, 규제되고 안전이 핵심인 환경에서의 검증은 어렵고 끝이 없습니다 [4][5]. 모델을 둘러싼 소프트웨어는 그 나름의 부담을 집니다. GMP(우수 제조 관리 기준(Good Manufacturing Practice) — 의약품 제조에 대한 법적 구속력이 있는 품질 규칙) 결정에 닿는 어떤 전산화 시스템이든 구속력 있는 전자 기록 규정인 21 CFR Part 11(미국)과 EU GMP Annex 11(EU)을 반드시 충족해야 하며, 통상 GAMP 5 같은 업계 소프트웨어 검증 지침을 따라 검증(validation)됩니다. 트윈의 출력을 출하나 제어 결정을 내리는 데 사용하는 것의 규제적 위상(regulatory status)은 아직 성숙 중입니다. 모델이 곧바로 GMP 결정의 인정된 근거가 되는 것은 아닙니다 [4]. 실시간 출하에는 정의된 경로가 있긴 합니다 — EMA의 실시간 출하 시험 가이드라인(Guideline on Real Time Release Testing)은 엄격하게 통제된 조건 아래 인프로세스 데이터로 배치를 인증하는 것을 허용합니다 [10] — 그러나 규제 기관이 먼저 그 모델과 그 배후의 공정 이해를 받아들여야 합니다. 그리고 데이터 지연(data latency)이 중요합니다. 실시간으로 공정을 조종하려는 트윈은 데이터가 몇 분 늦게 도착하면 쓸모가 없습니다 — 실시간 트윈의 가치는 그 피드의 신선도와 함께 무너집니다 [9]. 바이오제조 문헌은 진정한, 완전히 닫힌 루프(closed-loop)의 트윈은 일상적 실무라기보다 여전히 목표에 더 가깝다는 점을 솔직하게 밝힙니다 [2][4]. 모델이 그 GMP 신뢰를 어떻게 얻고 유지하는지 — FDA의 2023년 의약품 제조 AI 관련 사고, 위험 기반 CSA(Computer Software Assurance), 그리고 계속 학습하는 모델을 검증하는 일 — 는 머신러닝, 소프트 센서, 하이브리드 모델의 주제입니다.

스레드가 여전히 깨지는 곳: 지연과 사이트 간 계보

디지털 스레드를 해결된 엔지니어링 문제 — 스키마, 결합, 끝 — 로 취급하고 싶은 유혹이 있습니다. 별개의 배치를 돌리는 단일 사이트 공장에서는 거의 그렇습니다. 그러나 그것의 두 부분은 여전히 진정으로 어려우며, 정직한 실무는 그것들을 덮어두는 대신 분명히 말합니다.

첫째는 연속 처리에서의 계보 지연입니다. 위의 모든 해부는 배치가 루트 — BATCH-2026-001, 한 타임스탬프에 태어나 다른 타임스탬프에 닫힘 — 를 갖는다는 데 기댔습니다. 그 루트가 계보 기록의 경계를 짓고 그것을 질의 가능하게 만드는 것입니다. 연속 바이오공정은 바로 그 경계를 녹여 버립니다. 세포는 쉬지 않고 생산하고, 물질은 연결된 단위 작업들을 통해 흐르며, 계보를 봉인할 깔끔한 배치 종료 이벤트가 없습니다 [6]. 그 귀결은 타이밍 간극입니다. 제어 결정은 물질이 아직 흐르는 동안 지금 내려져야 하지만, 그 결정을 정당화하거나 맥락화할 계보는 그 실행의 인위적인 "배치" 창이 정의되고 닫히기 전까지 — 몇 시간 또는 한 교대조 뒤일 수 있습니다 — 완전히 질의 가능하지 않습니다. 결정이 기록을 앞지릅니다. 따라서 연속 공정을 조종하는 트윈은 아직 쓰이고 있는 계보를 두고 작용해야 하는데, 이는 완성된 계보를 질의하는 것과는 다르고 더 어려운 문제입니다.

둘째는 사이트 간 계보 가시성으로, 각 사이트 자신의 스레드가 건전할 때조차 실제 공장에서 계속 실패합니다. 텍스트 마이닝을 바이오제약 공정 최적화를 위한 제조 지식 그래프(knowledge graph)와 통합한 2026년의 한 연구는, 지식 그래프가 실제로 이질적이고 사일로화된 데이터를 질의 가능한 계보로 통합하고 숨겨진 파라미터-특성 관계를 드러낼 수 있음을 발견했습니다 — 그러나 같은 연구는 그 통합의 상당 부분이, 특히 제품 품질을 형성하는 세포주, 원자재, 제어 범위가 서로 다른 시스템에 사는 조직과 사이트 경계를 가로질러서는, 여전히 일상적 공장 인프라가 아니라 연구에 머물러 있음을 분명히 합니다 [11]. 네 벽 안의 스레드는 점점 다룰 수 있게 되고 있지만, 개발 사이트, 임상 공급 사이트, 상업 사이트 — 각각 자기만의 히스토리안, LIMS, 명명 규칙을 가진 — 를 가로질러야 하는 스레드에서 계보는 여전히 깨집니다. 구현 책의 지식 그래프 장의 그래프 기반 계보는 바로 공유 키가 아니라 의미로 시스템을 가로질러 계보를 결합할 수 있기에 가장 유망한 방향이지만, 기업을 가로질러 결합하는 것은 출시된 기능이 아니라 여전히 미해결 문제입니다.

이것들은 스레드를 포기할 이유가 아닙니다. 그것들은 스레드의 솔직한 최전선입니다 — 도해로서의 구성물과, 실제 제조 네트워크를 가로질러 끊김 없이 돌아가는 것으로서의 구성물 사이의 차이입니다.

핵심 용어

디지털 스레드(digital thread) — 의약품의 전체 수명주기를 잇는 하나의 연결된 추적 가능한 데이터 기록: 개발 → 공정 → 제품 → 환자.
배치 계보(batch genealogy) — 완성된 바이알을 그것을 만든 모든 자재, 파라미터, 결정까지 거슬러 추적할 수 있는 혈통. 스레드가 이를 질의 가능하게 만든다.
디지털 트윈(digital twin) — 실제 공정이나 자산의 가상 표현으로, 물리적 짝에서 나오는 데이터에 의해 지속적으로 갱신되며, 결정을 그것에 되먹일 수 있다.
디지털 모델(digital model) — 자동 데이터 연결이 없는 가상 표현. 손으로 갱신한다.
디지털 섀도(digital shadow) — 물리적 측에서 가상 측으로 향하는 일방향 자동 데이터 흐름을 가진 가상 표현. 비추지만 되받아 작용할 수는 없다.
서술형 / 예측형 / 처방형 트윈(descriptive / predictive / prescriptive twin) — 성숙도 사다리: 현재를 비추기, 미래를 예측하기, 해결책을 권고하거나 실행하기.
하이브리드 모델링(hybrid modeling) — 기계론적(첫 원리) 모델과 데이터 기반(머신러닝) 모델을 결합하는 것. 바이오공정 트윈의 핵심 조력자.
품질 설계 기반(Quality by Design, QbD) — 어떤 파라미터와 특성이 중요한지를 이해함으로써 품질을 의도적으로 처음부터 쌓아 넣는 것(스레드가 앞으로 연결하는 설계 측 지식).
QTPP / CQA / CPP — 목표 제품 품질 프로파일(Quality Target Product Profile, 의약품이 환자에게 무엇을 해야 하는지), 범위 내에 유지되어야 하는 핵심 품질 특성, 그리고 그것들을 제어하는 핵심 공정 파라미터. 스레드가 앞으로 연결하는 설계 측 지식(ICH Q8(R2)).
설계 공간(design space) — 허용 가능한 제품을 신뢰할 수 있게 산출하는, 입증된 공정 조건의 영역.
ISA-95 — 현장 제어에서 제조 실행(MES 계층)을 거쳐 기업 시스템까지 통합하기 위한 정전적 모델을 제공하는 표준.
OPC UA — 측정값을 그 데이터 타입 및 공학 단위와 함께 실어 나르는 벤더 중립적 산업 표준. 그래서 값이 스스로를 설명하며 도착한다.
모델 기반 제어(model-based control) — 마지막 센서 측정값에만 반응하는 대신, 모델의 예측에 따라 공정을 조종하는 것.
PAT(공정 분석 기술, Process Analytical Technology) — 핵심 특성을 실시간으로 측정하기 위한 FDA 프레임워크. 실시간 트윈이 의존하는 감지 기반.
실시간 출하(real-time release) — 라인 끝 실험실 시험을 기다리는 대신, 배치가 만들어지는 동안의 인프로세스(in-process) 데이터로 그 배치를 인증하는 것.
연속 바이오공정(continuous bioprocessing) — 물질이 별개의 배치로 멈추는 대신 연결된 작업들을 통해 쉬지 않고 흐르는 제조.
derivedFrom 에지 — 배치를 그 상류 부모 자재로 가리키는, 계보 기록 안의 방향성 있는 자식-부모 링크. 추적 가능한 계보의 단위로, 데이터베이스 행이나 RDF 트리플로 표현될 수 있다.
계보 지연(genealogy latency) — 연속 처리에서 첨예한, 제어 결정이 내려져야 하는 시점과 그것을 정당화할 계보가 완전히 질의 가능해지는 시점 사이의 타이밍 간극.
동적 결합 용량(dynamic binding capacity, DBC) — 제품이 결합하지 않은 채 빠져나가기 전에 단백질 A 수지 1리터가 담을 수 있는 항체의 양. 수지가 오염됨에 따라 사이클마다 떨어지며, 이를 예측하는 것은 전형적인 하류 트윈 작업이다.
역량 질문(competency question) — 데이터 모델이 답할 수 있어야 하는, 합격/불합격 인수 시험으로 쓰이는 평이한 질문. 공유 운명 계보 질의는 SPARQL로 표현된 한 예이다.
SHACL(셰이프 제약 언어, Shapes Constraint Language) — 그래프 데이터가 요구된 구조를 갖추었는지 검증하는 어휘. 필요한 출하 상태나 서명이 빠진 로트를 실패시키는 폐쇄 세계 게이트로, 개방 세계 추론기라면 그저 알 수 없음으로 부를 것이다.
ALCOA+ — 데이터가 신뢰받기 위해 충족해야 하는 데이터 무결성 기대치: 귀속 가능(Attributable), 읽을 수 있음(Legible), 동시적(Contemporaneous), 원본(Original), 정확(Accurate), 더하여 완전(Complete), 일관(Consistent), 영속(Enduring), 가용(Available).
그룹화(배치 단위 제외, leave-one-batch-out) 교차 검증 — 무작위 행이 아니라 배치 전체를 떼어 놓고 바이오공정 모델을 검증하는 것. 같은 실행의 독립적이지 않은 행들 사이의 누출로 점수가 부풀려지지 않게 한다.
적용 범위(applicability domain) — 모델이 학습된 영역 밖에 놓인 입력을 표시하여, 자신만만한 외삽을 가시적인 경고로 바꾸는 가드.
공정 드리프트 대 모델 드리프트(process drift vs. model drift) — 살아 있는 배양이 진정으로 변하는 것 대 공정은 멀쩡한데 트윈이 낡아 가는 것. 둘은 서로 다른 계기와 서로 다른 대응을 필요로 한다.
IQ/OQ/PQ — 설치 적격성, 운영 적격성, 성능 적격성: 전산화 시스템이 실제 작업 부하에 대해 제대로 설치되고, 작동하며, 수행됨을 입증하는 V-모델 검증 단계.
컴퓨터 소프트웨어 보증(Computer Software Assurance, CSA) — 모든 시험을 똑같이 문서화하는 것에서, 환자 안전과 제품 품질에 대한 기능의 영향에 검증 엄격성을 맞추는 비판적 사고로의 FDA의 위험 기반 전환.

이 다음은

디지털 트윈의 예측형·처방형 능력은 마법처럼 나타나지 않습니다 — 그것들은 스레드가 실어 나르는 바로 그 데이터에 적용된 분석으로부터 지어집니다. 그러므로 자연스러운 다음 행보는 그 분석을 배우는 것입니다. 다음 장 데이터에서 지식으로: SPC, 다변량 분석, 지속적 공정 검증은 관리된 데이터를 제어로 바꾸는 고전적 방법들로 향합니다. 한 번에 한 변수를 지켜보는 단변량 통계적 공정 관리(Statistical Process Control, SPC), 다변량 데이터 분석(Multivariate Data Analysis, MVDA) — PCA(주성분 분석(principal component analysis))와 PLS(부분 최소제곱(partial least squares)), 여러 변수를 한 번에 가로질러 패턴을 찾는 두 가지 방법 — 그리고 여러 변수를 함께 지켜보는 다변량 SPC, 그리고 모든 배치를 영원히 모니터링하라는 규제적 의무인 지속적 공정 검증(Continued Process Verification, CPV)입니다. 관리된 데이터는 쓰이기 위해 존재합니다. 이제 그것을 쓰는 법을 배웁니다.

이 장에서 다루는 내용​

디지털 스레드: 설계에서 환자까지 하나로 연결된 기록​

배치 계보: 종이 보물찾기에서 질의 가능한 기록으로​

배치 계보 기록의 해부​

의미론적 트리플이자 검증된 셰이프로서의 같은 기록​

디지털 트윈: 실제 데이터가 먹여 살리는 살아 있는 모델​

세 가지 성숙도 수준: 모델, 섀도, 트윈​

하류 트윈: 생물반응기뿐 아니라 단백질 A 포획​

기반 없이는 트윈이 실패하는 이유​

하이브리드 기계론 더하기 데이터 모델링​

왜 중요한가​

현실 세계에서​

데이터 자체의 제약 아래에서 모델을 검증하기​

검증된 모델을 기술 이전을 통해 운반하기, CSA 아래에서​

모델 검증과 규제적 수용: 솔직한 한계​

스레드가 여전히 깨지는 곳: 지연과 사이트 간 계보​

핵심 용어​

이 다음은​