디지털 스레드와 디지털 트윈
📍 현재 위치: 4부, 마지막 장 — 온톨로지와 FAIR를 통해 데이터에 공유된 의미를 부여하는 법을 배웠으니, 이제 그렇게 연결되고 의미를 갖춘 데이터가 무엇을 가능하게 하는지 살펴봅니다. 바로 전체 수명주기를 관통하는 하나의 추적 가능한 실, 그리고 그 실이 먹여 살리는 살아 있는 모델입니다.
이전 장 온톨로지와 FAIR 데이터는 데이터를 연결하기 위한 가장 깊이 있는 도구들을 우리에게 주었습니다. 온톨로지(ontology)(용어가 무엇을 의미하는지에 대한 형식적이고 공유된 모델 — 그 클래스, 그 관계, 상위 기반인 BFO, 그리고 BMIC(바이오제약 제조 산업 협의회, Biopharmaceutical Manufacturing Industry Council — 온톨로지의 이름이 아니라 거버넌스를 담당하는 기구)가 개발한 도메인 수준의 IOF 바이오제약 온톨로지)와 FAIR 원칙(데이터를 찾을 수 있게(Findable), 접근할 수 있게(Accessible), 상호운용 가능하게(Interoperable), 재사용 가능하게(Reusable) 만드는 것)입니다. 이 도구들은 목적지가 아닙니다. 그것들은 베틀입니다. 이 장은 그 베틀로 짜내는 옷감에 관한 이야기입니다.
거버넌스가 적용되고 연결되어 의미론적으로 유의미한 데이터가 의약품의 전체 수명주기에 걸쳐 흐를 때 — 첫 설계 결정에서부터 그 용량을 투여받는 환자에 이르기까지 — 두 가지 강력한 일이 가능해집니다. 첫째는 디지털 스레드(digital thread)입니다. 모든 단계를 잇는 하나의 연속적이고 추적 가능한 기록입니다. 둘째는 디지털 트윈(digital twin)입니다. 그 스레드를 통해 흐르는 실제 데이터에 의해 최신 상태로 유지되는, 공정이나 장비의 살아 있는 가상 모델입니다. 둘 다 앞선 장들에서 다룬 모든 것에 대한 보상입니다. 그리고 둘 다 그것들을 먹여 살리는 데이터만큼만 좋습니다.
주문 제작한 집을 떠올려 보세요. 디지털 스레드는 건축업자가 보관하는 완전하고 연결된 파일입니다. 건축가의 설계도, 모든 자재의 영수증, 검사관의 승인, 그리고 석고보드를 붙이기 전 모든 벽의 사진 — 이 모두가 연결되어 있어 "왜 이 보가 여기에 있지?"라고 물으면 진짜 답을 얻을 수 있습니다. 디지털 트윈은 그 위에 얹힌 스마트홈 모델입니다. 집의 가상 복제본으로서, 센서로부터 실시간 데이터를 받아 보일러가 고장 나기 전에 곧 고장 날 것임을 알려주고, 온도조절기를 높이면 어떤 일이 벌어질지 시뮬레이션할 수 있습니다. 하나는 연결된 기록이고, 다른 하나는 그 기록이 가능하게 만드는 살아 있는 모델입니다.
이 장에서 다루는 내용
- 디지털 스레드 — 무엇인지, 그리고 어떻게 마침내 배치 계보(batch genealogy)를 실현하는지
- 디지털 트윈 — 그리고 서술형에서 처방형에 이르는 세 가지 성숙도 수준
- 둘 다 요구하는 것 — 그리고 앞선 장들의 기반 없이는 왜 실패하는지
- 무엇에 좋은지 — 제어, 가정 시나리오(what-if), 더 빠른 기술 이전
- 그것들의 솔직한 한계 — 모델 검증, 규제적 위상, 데이터 지연
디지털 스레드: 설계에서 환자까지 하나로 연결된 기록
우리는 이 책 전반에 걸쳐 한 배치의 이야기 조각들을 만났습니다 — 설계 결정, 센서 추적 데이터, 실험실 결과, 자재의 계보. 각각은 자기만의 시스템에서, 자기만의 형식으로 존재했습니다. 디지털 스레드는 이 모두를 하나의 추적 가능한 종단 간(end-to-end) 기록으로 연결하려는 야심입니다. 개발 → 공정 → 제품 → 환자, 모든 단계가 그 앞뒤의 단계와 연결됩니다.
수명주기를 하나의 사슬로 그려 보세요. 설계 끝에는 품질 설계 기반(Quality by Design, QbD) — 품질을 나중에 시험으로 걸러내는 대신 의도적으로 처음부터 쌓아 넣는 개발 철학 — 아래 만들어진 지식이 있습니다. 가이드라인 ICH Q8(R2) 하에서 팀은 목표 제품 품질 프로파일(Quality Target Product Profile, QTPP)(의약품이 환자에게 무엇을 해야 하는지)을 정의하고, 핵심 품질 특성(critical quality attributes, CQAs)(범위 내에 유지되어야 하는 제품 속성)을 식별하며, 이를 제어하는 **핵심 공정 파라미터(critical process parameters, CPPs)**가 무엇인지 파악하고, 설계 공간(design space) — 좋은 제품을 신뢰할 수 있게 산출하는, 입증된 조건의 영역 — 을 지도화합니다 [8]. 공정 끝에는 각 제조 실행에서 나오는 센서 스트림과 배치 기록이 있습니다. 제품 끝에는 출하 시험이 있습니다. 그리고 그 너머, 원칙적으로는, 환자 결과(outcomes)가 있습니다.
디지털 스레드는 그 사슬을 어느 방향으로든 걸어갈 수 있게 해주는 결합 조직입니다. 이것이 바로 배치 계보(batch genealogy) — 완성된 바이알을 그것을 만든 모든 자재, 파라미터, 결정까지 거슬러 추적할 수 있는 혈통 — 를 종이 더미를 뒤지는 보물찾기가 아니라 질의 가능한 현실로 마침내 만들어 주는 것입니다. 스레드가 갖춰지면, 모든 공정 과학자가 묻고 싶지만 깔끔하게 답할 수 있는 이는 드문 질문을 던질 수 있습니다. 어떤 조건이 최고의 제품을 만들었는가? 구체적으로, *"pH가 7.0에서 7.4 사이에 머물렀고 그리고 용존 산소가 40% 이상을 유지했으며 그리고 최종 순도가 95%를 넘은 모든 배치를 보여 달라"*와 같은 질의는 히스토리안의 센서 태그(BR101.pH.PV, BR101.DO.PV)를 LIMS의 순도 결과와 결합하여, 가령 조건에 부합하는 12개의 배치를 반환합니다 — 서로 대화하도록 설계된 적이 없는 시스템들을 가로지르는 결합이며, 스레드 없이는 그저 불가능한 일입니다.
디지털 스레드는 모든 수명주기 단계를 하나의 기록으로 연결하여, 앞으로(원인에서 결과로) 또는 뒤로(결과에서 원인으로) 걸어갈 수 있게 합니다. 계보는 더 이상 검색이 아니라 질의가 됩니다.
스레드가 중요한 또 다른 이유는, 수명주기가 늘 별개의 배치들이 깔끔하게 이어지는 순서는 아니기 때문입니다. 연속 바이오공정(continuous bioprocessing) — 세포가 쉬지 않고 생산하고 물질이 단일 탱크에 멈추는 대신 연결된 단위 작업들을 통해 연속적으로 흐르는 공정 — 에서는 기록의 경계를 지을 깔끔한 "배치의 끝"이 존재하지 않습니다 [6]. 애초에 "배치"가 무엇인지를 정의하는 일, 그리고 끊김 없는 흐름 속에서 계보를 추적하는 일은 스레드가 풀어야 할 데이터 문제가 됩니다 [6].
디지털 트윈: 실제 데이터가 먹여 살리는 살아 있는 모델
디지털 스레드는 기록입니다 — 풍부하지만 근본적으로는 무슨 일이 일어났는지에 대한 서술입니다. 디지털 트윈은 한 걸음 더 나아갑니다. 실제 사물 — 생물반응기, 정제 단계, 공정 전체 — 의 가상 표현으로서, 그 물리적 짝에서 나오는 데이터에 의해 지속적으로 갱신되어 가상 버전이 실제 버전과 보조를 맞춰 유지됩니다 [1]. 이 개념은 마이클 그리브스(Michael Grieves)가 2002년경 제품 수명주기를 아우르는, 물리적-가상 짝을 이룬 시스템으로 처음 정식화했습니다 [1]. 디지털 스레드는 사실상 실제 시스템이 자기 트윈을 정직하게 유지하도록 하는 통로입니다.
핵심 단어는 지속적으로입니다. "디지털 트윈"이라 불리는 많은 시스템은 사실 그렇지 않습니다. 신중한 분류 체계는 물리적 버전과 가상 버전 사이에서 데이터가 어떻게 흐르는지에 따라 세 가지를 구분합니다 [2]:
- **디지털 모델(digital model)**은 자동 데이터 연결이 없습니다 — 손으로 갱신하는 시뮬레이션입니다. 실제 반응기를 바꿔도 모델은 알아차리지 못합니다.
- **디지털 섀도(digital shadow)**는 물리적 측에서 가상 측으로 향하는 일방향 자동 흐름을 가집니다. 모델은 실시간 데이터로 스스로를 갱신하지만, 공정에 되받아 작용할 수는 없습니다.
- 엄밀히 정의된 **디지털 트윈(digital twin)**은 양방향 자동 흐름을 가집니다. 가상 버전은 실시간으로 실제 버전을 비출 뿐 아니라, 결정이나 명령을 그것에 되먹일 수 있습니다 [2].
이 구분은 현학이 아닙니다. 업계가 "트윈"으로 마케팅하는 것의 상당수는 실은 모델이거나 섀도입니다 [2][4] — 그리고 그 차이를 아는 것이 특정 시스템이 무엇을 할 수 있고 무엇을 할 수 없는지를 정확히 알려줍니다.
트윈에는 야심의 수준도 존재합니다. 유용한 사다리는 서술형(descriptive) → 예측형(predictive) → 처방형(prescriptive)으로 이어집니다:
- **서술형 트윈(descriptive twin)**은 현재 상태를 비춥니다 — 공정이 지금 무엇을 하고 있는지에 대한 실시간의 충실한 그림입니다.
- **예측형 트윈(predictive twin)**은 다음에 무슨 일이 일어날지 예측합니다 — CQA가 어디로 향하는지, 컬럼이 언제 막힐지를 말입니다.
- **처방형 트윈(prescriptive twin)**은 가장 멀리 나아갑니다. 공정을 목표에 유지하는 시정 조치를 권고하거나 직접 실행합니다.
특히 바이오제조에 관해서는, 검토자들이 완전한 트윈은 여전히 열망에 머물러 있다고 경고하며, 단일한 도약 대신 단계적 경로 — 기본적인 정상상태 모델에서부터 데이터 통합과 예측력을 점진적으로 높여 가는 길 — 를 제안합니다 [4].
*섀도(shadow)*라는 단어가 이 책에서 다른 의미로 반복된다는 점에 유의하세요. 1장의 **데이터 섀도(data shadow)**는 한 배치가 드리우는 기록의 총체입니다 — 센서 추적 데이터, 서명, 결과로 이루어진, 무슨 일이 일어났는지에 대한 기록입니다. 여기서의 **디지털 섀도(digital shadow)**는 다른 것입니다. 공정으로부터 스스로를 갱신하지만 되받아 작용할 수는 없는, 실시간 일방향 모델입니다. 둘은 그저 단어를 공유할 뿐입니다. 서술형 트윈은 실시간 거울 층이고, 예측형 트윈은 공정이 어디로 향하는지 예측하며, 처방형 트윈은 그 모델들 — 5부의 분석 — 이 공정에 되받아 작용하기 시작하는 지점입니다.
기반 없이는 트윈이 실패하는 이유
디지털 트윈은 그것을 먹여 살리는 데이터 스레드만큼만 신뢰할 수 있습니다 — 그리고 그 스레드는 이 책의 앞선 모든 부에서 다룬 것들로 지어집니다. 이것이 이 장의 핵심 주장이므로, 그 의존성을 명시적으로 밝힐 가치가 있습니다. 그 이유를 보려면, 아무런 기초 작업도 되어 있지 않은 공정에 순진하게 트윈을 갖다 붙인 모습을 상상해 보세요 — 빠진 기반이 하나씩 무엇을 망가뜨리는지를 여기서 살펴봅니다.
첫째, 통합된 데이터 소스(integrated data sources)(2부)입니다. 생물반응기의 트윈은 그것의 실시간 센서 스트림을 필요로 하고, 공정 전체의 트윈은 기기, 제어 시스템, 공장 정보 시스템에서 나오는 데이터를 한데 꿰매야 합니다. 기업 통합 표준 ISA-95는 정보를 수직으로 — 현장 제어에서 제조 실행을 거쳐 기업 시스템까지, 그리고 다시 아래로 — 옮기기 위한 정전(正典)적 모델을 제공합니다 [7]. 실무에서 그 전송 계층의 교환은 흔히 OPC UA(Open Platform Communications Unified Architecture) 위에서 이루어지는데, 이는 값뿐 아니라 그 데이터 타입과 공학 단위까지 함께 실어 나르는 벤더 중립적 산업 표준입니다 — 그래서 측정값은 의미를 트윈이 추측해야 하는 맨숫자가 아니라 *"22.5, type Double, unit °C"*로 도착합니다. 그 수직 통합이 없으면 트윈은 자기가 볼 수 있는 센서 위로는 눈이 멀어 있습니다.
둘째, 감지(sensing) 그 자체입니다. 실시간 트윈은 중요한 것들에 대한 실시간 측정을 필요로 합니다. FDA의 공정 분석 기술(Process Analytical Technology, PAT) 프레임워크는 바로 핵심 품질·공정 특성을 공정이 진행되는 동안 측정하려는 추진력이며, 어떤 실시간 섀도나 트윈도 이에 의존합니다 [9]. PAT가 없으면 실시간 데이터가 없고, 실시간 데이터가 없으면 트윈도 없습니다 — 오직 모델만 있을 뿐입니다.
셋째, 무결성과 거버넌스(integrity and governance)(3부)입니다. 먹이는 데이터가 귀속 가능(attributable)하고 동시적(contemporaneous)이며 보호되지 않으면, 트윈은 허구를 충실하게 모델링합니다. 거버넌스는 트윈이 누구의 데이터를 신뢰할지를 결정합니다.
넷째, 의미론과 FAIR(semantics and FAIR)(4부 — 우리가 지금 닫고 있는 부)입니다. 여러 시스템의 데이터를 융합하는 트윈은, 그들의 "온도"와 자신의 "온도"가 같은 단위로 같은 용기에 대해 같은 것을 의미한다는 것을 알아야 합니다. 그 공유된 의미야말로 온톨로지와 FAIR의 상호운용성(Interoperable)이 제공하는 바로 그것입니다. 시스템 간 데이터 융합은 산업용 트윈의 핵심 의존성으로 거론됩니다 [3].
바이오제조에서 이를 묶어 주는 기술은 **하이브리드 모델링(hybrid modeling)**입니다 — 기계론적 모델(첫 원리 과학에서 나온 방정식)과 데이터 기반 머신러닝 모델을 결합하는 것입니다. 순수하게 기계론적인 모델은 생물학의 지저분함을 담아낼 수 없고, 순수하게 경험적인 모델은 학습된 데이터 밖에서는 신뢰할 수 없기 때문입니다 [5].
이것은 더 이상 순전히 학술적인 이야기만은 아닙니다. 상용 플랫폼들이 이제 이를 현장용으로 묶어 제공합니다 — 지멘스(Siemens) gPROMS와 아스펜테크(AspenTech)의 Aspen Hybrid Models는 기계론 더하기 데이터 모델을 구축하며, DataHow(DataHowLab) 같은 바이오공정 전문 기업은 세포 배양 트윈을 직접 겨냥합니다.
왜 중요한가
여기 데이터 관리 차원의 귀결을 평이하게 말하면 이렇습니다. 디지털 스레드와 디지털 트윈은 새로운 데이터 소스가 아닙니다 — 그것들은 여러분의 기존 데이터 전부가 마침내 연결되고, 신뢰할 수 있고, 의미를 갖췄을 때 비로소 가능해지는 것입니다. 어떤 의미에서 앞선 모든 장은 이를 위한 준비였습니다. 무결성 없는 통합은 빠르게 움직이는 거짓을 줍니다. 의미론 없는 무결성은 아무도 결합할 수 없는 신뢰할 만한 데이터를 줍니다. 거버넌스 없는 의미론은 합의된 진실의 원천이 없는 아름다운 모델을 줍니다. 스레드와 트윈은 그 모두를 동시에 요구하는 구성물입니다 — 그래서 그것들은 한 조직의 데이터 관리가 실제로 작동하는지를 가늠하는 가장 참된 시험입니다.
현실 세계에서
디지털 트윈의 해부: 실제 데이터 스레드로 살아 움직이는 모델이 의사결정을 되먹입니다.
저자 원본 도해(AI 보조로 제작).
이 구성물들이 바이오제조 기업에게 실제로 무엇을 가져다주는 것일까요? 몇 가지 구체적인 것들입니다. 예측형 또는 처방형 트윈은 **모델 기반 제어(model-based control)**를 가능하게 합니다 — 센서가 이미 읽은 것에만 반응하는 대신, 모델의 예측에 따라 공정을 조종하는 것입니다 [3][5]. 그것은 **가정 시나리오(what-if scenarios)**를 가능하게 합니다 — 실제의 값비싼 물질을 위험에 빠뜨리기 전에 제안된 변경을 인 실리코(in silico)(컴퓨터 안에서) 시험하는 것입니다 [3]. 그것은 **기술 이전과 규모 확대(technology transfer and scale-up)**를 가속합니다 — 공정을 처음부터 다시 학습하는 대신 검증된 모델을 레시피와 함께 들고 다님으로써, 공정을 소규모 개발 반응기에서 대규모 제조 반응기로, 또는 사이트 간에 옮기는 것입니다 [4]. 그리고 그것은 **실시간 출하(real-time release)**를 예고합니다 — 라인 끝 실험실 시험을 기다리는 대신, 배치가 만들어지는 동안의 인프로세스(in-process) 데이터로 그 배치를 인증하는 것입니다 — 충분히 이해되고 실시간으로 모니터링되는 공정이, 모든 라인 끝 시험을 며칠씩 기다리는 대신 공정 이해에 근거해 제품을 출하하는 것을 뒷받침할 수 있는 것입니다 [9].
이것이 바로 미국 NIIMBL 기관(바이오제약 제조 혁신을 위한 국가 기관, National Institute for Innovation in Manufacturing Biopharmaceuticals)이 진전을 돕고 있는 영역입니다 — 바이오제조 혁신을 성숙시키기 위해 델라웨어 대학교에 건설 중인 파일럿 규모 cGMP 시설인 그 SABRE 센터를 통해, 그 작업을 규모 확대하고 위험을 줄일 터전을 마련하게 될 것이며, 이는 스레드-트윈 비전이 더 가치 있으면서도 더 까다로워지는 지점입니다. 표준 기구들은 그 레일을 깔고 있습니다. 기업 통합을 위한 ISA-95 [7], 그리고 트윈이 스스로 생성하지 않은 데이터를 융합하게 해주는 의미를 위한 앞 장의 FAIR 및 온톨로지 작업입니다.
트윈에는 실재하는 한계가 있고, 정직한 실무는 그것들을 분명히 말합니다. 트윈은 그 근간의 모델이 검증되어야 — 명시된 한도 안에서 실제 공정을 예측한다고 입증되어야 — 만 신뢰할 수 있는데, 규제되고 안전이 핵심인 환경에서의 검증은 어렵고 끝이 없습니다 [4][5]. 모델을 둘러싼 소프트웨어는 그 나름의 부담을 집니다. GMP 결정에 닿는 어떤 전산화 시스템이든 구속력 있는 전자 기록 규정인 21 CFR Part 11과 EU GMP Annex 11을 반드시 충족해야 하며, 통상 GAMP 5 같은 업계 지침을 따라 검증(validation)됩니다. 트윈의 출력을 출하나 제어 결정을 내리는 데 사용하는 것의 **규제적 위상(regulatory status)**은 아직 성숙 중입니다. 모델이 곧바로 GMP 결정의 인정된 근거가 되는 것은 아닙니다 [4]. 실시간 출하에는 정의된 경로가 있긴 합니다 — EMA의 *실시간 출하 시험 가이드라인(Guideline on Real Time Release Testing)*은 엄격하게 통제된 조건 아래 인프로세스 데이터로 배치를 인증하는 것을 허용합니다 [10] — 그러나 규제 기관이 먼저 그 모델과 그 배후의 공정 이해를 받아들여야 합니다. 그리고 **데이터 지연(data latency)**이 중요합니다. 실시간으로 공정을 조종하려는 트윈은 데이터가 몇 분 늦게 도착하면 쓸모가 없습니다 — 실시간 트윈의 가치는 그 피드의 신선도와 함께 무너집니다 [9]. 바이오제조 문헌은 진정한, 완전히 닫힌 루프(closed-loop)의 트윈은 일상적 실무라기보다 여전히 목표에 더 가깝다는 점을 솔직하게 밝힙니다 [2][4].
핵심 용어
- 디지털 스레드(digital thread) — 의약품의 전체 수명주기를 잇는 하나의 연결된 추적 가능한 데이터 기록: 개발 → 공정 → 제품 → 환자.
- 배치 계보(batch genealogy) — 완성된 바이알을 그것을 만든 모든 자재, 파라미터, 결정까지 거슬러 추적할 수 있는 혈통. 스레드가 이를 질의 가능하게 만든다.
- 디지털 트윈(digital twin) — 실제 공정이나 자산의 가상 표현으로, 물리적 짝에서 나오는 데이터에 의해 지속적으로 갱신되며, 결정을 그것에 되먹일 수 있다.
- 디지털 모델(digital model) — 자동 데이터 연결이 없는 가상 표현. 손으로 갱신한다.
- 디지털 섀도(digital shadow) — 물리적 측에서 가상 측으로 향하는 일방향 자동 데이터 흐름을 가진 가상 표현. 비추지만 되받아 작용할 수는 없다.
- 서술형 / 예측형 / 처방형 트윈(descriptive / predictive / prescriptive twin) — 성숙도 사다리: 현재를 비추기, 미래를 예측하기, 해결책을 권고하거나 실행하기.
- 하이브리드 모델링(hybrid modeling) — 기계론적(첫 원리) 모델과 데이터 기반(머신러닝) 모델을 결합하는 것. 바이오공정 트윈의 핵심 조력자.
- 품질 설계 기반(Quality by Design, QbD) — 어떤 파라미터와 특성이 중요한지를 이해함으로써 품질을 의도적으로 처음부터 쌓아 넣는 것(스레드가 앞으로 연결하는 설계 측 지식).
- 설계 공간(design space) — 허용 가능한 제품을 신뢰할 수 있게 산출하는, 입증된 공정 조건의 영역.
- ISA-95 — 현장 제어에서 제조 실행을 거쳐 기업 시스템까지 통합하기 위한 정전적 모델을 제공하는 표준.
- PAT(공정 분석 기술, Process Analytical Technology) — 핵심 특성을 실시간으로 측정하기 위한 FDA 프레임워크. 실시간 트윈이 의존하는 감지 기반.
- 실시간 출하(real-time release) — 라인 끝 실험실 시험을 기다리는 대신, 배치가 만들어지는 동안의 인프로세스(in-process) 데이터로 그 배치를 인증하는 것.
- 연속 바이오공정(continuous bioprocessing) — 물질이 별개의 배치로 멈추는 대신 연결된 작업들을 통해 쉬지 않고 흐르는 제조.
이 다음은
디지털 트윈의 예측형·처방형 능력은 마법처럼 나타나지 않습니다 — 그것들은 스레드가 실어 나르는 바로 그 데이터에 적용된 분석으로부터 지어집니다. 그러므로 자연스러운 다음 행보는 그 분석을 배우는 것입니다. 다음 장 데이터에서 지식으로: SPC, 다변량 분석, 지속적 공정 검증은 관리된 데이터를 제어로 바꾸는 고전적 방법들로 향합니다. 한 번에 한 변수를 지켜보는 단변량 통계적 공정 관리(Statistical Process Control, SPC), 다변량 데이터 분석(Multivariate Data Analysis, MVDA) — PCA와 PLS — 그리고 여러 변수를 함께 지켜보는 다변량 SPC, 그리고 모든 배치를 영원히 모니터링하라는 규제적 의무인 **지속적 공정 검증(Continued Process Verification, CPV)**입니다. 관리된 데이터는 쓰이기 위해 존재합니다. 이제 그것을 쓰는 법을 배웁니다.