공장 정보 시스템: 히스토리안, MES, LIMS, ELN
📍 현재 위치: 우리는 자동화 계층보다 한 층 위로 올라가, 각자 공장 데이터의 한 조각씩을 소유한 네 개의 정보 시스템 — 히스토리안(historian), MES, LIMS, ELN — 을 만납니다.
앞 장 자동화와 공정 제어 데이터에서 우리는 기계실 바닥에 자리를 잡았습니다. 공정을 운전하며 설정값, 알람, 이벤트, 레시피를 ISA-88 배치 제어 표준에 따라 구조화하여 내보내는 PLC, DCS, SCADA 시스템들이 거기 있었지요. 이 시스템들은 그 순간에 행동 하는 데에는 뛰어납니다. 하지만 단 1초어치의 센서 측정값도 무언가가 그것을 붙잡아, 저장하고, 의미를 부여하며, 여러 해 동안 보관해 주지 않는다면 쓸모가 없습니다. 그 "무언가"는 하나의 시스템이 아닙니다 — 그것은 제어기들 위층에 자리 잡은 시스템들의 성좌(星座)이며, 저마다 자기만의 방언을 씁니다.
이 장은 그 성좌의 네 구성원을 소개합니다. 공정 히스토리안(process historian)(시계열 데이터), MES(배치 실행), LIMS와 ELN(실험실의 세계), 그리고 몇몇 중요한 친척들입니다. 각자는 진실의 서로 다른 조각을 소유합니다. 그리고 그것들 사이 의 틈새 — 통합의 이음매(integration seam) — 야말로 이 책 전체가 자신의 핵심 문제를 발견하는 곳입니다.
한 명의 환자를 기록하는 병원을 상상해 보세요. 침대 곁의 심장 모니터는 매초 끊임없는 곡선을 그려 냅니다(이것이 히스토리안입니다). 간호사는 공식 치료 차트를 채우며, 의사의 지시에 맞춰 단계마다 서명으로 확인합니다(이것이 MES입니다). 실험실은 혈액 검사 결과를 자기만의 시스템에 정리해 둡니다(이것이 LIMS입니다). 그리고 연구자는 그 과정에서 시도한 실험들을 노트에 적어 둡니다(이것이 ELN입니다). 넷 모두 같은 환자를 묘사하지만 — 서로 자동으로 대화하지 않으며, 각자 그 환자를 다른 이름으로 부릅니다.
이 장에서 다루는 내용
우리는 각 시스템을 차례로 만나 — 그것이 무엇이고, 어떤 데이터를 소유 하며, 왜 따로 존재하는지를 살펴본 다음 — 한 걸음 물러나 통합의 이음매와 그 이음매를 따라 생겨나는 사일로(silo)를 보겠습니다.
하나의 물리적 공장, 여러 정보 시스템 — 데이터의 가치는 시스템들 사이의 이음매에 있습니다.
저자 원본 도해(AI 보조로 제작).
공정 히스토리안: 매초를 기억하기
공정 히스토리안(process historian) 은 한 가지 일을 위해 만들어진 데이터베이스입니다. 바로 시계열 데이터(time-series data) — 측정값의 긴 흐름으로, 각 값에는 그것이 측정된 정확한 시각이 찍혀 있습니다 — 를 저장하는 일이지요. 공장에서 측정되는 모든 지점 — 온도 탐침, pH 전극, 유량계 — 은 하나의 태그(tag), 즉 분당 여러 번 값을 만들어 내는 이름 붙은 채널입니다. 태그는 사람(그리고 기계)이 한눈에 해독할 수 있도록 구조화된 명명 규칙을 따릅니다. 예를 들어 BR-201.Temp.PV 라는 태그는 바이오리액터 201, 온도, 공정값(process value) 으로 읽히고, BR-201.Temp.SP 는 같은 탐침의 설정값(setpoint)을 뜻합니다. 중간 규모의 바이오 제조 라인은 수만 개의 태그를 보유할 수 있으며, 그중 가장 빠른 것은 매초 또는 그보다 더 자주 값을 만들어 냅니다. 한 달에 걸친 한 차례 생산 캠페인 동안 이는 수십억 개의 데이터 포인트로 쌓입니다 — 1만 개의 태그가 각각 매초 한 번씩 표본을 뜬다면, 단 한 번의 30일 운전만으로도 약 260억 개에 이르지요.
저장되는 각 포인트는 단순한 숫자 이상입니다. 히스토리안의 한 행은 타임스탬프, 태그, 값, 그리고 기기가 보고할 때 정상이었는지를 알려 주는 품질(quality) 플래그를 함께 담습니다.
2024-06-13T14:03:07.123Z,BR-201.Temp.PV,36.8,GOOD
2024-06-13T14:03:08.123Z,BR-201.Temp.PV,36.8,GOOD
2024-06-13T14:03:09.123Z,BR-201.pH.PV,7.02,GOOD
그냥 평범한 관계형 데이터베이스(대부분의 업무용 소프트웨어가 돌아가는, 스프레드시트와 비슷한 표 형태)를 쓰면 안 되는 이유는 무엇일까요? 관계형 데이터베이스는 그런 소방 호스 같은 쓰기 부하 아래에서 주저앉고, 모든 원시 포인트를 저장하는 것은 비용이 감당할 수 없을 만큼 크기 때문입니다. OSIsoft PI(현 AVEVA PI System) — 바이오제약 업계에서 가장 널리 쓰이는 히스토리안 가운데 하나 — 를 비롯해 GE Proficy Historian, Honeywell PHD 같은 상용 히스토리안은 수만 개의 태그를 받아들이고 여러 해에 걸친 그 데이터를 가로질러 질의에 답하도록 특별히 설계되었습니다. 이들은 용량 문제를 압축(compression) 으로 해결합니다 — 고전적으로는 스윙잉 도어(swinging-door)(및 관련된 데드밴드) 알고리즘이 그것으로, 정해진 허용 오차 안에서 신호를 재구성하는 데 필요한 포인트만 남기고 그 사이의 중복된 포인트는 버립니다. 예컨대 스윙잉 도어 압축은 투영된 추세선 주위로 정해진 데드밴드 안에 드는 포인트를 버립니다. 그 결과 곡선의 모양은 보존하면서도 저장 공간은 엄청나게 절약됩니다.
그 절충은 데이터 무결성(data integrity)의 문제이기도 합니다. pH 탐침이 7.00, 7.02, 7.01, 7.03, 7.00, 7.02 — 30초 동안 ±0.03의 떨림 — 를 읽는다고 합시다. 데드밴드가 0.05 pH인 스윙잉 도어 알고리즘이라면 첫 포인트와 마지막 포인트만 남기고 그 사이 네 개를 버려도, 정작 중요한 것은 하나도 잃지 않습니다. 그러나 그 데드밴드를 0.15로 넓히면, 7.00에서 7.15까지 단 10초만 지속된 실제 이상(逸脫)이 통째로 사라질 수 있고 — 그와 함께 그 일탈을 잡아냈음을 입증할 능력까지 사라집니다. 지나치게 공격적인 압축은 실제 이상을 슬그머니 지워 버릴 수 있으므로, 규제 당국은 원본 기록과 그 의미가 살아남기를 기대합니다. FDA의 데이터 무결성 지침과 그와 조화를 이룬 PIC/S 지침은 모두, 포착된 공정 데이터가 그 수명 주기 전반에 걸쳐 완전하고, 귀속 가능하며, 재구성 가능한 상태로 남아야 한다고 — 히스토리안의 압축 설정까지 포함하여 — 못 박습니다 [5][8].
히스토리안은 "화요일 14:03:07의 온도는 얼마였는가?" 라는 물음에, 여러 해치 데이터를 가로질러 밀리초 안에 답합니다. 관계형 데이터베이스는 그 물음을 담아 두는 것조차 버거워합니다. 다른 일에는 다른 도구가 필요한 법입니다.
MES와 전자 배치 기록: 기록의 시스템
히스토리안이 지켜본다 면, MES — 제조 실행 시스템(Manufacturing Execution System) 은 다스립니다. 제어 현장과 그 위의 업무 시스템 사이에 자리 잡은 MES는 한 배치가 실제로 어떻게 만들어지는지를 관리합니다. 작업 지시를 내려보내고, 승인된 레시피를 단계별로 강제하며, 작업자가 앞 단계를 건너뛰거나 잘못된 원료를 쓰지 못하도록 막습니다. 이런 식으로 레시피를 강제하도록 만들어진 상용 MES 플랫폼으로는 AVEVA Wonderware, Siemens Opcenter Execution, Körber의 Werum PAS-X(제약 전용 MES) 등이 있습니다.
MES의 대표적인 산출물은 EBR — 전자 배치 기록(electronic batch record) 입니다. 한 배치를 만드는 모든 행위를 문서화하던 옛 종이 바인더를 디지털로 대체한 것이지요. MES는 마스터 레시피(master recipe)(제품을 어떻게 만드는지에 대한 승인된 표준 템플릿)를 강제하고, 각 로트마다 무엇을, 누가, 언제 했는지에 대한 완전한 서명 기록을 만들어 냅니다. 이로써 MES는 배치 실행에 대한 기록의 시스템(system of record) — "이 배치가 어떻게 제조되었는가"에 대한 단 하나의 권위 있는 출처 — 이 됩니다.
그 기록은 법적 구속력을 가지므로, 미국 FDA의 21 CFR Part 11, 즉 전자 기록과 전자 서명을 규율하는 규정을 충족해야 합니다. Part 11은 안전하고, 컴퓨터가 생성하며, 시각이 찍힌 감사 추적(audit trail), 누가 무엇을 할 수 있는지에 대한 통제, 그리고 기록에 묶여 옮겨 심거나 부인할 수 없는 서명을 요구합니다 [4]. EU 승인 시설에서 이에 상응하는 규정집은 EU Annex 11(EudraLex Volume 4, Good Manufacturing Practice, Annex 11: Computerised Systems, 2011)로, 검증, 감사 추적, 접근 통제에 대해 동등한 요구 사항을 규정합니다. EBR은 또한 예외 기반 검토(review by exception) 를 가능하게 합니다. 검토자가 규정을 따른 수천 건의 항목을 일일이 읽는 대신, 시스템이 일탈 — 한계를 벗어난 단계들 — 만을 표시해 주어, 사람의 주의가 정말로 필요한 곳으로 향하게 하지요.
LIMS와 ELN: 실험실의 두 세계
제조는 제품을 만들고, 실험실(laboratory) 은 그것이 출하할 만큼 좋은지를 판정합니다. 두 시스템이 그 세계를 소유합니다.
LIMS — 실험실 정보 관리 시스템(Laboratory Information Management System) 은 시료와 결과 를 추적합니다. 바이오리액터에서 바이알 하나를 뽑으면, LIMS는 거기에 정체성을 부여하고, 알맞은 시험으로 보내고, 누가 어떤 기기에서 각 시험을 수행했는지를 기록하며, 규격(specification)(결과가 충족해야 하는 합격/불합격 한계로, ICH Q2(R2)(Validation of Analytical Procedures, 분석 절차의 검증) 같은 조화된 지침에 따라 검증된 분석 절차로 설정됨)을 보유하고, 각 결과를 그 규격에 비추어 판정합니다. LabVantage, Thermo Fisher SampleManager, STARLIMS 같은 LIMS 공급사들은 바로 이 시료-및-결과 추적을 전문으로 합니다. LIMS는 품질 관리(QC) 데이터에 대한 기록의 시스템 — "이 배치가 규격을 충족했는가?"에 대한 구조화되고 규제되는 답 — 입니다.
ELN — 전자 실험 노트(Electronic Lab Notebook) 는 제본된 종이 노트의 디지털 후예입니다. LIMS가 정형적이고 구조화된 시험을 다루는 반면, ELN은 탐색적이고 서술적인 작업을 담습니다. 과학자가 설계하는 실험, 시도해 본 조건, 그 추론, 뒤쫓을 만한 뜻밖의 결과 같은 것들이지요. IDBS E-WorkBook, Labguru, Benchling 같은 ELN 플랫폼은 과학자가 이런 더 자유로운 형식으로 실험을 기록하게 해 줍니다. 실제로는 그 경계가 흐릿하며 — 많은 공급사가 둘을 묶어서 제공합니다 — 그래도 구분은 중요합니다. LIMS는 "이 시료가 규격 안에 있는가?" 에 답하고, ELN은 "우리가 무엇을, 왜 시도했는가?" 에 답합니다.
둘 다 현대의 ALCOA+ 원칙으로 요약되는 데이터 무결성 기대에 정확히 들어맞습니다 — 데이터는 귀속 가능하고(Attributable), 읽을 수 있고(Legible), 동시적이며(Contemporaneous), 원본이고(Original), 정확하며(Accurate), 그리고("+") 완전하고(Complete), 일관되며(Consistent), 지속되고(Enduring), 이용 가능해야(Available) 한다는 것으로, 이는 어떤 시스템이 그것을 보유하든 모든 GxP 기록에 적용됩니다. FDA의 데이터 무결성 Q&A와 PIC/S PI 041은 이 기대를, 현장 바닥에 적용하는 것만큼이나 단호하게 실험실 및 크로마토그래피 시스템에도 적용합니다 [5][8].
통제된 실험실 작업 공간. 물리적 공장은 정보 시스템의 성좌로 그대로 비추어집니다 — 끊임없는 센서 흐름(히스토리안)으로 공급되고, 단계별 배치 지시(MES)로 통제되며, 분석 결과(LIMS)에 비추어 오프라인으로 시험되고, 실험 기록(ELN)은 따로 남겨지며, 각자가 데이터의 서로 다른 한 부분을 소유합니다.
라미나 플로우 캐비닛. 이미지: syed sajidul islam, CC BY 4.0(https://creativecommons.org/licenses/by/4.0/), Wikimedia Commons; 수정 없이 사용.
조연들
네 개의 시스템이 이야기 전부를 들려주지는 않습니다. 그 주위에는 여러 친척이 자리 잡고 있습니다.
- SCADA 아카이브(SCADA archive) — 감시 제어 계층은 흔히 장기 보관용 공장 히스토리안과는 별개로, 운영 이력을 단기로 저장하는 자기만의 저장소를 둡니다.
- BMS / EMS — 건물 관리 시스템(Building Management System) 과 환경 모니터링 시스템(Environmental Monitoring System) 은 공정이 아니라 방 을 지켜봅니다. 클린룸의 온도, 습도, 차압, 그리고 부유 입자수와 미생물수를 살피지요. 무균 시설에서 이 기록들은 출하 결정의 일부입니다.
- CDS — 크로마토그래피 데이터 시스템(Chromatography Data System) 은 분석용 크로마토그래피 기기에서 나오는 신호를 획득하고 처리합니다. 널리 쓰이는 플랫폼으로는 Waters Empower, Agilent OpenLab CDS(ChemStation의 후속 플랫폼), Shimadzu LabSolutions 등이 있습니다. CDS라는 범주 전체는 전문화되고 무겁게 규제되는 데이터 세계에 자리 잡고 있으며, 규제 당국은 이를 오랫동안 데이터 무결성의 중점 영역으로 다루어 왔습니다. 그래서 데이터 무결성 지침은 크로마토그래피 시스템을 특별히 따로 짚어 냅니다 [5].
- ERP — 전사적 자원 관리(Enterprise Resource Planning) 시스템은 업무 계층 위쪽에서 원료, 재고, 주문을 소유하며, 운영과 기업 사이의 경계에서 MES와 정보를 주고받습니다.
이들 각각은, 전산화 시스템 검증의 언어로 말하자면, 적합성을 위해 평가되고 검증되어야 하는 GxP 관련 시스템입니다 — 그러한 시스템을 보증하기 위한 업계 표준 지침서인 GAMP 5 에 제시된, 위험 기반의 규율이지요 [6].
조각들은 어떻게 맞물리는가 — 그리고 어디서 맞물리지 않는가
여기, 센서와 기업 사이에서 누가 무엇을 소유하는지를 정의하는 ANSI/ISA-95 표준의 계층 위계에 고정시킨, 하나의 시야에 담은 성좌가 있습니다 [1].
각 상자는 같은 배치의 서로 다른 조각을 소유합니다. 한쪽 화살표는 일방향 출처(PLC가 히스토리안에 데이터를 공급)이고, 양쪽 화살표는 데이터가 경계를 넘어 서로 조정되어야 하는 양방향 흐름(MES ↔ ERP)입니다. 그 이음매 — 화살표들이 만나는 자리 — 야말로 그 조정이 무너질 때 사일로가 생겨나는 바로 그 지점입니다.
이 책이 끊임없이 맴도는 문제는 바로 그 이음매에 삽니다. 각 시스템은 저마다 다른 공급사가, 다른 목적을 위해, 자기만의 내부 어휘를 가지고 만들었습니다. 같은 제조 배치 하나가 히스토리안에서는 태그 접두사(예: BR201_BATCH0156)로, MES 배치 기록에서는 공식 배치 번호(BATCH_2024_0156)로, LIMS에서는 여러 시험 시료(S-0156-001, S-0156-002 등)의 부모 로, ERP에서는 재고 로트(LOT-22A-MABX)로 나타나며, 각각이 자기만의 식별자 체계를 가집니다. 더 나쁜 것은, LIMS의 항목들 자체가 다시 하위 구분이라는 점입니다. 배치는 하나지만 거기서 뽑아 낸 시료는 여럿이므로, 단 하나의 시료 결과를 거슬러 원래의 배치 조건까지 추적하려면 서너 개의 시스템을 잇대야 합니다. 같은 실세계의 배치가 여러 개의 다른 이름을 쓰는데, 어느 것도 그것들이 같은 것임을 자동으로 알지 못합니다.
이것이 바로 전형적인 데이터 사일로(data silo) 입니다. 풍부한 데이터가 서로 호환되지 않는 상자들 안에 갇혀 있는 것이지요. 바이오제약 분야의 디지털 트윈에 관한 동료 심사 문헌은 이를 단도직입적으로 말합니다 — 이 분야의 데이터는 서로 연결되지 않은 출처들에 흩어져 있으며, 통합된 데이터 계층이야말로 그 사일로를 깨뜨리기 위한 전제 조건이라는 것입니다 [9]. 그것은 또한 FAIR 원칙 — 데이터는 찾을 수 있고(Findable), 접근할 수 있고(Accessible), 상호운용 가능하며(Interoperable), 재사용 가능해야(Reusable) 한다는 — 이 바로잡고자 쓰인 그 문제이기도 합니다 [2].
왜 중요한가
데이터 관리의 관점에서 보면, 그 교훈은 단 하나의 "공장 데이터베이스"란 없다는 것입니다. 저마다 자기 조각에 대해 권위를 갖는 기록 시스템들의 연합(federation)이 있을 뿐이며, 가치는 그것들 사이의 경계에서 창출되거나 — 혹은 잃어버려집니다. "어떤 배양 조건이 가장 높은 순도의 배치를 냈는가?" 처럼 단순한 물음조차도 히스토리안(조건), MES(어느 배치), LIMS(순도)를 결합해야 답할 수 있습니다 — 세 시스템, 세 어휘, 세 식별자 체계인 셈이지요. 이음매가 이어지지 않는다면, 아무리 많은 데이터를 모았더라도 그 물음에는 그저 답할 수 없습니다.
실제 사례
이에 대한 업계의 대응은 두 층으로 이루어집니다. 기술적으로는 OPC UA(개방형 플랫폼 통신 통합 아키텍처, Open Platform Communications Unified Architecture)로 향하는 흐름이 있습니다. 이는 공급사 중립적 표준으로, 제어 시스템, 히스토리안, MES/기업 계층 사이의 이음매를 가로질러 단지 값뿐 아니라 그 의미 — 의미론(semantics) — 까지 실어 나릅니다 [7]. 전략적으로는, ISPE의 Pharma 4.0 운영 모델이 이를 디지털 성숙도의 여정으로 틀 짓습니다. IT와 OT(업무 기술과 운영 기술의 두 세계)를 수렴시키고, 아키텍처를 통합하며, 데이터 사일로를 묵인하는 대신 의도적으로 없애 나가는 것이지요 [3]. 이것은 이 책이 추구하는 바로 그 통합의 명령과 같습니다. 공유된 표준과 온톨로지(ontology)를 갖추어, LIMS의 한 결과와 히스토리안의 한 태그가 같은 실세계의 대상을 묘사하고 있음을 알아볼 수 있게 하는 것입니다.
핵심 용어
- 공정 히스토리안(process historian) — 대용량 시계열 데이터를 저장하도록 최적화된 데이터베이스로, 압축을 써서 신호를 값싸게 보존한다 [5].
- 태그(tag) — 측정되는 한 지점을 위한, 히스토리안 안의 이름 붙은 채널로, 시각이 찍힌 값을 많이 만들어 낸다.
- 시계열 데이터(time-series data) — 측정된 정확한 시각으로 색인된 측정값.
- MES(제조 실행 시스템) — 배치 실행을 다스리는 제조 운영 수준의 시스템 [1]. MES가 강제하는 레시피는 ISA-88 배치 표준에 따라 구조화된다.
- EBR(전자 배치 기록) — 특정 배치가 어떻게 만들어졌는지에 대한 디지털 서명 기록.
- 마스터 레시피(master recipe) — 제품이 어떻게 제조되는지를 정의하는 승인된 템플릿.
- 예외 기반 검토(review by exception) — 규정을 따른 모든 항목이 아니라 표시된 일탈만을 검토하는 것.
- 기록의 시스템(system of record) — 주어진 데이터 조각에 대한 단 하나의 권위 있는 출처.
- LIMS(실험실 정보 관리 시스템) — 시료, 시험, 규격, QC 결과를 추적하는 시스템.
- ELN(전자 실험 노트) — 탐색적 실험과 추론을 담는 디지털 노트.
- CDS(크로마토그래피 데이터 시스템) — 크로마토그래피 데이터를 획득하고 처리하는 소프트웨어 [5].
- BMS / EMS — 클린룸 조건을 기록하는 건물 관리 / 환경 모니터링 시스템.
- ERP(전사적 자원 관리) — 원료, 재고, 주문을 위한 기업 수준의 시스템.
- 감사 추적(audit trail) — 누가 무엇을 언제 바꿨는지에 대한 안전하고 시각이 찍힌 기록으로, 21 CFR Part 11이 요구한다 [4].
- ALCOA+ — 데이터는 귀속 가능하고, 읽을 수 있고, 동시적이며, 원본이고, 정확해야 하며, 더해서 완전하고, 일관되며, 지속되고, 이용 가능해야 한다는 원칙 [5].
- 데이터 사일로(data silo) — 쉽게 공유할 수 없는 시스템에 갇힌 귀중한 데이터로, FAIR의 반대 [2].
- OPC UA — 시스템 경계를 가로질러 데이터 와 그 의미 를 교환하기 위한 공급사 중립적 표준 [7].
이 다음은
이제 우리는 시스템들이라는 등장인물과, 그것들 사이의 이음매에 대한 냉철한 시선을 갖추었습니다. 다음 장 아키텍처와 통합: ISA-95, OT/IT, 그리고 엣지-투-클라우드는 이 성좌에 지도를 줍니다. 레벨 0 센서에서 레벨 4 기업까지 모든 것을 정리하는 ISA-95 / 퍼듀(Purdue) 위계, 운영 기술과 정보 기술의 수렴, 이 시스템들이 마침내 자신들이 무엇을 뜻하는지에 합의하게 해 주는 맥락화(contextualization) 계층, 그리고 공장 데이터를 엣지(edge)에서 클라우드까지 내내 실어 나르는 현대적 경로가 그것입니다.