연결을 위한 에이전트형 AI: 도구를 쓰는 에이전트, 그들이 생성하는 설정, 그리고 규칙 엔진이 이기는 경우

📍 현재 위치: 7부 · 오늘날 산업에서의 ML/AI — 29장. 직전 장 최전선(The Frontier)은 네 가지 머리기사 능력을 조사했고 모두 일상적 GMP 사용에는 못 미친다고 점수 매겼습니다. 이 장은 그중 가장 구체적인 근시일 응용을 가진 하나 — 에이전트형 AI — 를 골라, 결정하는 방식이 아니라 연결하는 방식으로 살펴봅니다. 새 기기와 공장의 데이터 모델 사이의 배관을 초안 잡는 에이전트입니다. 에이전트형 과대광고가 진짜이고 화려하지 않은 공학 문제와 만나는 모서리이며, 정직한 답이 가장 놀라운 곳입니다.

최전선 장은 에이전트형 AI를 특정한 자리에 남겨 두었습니다. 실재하고, 시연되었으며, 집행과 규정 초안에 의해 비핵심·사람 개입(human-in-the-loop) 과제로 갇혀 있다는 것입니다. 그 갇힘은 보통 실망으로 읽힙니다 — 스스로 CAPA를 종결하는 자율 에이전트는 금지되니, 무엇이 남는가? 이 장이 전개하는 답은, 에이전트의 가장 가치 있는 근시일 쓰임이 배치에 관해 무엇을 결정하는 것이 전혀 아니라는 것입니다. 그것은 연결(connectivity)입니다. 새 기기를 공장에 배선하는 느리고 수작업이며 오류투성이인 일 — 기기의 원시 주소 공간을 읽고, 어느 레지스터나 노드가 어느 신호를 나르는지 알아내고, 각각을 올바른 단위와 품질로 공장의 정준(canonical) 태그 모델에 매핑하고, 데이터가 흐르게 하는 커넥터 설정을 작성하는 일입니다. 그 일은 본성상 비핵심이고(제품-품질 결정이 아니라 설정을 만들어 냄), 지루한 세부사항에 빠져 있으며(분석기 하나가 수백 개의 노드를 광고할 수 있음), 정확히 대형 언어 모델이 잘하는 읽고-이해하고-매핑하고-초안 잡는 종류의 과제입니다. 이틀짜리 통합을 20분짜리 초안-검토로 바꾸는 에이전트는 진정으로 다스릴 수 있는 승리입니다 — 만약 그것을 신뢰할 수 있게 만드는 단 하나를 짓는다면 말입니다.

그 단 하나가 이 장의 주제이며, 그것을 미리 말하는 것이 가장 유용한 방식으로 결말을 흘립니다. 에이전트형 연결 도구는 그것을 감싸는 결정론적 검증기와 사람 게이트만큼만 신뢰할 수 있습니다. 에이전트의 제안은 자문(advisory)입니다. 논리 사슬(Chain-of-Logic) 검증기가 제안된 모든 매핑을 점검 가능한 하위조건으로 분해하여 점수 매깁니다. 완벽에 못 미치는 것은 무엇이든 사람에게 올려 보냅니다. 그리고 그 전체가 나중의 GMP 검증이 필요로 할 추적 가능하고 감사 준비된 산출물을 만들어 냅니다. 모델은 가속하고, 모델이 아니라 하니스(harness)가 품질 부서가 서명하는 대상입니다. 이것은 생성형 AI 장이 코파일럿에 대해 그린 바로 그 규율을, 모든 코파일럿 아래의 계층 — 배선 그 자체 — 에 적용한 것입니다.

쉽게 말하면

어떤 계기든 매뉴얼을 몇 초 만에 읽고 "노드 ns=4;s=Analyzer.GLC가 글루코스 측정값이고, 단위는 그램 매 리터입니다 — 당신의 BR101.Glucose.PV 태그에 배선하세요"라고 말해 주는 명석한 임시직을 고용했다고 상상해 보세요. 대개 그들은 옳고 데이터시트를 들여다보는 하루를 아껴 줍니다. 그러나 때때로 그들은 존재하지 않는 노드를 확신에 차서 가리키거나, 당신 공장이 수은주 밀리미터로 일하는데 압력을 밀리바로 인용하거나, 어떤 실제 센서도 낼 수 없는 값을 건넵니다. 당신은 결코 그 임시직의 메모가 곧장 제어 시스템으로 들어가게 두지 않을 것입니다. 당신에게는 점검표가 — 노드가 실제로 존재하는가? 단위가 맞는가? 그 숫자가 물리적으로 가능한가? — 있을 것이고, 점검표가 깨끗이 통과시키지 못한 것은 무엇이든 자격을 갖춘 엔지니어가 서명합니다. 에이전트가 그 임시직입니다. 이 장은 점검표를 짓고 엔지니어의 서명을 지키는 것에 관한 것입니다. 바로 그것이 유용한 가속기와 공장 데이터의 소리 없는 오염원 사이의 온전한 차이이기 때문입니다.

이 장에서 다루는 내용

왜 연결이 에이전트의 최선의 비핵심 직무인가 — NIIMBL Big-Data 상호운용성 프로그램이 이름 붙인 통합 병목, 그리고 왜 "커넥터를 초안 잡으라"가 안전하고 가치 높은 쓰임인 반면 "배치를 결정하라"는 아닌가.
"에이전트형"이 실제로 무엇을 뜻하는가 — 계획-행동 루프, 도구 사용(tool-use) / 함수 호출(function-calling), 그리고 텍스트를 초안 잡는 LLM과 주소 공간을 읽고 매핑을 제안하는 에이전트의 차이.
논리 사슬(Chain-of-Logic) 검증기 — 제안된 각 매핑을 독립적이고 점검 가능한 하위조건으로 분해하여 가중 정확도율(Correctness Rate) 로 모으는 것을, examples/platform/ml/agentic_connectivity.py의 실행 가능한 코드로 보임.
사람 개입(human-in-the-loop) 게이트 — 완벽한 정확도율에서만 자동 수락하고 나머지는 모두 예외 기반 검토로 올려 보내는 것, 그리고 게이트가 반드시 해야 하는 보증: 결함 있는 매핑은 결코 자동 수락되지 않음.
에이전트-대-결정론 벤치마크 — 에이전트가 위험을 무릅쓸 값어치가 있을 때(낯선 기기의 긴 꼬리)와 손으로 쓴 규칙 엔진이 완승할 때(안정적이고 대량인 계열).
샌드박스와 미래 상태 GxP 경로 — 개념증명을 하드웨어 없이 유지하는 프로토콜 에뮬레이터와 클라우드 샌드박스, 에이전트가 내야 하는 감사 준비된 산출물, 그리고 PoC를 검증된 시스템으로 졸업시키는 데 무엇이 필요한가 — 처음부터 끝까지 Annex 22 초안과 Purolea 경고 서한에 의해 경계 지어집니다.

에이전트가 실제로 겨누는 병목

에이전트에 앞서, 문제를 정직하게 이름 붙이세요. 상의 크기가 위험을 무릅쓸 온전한 근거이기 때문입니다. 현대 바이오 제조 스위트는 수십 개 벤더의 계기들로 이루어진 함대로, 각자가 자기 방언을 말합니다. OPC UA 위의 세포배양 분석기, 레거시 Modbus 위의 공급 펌프, 게이트웨이로 들어가는 4-20 mA 루프 위의 pH 송신기, 벤더 SDK 위의 라만 프로브, RS-232 위의 저울. Book 3의 연결(connectivity)과 레거시 스키드(legacy-skids) 장이 그 프로토콜 동물원을 상세히 걷습니다. 여기서의 요점은 그것이 무엇을 비용으로 치르는가입니다. 그 기기들 하나하나는 그 데이터가 쓸모 있어지기 전에 공장의 공유 모델 — 정준 태그, 단위, 데이터형, 품질 의미론, 정상 운전 범위 — 으로 매핑되어야 하고, 그 매핑은 손으로, 희소한 통합 엔지니어가 벤더의 주소-공간 덤프를 공장의 태그 사전에 대조해 가며 한 번에 신호 하나씩 합니다. 그것은 느리고, 규모 확장되지 않으며, NIIMBL Big-Data 프로그램의 상호운용성 작업의 명시적 동기입니다 — 대부분의 구현된 해법은 독점적 점-대-점 통합이고, 업계는 대신 플랫폼 무관(platform-agnostic)하고 재사용 가능한 연결을 원합니다 [1].

이것이 에이전트가 진정으로 적합한 일이며, 그 이유 셋은 정확히 규제선 위에 대응합니다. 그것은 읽고-초안 잡기로, LLM의 강점입니다 — 에이전트는 기기가 광고하는 노드와 정준 모델을 섭취하고 대응을 제안하는데, 일탈 요약을 초안 잡는 것과 같은 모양의 과제입니다. 그것은 비핵심입니다 — 출력은 커넥터 설정, GMP 기록을 나르기 전에 검토되고 시험되는 공학 산출물이지, 제품 품질의 처분이 아닙니다. 그리고 그것은 검증 가능합니다 — 제안된 매핑은 구체적이고 점검 가능한 주장(이 노드가 존재한다; 그 단위는 g/L이다; 그 값은 범위 안이다)을 펴고, 결정론적 점검기가 모델을 전혀 신뢰하지 않고 그것들을 확인하거나 반박할 수 있습니다. 그 셋이 최전선 장이 그은 경계 안에 연결이 안전하게 앉는 이유인 반면, 자율 배치 결정은 그 바깥에 앉습니다. 에이전트는 결정하라고 요청받지 않습니다. 그것은 배관을 제안하라고 요청받고, 배관은 점검될 수 있습니다.

여기서 "에이전트형"이 뜻하는 것: 계획-행동 루프와 도구 사용

텍스트를 초안 잡는 LLM은 도구입니다. 에이전트는 행동할 수 있는 루프 안에 놓인 LLM입니다 — 그것은 목표를 단계로 분해하고, 외부 도구를 불러 정보를 모으거나 변경을 가하고, 결과를 관찰하고, 다음 단계를 결정합니다 [2]. 채팅 모델을 에이전트로 바꾸는 능력은 도구 사용(tool-use)(함수 호출, function-calling이라고도 함)입니다. 모델에 타입 지정 시그니처를 가진 호출 가능 함수들이 주어지고, 산문만 내뱉는 대신 구조화된 호출 — read_address_space(device_id), lookup_canonical_tag(name), propose_mapping(target, source) — 을 내뱉을 수 있으며, 그 결과가 다음 단계를 위해 그 맥락으로 되먹여집니다 [3]. 그 도구 인터페이스를 모델과 시스템 전반에 이식 가능하게 만드는 표준이 떠오르고 있습니다 — Model Context Protocol이 그런 기반 하나로, 시스템의 도구와 데이터를 LLM 에이전트에 균일한 인터페이스로 노출하는 게시된 관례라, 같은 에이전트가 히스토리안과 OPC UA 서버와 태그 사전을 각각을 위한 맞춤 접착제 없이 몰 수 있게 합니다 [4].

연결의 경우, 루프는 구체적이고 짧습니다. 에이전트의 목표는 "이 기기가 먹여야 하는 모든 정준 타깃에 대해 매핑을 만들어 내라"입니다. 그것은 도구를 불러 기기의 광고된 주소 공간(원시 노드, 그 데이터형, 광고된 단위)을 읽고, 도구를 불러 정준 모델(공장의 태그 사전, 기대 데이터형·UCUM 단위·정상 범위를 가진)을 읽고, 그 둘을 두고 추론하여 각 타깃에 대해 진술된 근거와 함께 제안된 (target ← source) 매핑을 내고, 그리고 — 초안에서 행동으로 건너는 시스템에서는 — 그 커넥터 설정을 쓰는 도구를 부를 것입니다. 결정적인 설계 결정은 루프가 닫히도록 허용되는 곳입니다. 읽고 제안만 하는 에이전트는 경계 지어져 있습니다. 돌아가는 게이트웨이에 설정을 쓰기도 하는 에이전트는 인프라에 행동을 가하는 것이고, 그것이 그 루프를 무인으로 닫도록 더 많이 신뢰될수록, 검토되지 않은 변경의 표면이 더 커집니다 — 그것이 정확히 Purolea 경고 서한이 이름 붙인 실패 모드로, 에이전트가 결정에 사람 없이 GMP를 다스리는 기록을 생성했을 때입니다 [5]. 그래서 루프는 제안에서 닫히고, 검증기와 사람이 제안과 배선 사이에 섭니다.

두 번째 설계 결정은 복수성입니다. 연결 과제는 자연스럽게 역할로 분해됩니다 — 낯선 주소 공간을 요약하는 읽기자, 대응을 제안하는 매퍼, 그것을 점검하는 비평가 — 그리고 다중 에이전트 틀짓기는 각각을 별도 에이전트에 배정하여 다음으로 넘깁니다. 그것은 아키텍처 슬라이드에서 잘 읽히지만, 이 장의 나머지가 벌어 내는 경고 하나의 값어치가 있습니다. 더 많은 에이전트는 신뢰를 더하지 않고 표면을 더합니다. 각 에이전트는 그 출력이 검증되어야 하는 또 하나의 생성 구성요소이고, 그 자체가 LLM인 비평가 에이전트는 자신이 잡으려는 유창하면서-틀린 실패 모드를 물려받습니다 — 정확히 생성형 AI 장이 LLM-심판에 대해 깃발 단 한계입니다. 그러므로 이 장의 신뢰할 수 있는 비평가는 또 하나의 에이전트가 아니라 결정론적 검증기이며, 그것이 다음 절입니다.

논리 사슬 검증기: 유창한 제안을 점검 가능한 것으로 바꾸기

에이전트형 매핑을 안전하게 만드는 단 하나의 발상은, 제안을 통째로 신뢰하기를 거부하고 대신 그것을 독립적 하위조건으로 분해하여, 각각을 모델의 말이 아니라 접지 진실에 대조해 점검하는 것입니다. 이것이 LLM 기반 산업 제어에 대해 시연된 논리 사슬(Chain-of-Logic, CoL) 패턴으로, 거기서는 각 모델 출력이 점검 가능한 논리 하위조건 — 레지스터 정확성, 값 정확성, 매개변수 정확성, 쓰기 성공 — 으로 쪼개지고 무엇이든 제어기에 닿기 전에 가중 정확도율(Correctness Rate) 로 점수 매겨집니다 [6]. 커넥터 매핑에 적용하면, "ns=4;s=Analyzer.GLC를 BR101.Glucose.PV에 Double로 g/L 단위로 배선하라"는 제안은 다섯 가지 분리 가능한 주장을 펴고, 각각은 결정론적 점검기가 가릴 수 있는 불리언입니다.

source_exists — 기기가 에이전트가 이름 댄 노드를 실제로 광고하는가, 아니면 모델이 그럴듯하게 들리는 것을 환각했는가? 에이전트가 읽은 실제 주소 공간에 대조해 점검하지, 그것의 기억에 대조하지 않습니다. 이것이 가장 높게 가중된 점검입니다. 환각된 소스가 기록을 가장 소리 없이 오염시키는 오류이기 때문입니다.
datatype_ok — 소스의 광고된 데이터형이 정준 타깃이 기대하는 것과 맞는가(Float가 아니라 Double이 요구되는 곳에 Double)?
unit_present — 에이전트가 공학 단위를 애초에 날랐는가, 아니면 떨어뜨렸는가? 공장 모델로 들어가는 단위 없는 숫자는 온톨로지 책이 거부하는 맨숫자 실패(bare-number failure)입니다.
unit_correct — 단위가 옳은 것인가? 정준 타깃이 mmHg를 기대하는데 mbar는 영원히 1.3배 틀리게 읽힐 숫자입니다.
value_in_range — 표본 값이 타깃의 선언된 정상 운전 범위 안에 앉는가, 아니면 물리적으로 불가능한가(용존 산소 1500%)?

각 점검은 그 실패가 입히는 손해를 반영하는 가중치를 지고, 그것들이 0에서 1까지의 정확도율로 합산됩니다. 가중은 의도적인 거버넌스 선택입니다 — 소스 정체성과 단위 정확성, 즉 소리 없는 오염원이 가장 무겁게 가중되므로, 제안은 유창하고 잘 형식화되어 있으면서도 중요한 점검을 통과하지 못하면 낮게 점수 매겨질 수 있습니다. 검증기는 평범하고 점검 가능한 코드입니다. 그 안에 모델이 없으며, 바로 그것이 품질 부서가 검증할 수 있는 부분인 이유입니다. 에이전트는 당신이 온전히 검증할 수 없는 부분(생성적이고 확률적임)이고, CoL 검증기는 당신이 검증할 수 있는 부분이며, 아키텍처는 전자를 후자로 옭아맴으로써 작동합니다 — 생성형 AI 장이 LLM 초안을 고전적이고 검증 가능한 검색기 뒤에 게이트했을 때와 같은 수입니다.

한 장면에 담은 아키텍처: LLM 에이전트가 기기의 주소 공간과 정준 모델을 읽고 매핑을 제안하고(자문, 인디고), 결정론적 논리 사슬 검증기가 각각을 다섯 점검 가능한 하위조건으로 분해하여 가중 정확도율을 점수 매기며(시안), 사람 개입 게이트가 완벽한 점수만 자동 수락하고 나머지를 예외 기반 검토로 올려 보내고(황색), 단단한 규제 경계가 생성 제안이 GMP 기록을 자동 처분하지 못하게 합니다. 모델은 왼쪽 절반을 가속하고, 하니스는 오른쪽 절반을 다스립니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

실행 가능한 하니스: agentic_connectivity.py

예제 모듈 examples/platform/ml/agentic_connectivity.py는 이 아키텍처를 투명하게, 네트워크 없이, 모델 다운로드 없이, 그리고 일부러 스텁(stub) 처리한 에이전트로 짓습니다 — 이 장의 논증이 정확히 LLM이 산출물이 아니고 하니스가 산출물이라는 것이기 때문입니다. 시나리오는 러닝 예제의 공장입니다. 세 기기가 자기 주소 공간을 광고합니다 — Mettler-Toledo 식 pH 프로브와 Modbus 위의 Watson-Marlow 공급 펌프(엔지니어가 전에 통합해 본 두 개의 알려진 계열) 더하기 갓 나온 NovaFlex-9 세포배양 분석기(아무 규칙도 쓰여 있지 않은 새로운 기기) — 그리고 에이전트는 그들의 원시 노드를 일곱 정준 타깃(BR101.pH.PV, BR101.Glucose.PV 등)으로 매핑해야 합니다. 스텁은 실제 연결 에이전트가 보이는 정확히 그 다섯 실패 모드를 — 환각된 노드, 데이터형 불일치, 빠진 단위, 틀린 단위, 물리적으로 불가능한 값 — 두 개의 올바른 것과 나란히 나르는 제안을 돌려주어, 하니스가 잡을 진짜 무언가를 갖게 합니다.

검증기가 모듈의 심장이며, 열두 줄인 것은 그 안에 모델이 없기 때문입니다 — 그저 기기의 실제 광고 노드와 정준 명세에 대조한 다섯 점검입니다:

# examples/platform/ml/agentic_connectivity.py (excerpt)
WEIGHTS = {"source_exists": 0.30, "datatype_ok": 0.15, "unit_present": 0.15,
           "unit_correct": 0.25, "value_in_range": 0.15}

def verify(m: Mapping) -> Mapping:
    spec = CANONICAL[m.target]
    adv = _advertised()                      # the device's REAL address space
    node = adv.get(m.source_node)            # None => the agent hallucinated it
    checks = {
        "source_exists":  node is not None,
        "datatype_ok":    node is not None and m.source_datatype == spec.datatype,
        "unit_present":   m.source_unit != "" or spec.unit == "",
        "unit_correct":   m.source_unit == spec.unit,
        "value_in_range": spec.lo <= m.example_value <= spec.hi,
    }
    m.col = checks
    m.correctness = round(sum(WEIGHTS[k] for k, ok in checks.items() if ok), 3)
    return m

게이트는 한 줄입니다 — 완벽한 정확도율에서만 자동 수락하고 나머지는 모두 올려 보냄 — 그리고 벤치마크는 에이전트(게이트 뒤)를 deterministic_mapper()와 맞붙입니다. 그것은 코딩된 계열을 완벽하게 매핑하고 새 기기는 전혀 못 하는 손으로 쓴 룩업입니다. python agentic_connectivity.py를 실행하면 다음을 그대로 출력합니다:

agentic connectivity: the Chain-of-Logic verifier + HITL gate (the LLM is stubbed)
  canonical targets: 7   devices: 3 (2 known + 1 novel)   advertised nodes: 7

-- CHAIN-OF-LOGIC VERIFICATION (each proposal decomposed, checked, weighted) --
  BR101.pH.PV          CR=1.0   [AUTO-ACCEPT]  all sub-conditions pass
  BR101.Temp.PV        CR=0.55  [ ESCALATE  ]  failed: source_exists,datatype_ok
  BR101.Glucose.PV     CR=1.0   [AUTO-ACCEPT]  all sub-conditions pass
  BR101.Lactate.PV     CR=0.6   [ ESCALATE  ]  failed: unit_present,unit_correct
  BR101.Pressure.PV    CR=0.75  [ ESCALATE  ]  failed: unit_correct
  BR101.FeedRate.SP    CR=0.85  [ ESCALATE  ]  failed: datatype_ok
  BR101.DO.PV          CR=0.85  [ ESCALATE  ]  failed: value_in_range

-- HITL GATE -- auto-accepted: 2/7   escalated to human (review-by-exception): 5/7
   defective mappings auto-accepted: 0 (must be 0)

-- ONE TRACEABLE ARTIFACT (the record a reviewer signs) --
   target          : BR101.Pressure.PV
   source_node     : ns=4;s=Analyzer.Press
   unit            : mbar
   correctness_rate: 0.75
   disposition     : ESCALATE-TO-HUMAN
   model_version   : agent-v0.3
   prompt_hash     : 6d06e8a4d80b
   col_checks      : {'source_exists': True, 'datatype_ok': True, 'unit_present': True, 'unit_correct': False, 'value_in_range': True}

-- AGENTIC vs DETERMINISTIC (zero-touch correct maps over a mixed fleet) --
   fleet points (2 known devices + 1 NOVEL): 7
   deterministic mapper, zero-touch correct : 2  (perfect on coded families, 0 on the novel device)
   agent + CoL gate,    zero-touch correct  : 2  (reaches the novel device; defects caught, not shipped)

NOTE: the LLM proposal is ADVISORY. The CoL verifier + HITL gate are what a
quality unit validates and signs; under draft Annex 22 the generative proposal
never auto-dispositions a GMP record. A rule engine wins on the stable, high-
volume families; the agent earns its risk only on the long tail -- behind the gate.

ASSERT ok: no defective mapping auto-accepted; the harness, not the model, is the control.

검증 블록을 먼저 읽으세요. 그것이 이 장의 논증을 데이터로 보인 것이기 때문입니다. 두 제안이 완벽한 1.0을 받아 자동 수락됩니다 — 알려진 기기의 깨끗한 pH 매핑, 그리고 더 흥미롭게도, 규칙 엔진이 손댈 수 없는 새로운 분석기 위의 깨끗한 글루코스 매핑입니다. 나머지 다섯은 각각 자기 결함을 이름 대는 바로 그 하위조건에서 실패합니다. 환각된 JacketTemp 노드는 source_exists에서 실패하고, 단위를 떨어뜨린 젖산 매핑은 unit_present에서 실패하고, mmHg가 의도된 곳의 mbar 압력은 unit_correct에서 실패하고, Double이 와야 할 곳의 Float 공급 속도는 datatype_ok에서 실패하고, 불가능한 1500% 용존 산소 값은 value_in_range에서 실패합니다. 결정적으로, 다섯 중 어느 것도 자동 수락되지 않습니다 — defective mappings auto-accepted: 0 줄이 모듈이 단언하는 검증 가능한 보증이며, 그것이 품질 부서가 실제로 서명하는 것입니다. 증명 불가능한 "에이전트가 옳다"가 아니라, 증명 가능한 "게이트는 검증되지 않은 매핑을 결코 통과시키지 않는다"입니다.

에이전트가 위험을 무릅쓸 값어치가 있을 때, 그리고 규칙 엔진이 이길 때

벤치마크가 마케팅에 저항하는 부분이며, 정직한 결과가 "에이전트가 이긴다"가 아니므로 주의 깊게 읽을 값어치가 있습니다. 혼합 함대 전체에서 결정론적 매퍼는 무손길-정확 매핑 두 개를 받고 에이전트도 두 개를 받습니다 — 원시 수에서 동점입니다. 그러나 구성이 교훈입니다. 결정론적 매퍼의 두 승리는 둘 다 손으로 코딩된 알려진 계열 위에 있고, 거기서 그것은 완벽하며, 검증기도 사람도 필요하지 않습니다. 그것은 새로운 NovaFlex-9에서 영을 받는데, 아무도 그것을 위한 규칙을 쓰지 않았기 때문입니다. 에이전트의 두 승리는 규칙 엔진이 전혀 닿을 수 없었던 그 새로운 기기 위의 글루코스 노드를 포함하며, 결함 있는 다섯 형제를 출하하는 대신 올려 보낸 게이트에 의해 안전해졌습니다.

그것이 에이전트형 연결의 온전한 결정 규칙이고, 화려하지 않습니다. 손으로 쓴 규칙 엔진은 안정적이고 대량인 기기 계열에서 완승합니다 — 공장 계기의 대부분을 이루는 한 줌의 벤더와 모델로, 거기서 통합은 한 번 쓰이고 결정론적이며 유지가 싸고, 검증기와 사람을 여전히 필요로 하는 확률적 제안은 엄격히 더 나쁩니다. 에이전트는 긴 꼬리에서만 위험을 무릅쓸 값어치가 있습니다 — 아무 규칙도 없고 손으로 하나 쓰기가 값어치 없는, 새롭고 일회성이거나 드물게 보이는 기기로, 거기서는 낯선 주소 공간을 읽고 출발점을 제안하는 에이전트의 능력이 진짜 가치입니다. 거기서조차 그 제안은 대부분 사람이 마무리하는 초안이지 무손길 승리가 아니며, 7개 중 2개의 자동 수락률이 보이는 바입니다. 그러므로 성숙한 아키텍처는 하이브리드입니다. 아는 계열에는 결정론적 매퍼, 모르는 꼬리에는 에이전트, 그리고 양쪽 위에 같은 CoL-검증기-더하기-사람 게이트를 두어, 어느 경로가 만들어 냈든 출력이 균일하게 합니다. "에이전트형 연결 플랫폼"을 사면서 그것이 통합 규칙을 대체하리라 기대하는 조직은 벤치마크를 오독한 것이고, 그것을 게이트 뒤에서 긴 꼬리로 도달 범위를 넓히는 데 쓰는 조직은 옳게 읽은 것입니다.

추적 가능한 산출물: 나중의 검증이 필요로 할 것

수락되거나 올려 보내진 모든 매핑은 구조화된 기록을 내고, 그 기록은 나중에 생각해 낸 것이 아닙니다 — 그것은 개념증명이 검증된 시스템이 될 수 있게 하는 산출물입니다. 모듈이 출력한 산출물이 그 모양을 보입니다. 제안된 설정(타깃, 소스 노드, 데이터형, 단위), 에이전트의 진술된 근거(자문), 각 하위조건의 합격/불합격을 담은 전체 col_checks 사전, 정확도율, 처분(AUTO-ACCEPT 또는 ESCALATE-TO-HUMAN), 그리고 — 그것을 영원히 감사 가능하게 만드는 필드 — 제안을 만들어 낸 model_version과 prompt_hash입니다. 이것은 일탈 기록이 날랐던 같은 출처 규율입니다. 어느 모델이 어느 프롬프트로 초안을 생성했는지를 고정하여, 산출물이 재현 가능하고 시스템이 소리 없이 표류하는 대신 변경 시 재검증될 수 있게 합니다. NIIMBL 상호운용성 프로그램은 정확히 이것들을 요구 산출물로 이름 붙입니다 — 추적 가능한 커넥터 설정, 매핑 근거, 그리고 다운스트림 검증 워크플로에 적합한 감사 및 변경 로그입니다 [1] — 그리고 그것들이 다음 절의 샌드박스에서 미래 GMP 배포로 가는 다리입니다.

시리즈의 나머지가 짓는 계층 위에 대응시키면, 그 산출물은 자연스러운 집을 가집니다. 수락된 매핑은 공장의 정준 모델 — Book 3가 설계하는 통합 네임스페이스 태그 사전 — 안의 한 행이고, Book 4가 짓는 지식 그래프로 들어 올리면 같은 매핑이 그 단위가 QUDT/UCUM IRI이고 그 완전성을 매핑이 신뢰되기 전에 SHACL 형상(shape)이 게이트할 수 있는 타입 지정 트리플이 됩니다 — 생성형 장이 이미 이름 붙인 입장-게이트 수입니다. 다시 말해 에이전트는 새 산출물을 발명하는 것이 아니라, 시리즈가 이미 명세하는 산출물의 더 빠른 첫 패스를 초안 잡고 있고, 검증기가 그 초안을 그 명세에 대조해 점검합니다.

한 커넥터-매핑 제안을 온전히 펼침: 에이전트-초안 설정과 근거(자문), mbar-대-mmHg 단위 오류를 잡아 0.75로 점수 매긴 논리 사슬 점검표, 올려 보냄 처분(사람-검토-필수), 그리고 결정론적 거버넌스 핵심 — 고정된 모델 버전과 프롬프트 해시, 검토자, 전자서명, 감사-추적 항목. 에이전트가 위를 채우고, 검증기가 가운데를 점수 매기고, 사람이 아래를 서명합니다 — 자문과 GxP-통제 사이의 선은 정확히 필드 태그가 바뀌는 곳입니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

샌드박스: 공장을 건드리지 않고 그것을 증명하기

에이전트형 연결의 개념증명은 결코 상용 시스템에 대고 돌려서는 안 됩니다 — 살아 있는 GMP 게이트웨이에 설정을 쓰는 에이전트가 정확히 규제자가 겨누는 검토되지 않은-행동 위험이기 때문이기도 하고, 의약품을 만드는 계기 근처에 실험적이고 확률적인 시스템을 책임 있게 둘 수 없기 때문이기도 합니다. 이것을 푸는 규율이 클라우드 샌드박스입니다. 전체 PoC가 어떤 상용·GMP·독점 시스템과도 연결되지 않은 격리된 환경에서 돌고, 기기는 실물이 아니라 시뮬레이션됩니다 — 프로토콜 에뮬레이터와 가상 엔드포인트가 물리 하드웨어를 대신합니다 [1]. 이것은 조심스러움이 강요한 타협이 아니라 확립된 Industry 4.0 관행입니다. 가상 커미셔닝(virtual commissioning) — 물리 배포 이전에 시뮬레이션된 기기에 대고 제어 소프트웨어·통신 프로토콜·통합 논리를 검증하기 — 은 성숙한 분야이고, LLM 기반 제어 작업은 그것을 명시적으로 채택하여, 실제 기기를 건드리기 전에 AI 기반 논리의 안전하고 하드웨어 없는 시험을 시연하기 위해 정확히 프로세스 에뮬레이터와 Modbus 시뮬레이터 안에서 LLM-더하기-PLC 시스템을 검증했습니다 [6][7].

그 기계장치는 이 시리즈가 선호하는 오픈소스 스택의 손이 닿는 곳에 있습니다. 시뮬레이션된 OPC UA 서버(Book 3가 쓰는 asyncua 라이브러리로 지음)가 에이전트가 읽을 기기의 주소 공간을 광고하고, Modbus 슬레이브 에뮬레이터가 레거시 펌프를 대신하며, 에이전트의 제안된 설정이 그 에뮬레이트된 엔드포인트에 대고 운동되어, 환각된 노드는 실제 태그를 오염시키는 대신 그저 시뮬레이터에 대해 해소되지 못합니다 [8][9]. Book 3는 정확히 이 하드웨어 없는 테스트베드를 짓는 데 한 장 전체를 바칩니다. 에이전트에 대한 관련 요점은, 샌드박스가 위의 벤치마크 숫자를 정직하게 만들어 낼 수 있게 하는 것이라는 점입니다 — 게이트가 잡은 모든 결함 매핑은 시뮬레이션된 기기에 대고 잡히고, 놓침의 비용은 잘못 보고된 배치가 아니라 실패한 시험입니다.

미래 상태 경로: 샌드박스 PoC에서 검증된 시스템으로

에이전트형 연결 PoC의 정직한 틀짓기는, 그것이 검증된 시스템이 아니며 그런 척하지 않는다는 것입니다 — 그것은 타당성·이익·한계의 시연으로, 명시적으로 GMP 봉투 바깥에 있습니다 [1]. 그것이 답해야 하는 가치 있는 질문은 미래 상태의 것입니다. 이것을 공장이 검증하고 돌릴 수 있는 무언가로 졸업시키려면 무엇이 필요한가? 답은 시리즈의 검증 척추를 따르고, 하니스가 이미 만들어 내는 산출물에 기댑니다. CSA 위험 기반 자세와 GAMP 5 생애주기 아래에서, 경로는 알아볼 수 있는 모양을 가집니다. 결정론적 검증기와 사람 게이트가 검증된 핵심입니다 — 그것들은 정적이고 결정론적인 소프트웨어(관습적으로 검증될 수 있는 GAMP 범주)이므로, 검증 노력은 검증 불가능한 생성 모델이 아니라 거기, 하니스에 집중됩니다. 에이전트는 통제된 구성요소로, 사전결정 변경관리 계획 아래 모델 버전에 고정되고, 감시되며, 결코 자동 처분하도록 허용되지 않습니다 — 규제 장이 GMP를 건드리는 어떤 모델에든 요구하는 같은 잠금-그리고-다스림 자세입니다. 감사 준비된 산출물 — 설정, CoL 결과, 근거, 모델 버전과 프롬프트 해시, 검토자 서명 — 은 Part 11 시스템이 필요로 하는 ALCOA+ 기록이며, 나중에 개조되는 대신 PoC에서부터 설계되어 들어갑니다. 그리고 경계는 처음부터 끝까지 유지됩니다. Annex 22 초안은 핵심 사용에 정적이고 결정론적인 모델만 허용하고 생성형 AI를 그것에서 배제하므로, 에이전트는 구성상 선의 비핵심·사람 개입 쪽에 머물고, Purolea 경고 서한은 그러지 않을 때 무슨 일이 일어나는지의 운영 사례로 섭니다 [5][10]. 그렇다면 PoC의 진짜 산출물은 에이전트가 아닙니다 — 그것은 그 안에 에이전트를 위한 명확히 범위 지어지고 다스릴 수 있는 자리를 가진, 검증된 하니스입니다.

미해결인 부분: 에이전트의 도달 범위가 정확히 검증이 가장 어려운 곳이다

에이전트형 연결의 가장 깊은 긴장은, 에이전트가 정확히 검증하기 가장 어려운 곳에서 가장 가치 있다는 것입니다. 알려진 기기 계열에서는 CoL 검증기가 대조할 풍부한 정준 명세 — 기대 데이터형, 단위, 범위, 심지어 기대 노드 이름 — 를 가지므로, 결함 있는 제안은 구체적 점검에서 실패합니다. 그러나 에이전트의 존재 이유 자체는 새로운 기기, 곧 사전 통합이 없고 종종 명세가 성기거나 특이한 그것이며, 거기서 검증기는 대조할 것이 더 적습니다. 정준 모델이 아직 타깃의 기대 단위를 선언하지 않았다면 unit_correct 점검은 발화할 수 없고, 게이트의 보증은 "모든 결함을 잡는다"에서 "점검할 규칙이 있었던 모든 결함을 잡는다"로 약해집니다. 검증기는 그 뒤의 정준 모델만큼만 강하고, 긴 꼬리가 정확히 그 모델이 가장 얇은 곳입니다. 이것은 더 큰 모델로 공학적으로 없앨 결함이 아닙니다 — 그것은 최전선 장과 온톨로지 책이 거듭 다다르는 같은 구조적 요점입니다. 기계 제안의 가치는 그것이 대조되는 타입 지정·단위 보유·다스려진 모델의 품질에 의해 경계 지어집니다. 실질적 귀결은 냉철합니다. 에이전트형 연결은 통합 엔지니어를 없애지 않고 재배치합니다 — 모든 기기를 손으로 매핑하는 일에서, 정준 모델을 큐레이션하고 에이전트가 초안 잡는 꼬리를 검토하는 일로. 남는 일은 언제나 하중을 지던 일이고, 에이전트는 그 부재를 덜이 아니라 더 잘 보이게 만듭니다.

이 장이 모델 모음에 더하는 것

이 장은 Book 5 예제 모음에 examples/platform/ml/agentic_connectivity.py 를 기여합니다. LLM을 일부러 스텁 처리하여 에이전트형 연결 아키텍처를 짓는, 홀로 서고 네트워크 없는 모듈입니다 — 모델이 아니라 검증기와 게이트가 산출물이기 때문입니다. 그것은 세 기기의 혼합 함대(두 알려진 계열 더하기 새로운 분석기), 다섯 정준 실패 모드(환각된 노드, 데이터형 불일치, 빠진 단위, 틀린 단위, 불가능한 값)를 나르는 제안을 내는 스텁된 에이전트, 각 제안을 다섯 점검된 하위조건으로 분해하여 가중 정확도율(Correctness Rate) 을 점수 매기는 논리 사슬 검증기, 완벽한 점수만 자동 수락하는 사람 개입 게이트, 그리고 함대 전체에 걸친 에이전트-대-결정론 벤치마크를 모델링합니다. 그것은 integration_opcua.py(이 모듈의 매핑이 먹일 OPC UA / 히스토리안 / MES 계약을 통해 예측을 쓰는)와 frontier_scorecard.py 조사(이 모듈이 작동 중에 보이는 에이전트형 능력을 점수 매기는)와 협응하며, 중복하지 않습니다. 그 단언은 이 장의 보증을 실행 가능하게 만든 것입니다. 결함 있는 매핑은 결코 자동 수락되지 않으므로, 출력을 읽는 사람이 아니라 스크립트의 종료 상태가 모델이 아니라 하니스가 통제임을 증명합니다. 모음의 나머지처럼 그것은 stdlib 한정이고 결정론적이라, 감사 추적이 바이트 동일하게 재현 가능하고 run_all.py 신용 원장이 모든 변경에서 그것을 다시 점검합니다.

왜 중요한가

연결은 바이오 제조의 모든 디지털 야심에 매겨지는 화려하지 않은 세금입니다. 디지털 트윈, 소프트 센서, 출하 모델, 데이터-모으기 최전선은 모두 데이터가 이미 흐른다고 가정하고, 그것을 흐르게 만드는 일은 계기 수와도 엔지니어의 인내심과도 함께 규모 확장되지 않는 벤더별 노역입니다. 배관을 초안 잡는 에이전트는 동시에 가치 높고, 기술에 진정으로 적합하며, 규제선 안에 안전하게 있는 드문 AI 응용입니다 — 품질을 결정하기보다 설정을 제안하기 때문이고, 그 제안이 배치 처분과 달리 구체적으로 검증 가능하기 때문입니다. 그러나 낯선 분석기를 읽게 하는 같은 유창함이 노드를 확신에 차 발명하거나 틀린 단위를 인용하게도 하며, 소리 없이 틀린 커넥터는 그것을 통해 흐르는 모든 기록을 라인의 수명 동안 오염시킵니다. 이것을 옳게 하는 것은 마케팅이 파는 본능을 뒤집는 것을 뜻합니다. 가치는 더 똑똑한 에이전트를 신뢰하는 데 있지 않고, 에이전트가 결코 신뢰될 필요가 없을 만큼 충분히 좋은 검증기와 게이트를 짓는 데 있습니다. 그것은 기술에 대한 제약이 아니라 — 공장이 그것을 배포할 수 있게 하는 유일한 아키텍처이고, 이 책 전체가 벌어 온 같은 교훈을 새 영역에서 되풀이한 것입니다. 기계는 가속하고, 사람은 서명하며, 그 사이의 하니스가 가속을 안전하게 만듭니다.

현실 세계에서는

연결을 위한 에이전트형 AI는 2026년에 (파일럿/PoC) 능력으로, 벤더-자체보고 와 초기-연구 증거 — 정확히 최전선 점수표가 더 넓은 에이전트형 범주에 배정하는 등급 — 를 가집니다. 구체적 닻은 실재하나 경계 지어져 있습니다. 동료심사 작업이 LLM을 규칙 기반 PLC 제어기와 Modbus TCP로 통합하고, 모든 출력을 게이트하는 논리 사슬 검증 틀과 가중 정확도율을 가지며, 어떤 하드웨어보다 앞서 전적으로 프로세스 에뮬레이터와 Modbus 시뮬레이터 안에서 검증된 것을 시연합니다 — 이 장이 기대는 검증-그다음-행동 규율의 가장 또렷한 게시된 본보기입니다 [6]. 가상 커미셔닝은 신기함이 아니라 성숙한 산업 관행이며, 그것이 하드웨어 없는 샌드박스를 회피가 아니라 신뢰할 만한 것으로 만듭니다 [7]. 오픈소스 OPC UA 구현과 asyncua 라이브러리가 시뮬레이션된-엔드포인트 테스트베드를 오늘 지을 수 있게 하고 [8][9], NIIMBL Big-Data 상호운용성 프로그램이 정확히 이것을 능동적으로 구하고 있습니다 — LLM 기반 에이전트가 기기 연결을 가속·표준화할 수 있는지 시연하는 샌드박스 PoC를, 추적 가능한 산출물과 미래 상태 GxP 가이드 보고서를 이름 붙은 산출물로 [1]. 아직 존재하지 않는 것은 GMP 라인 위의 검증되고 상용 중인 에이전트형 연결 시스템입니다. 그러나 그것을 경계 지을 거버넌스 틀은 이미 구체적입니다 — ISPE GAMP AI 가이드의 통제 계층, Annex 22 초안의 핵심 사용에 대한 정적-그리고-결정론적-한정 규칙, 그리고 Purolea 서한의 사람 검토 집행 — 그러므로 정직한 독해는, 공학은 오늘 샌드박스에서 시연 가능하고 검증된 배포는 아직 앞에 있는 다스려진 빌드라는 것입니다 [5][10][11].

핵심 용어

에이전트형 AI(Agentic AI) — 텍스트만 초안 잡는 것이 아니라 계획하고, 도구를 부르고, 결과를 관찰하고, 목표를 향해 행동하는 루프 안에 놓인 LLM. 여기서는 연결에 겨누어져, 기기-대-공장 매핑을 제안하고 검증기와 사람 게이트가 제안과 배선 사이에 섭니다.
도구 사용 / 함수 호출(tool-use / function-calling) — 채팅 모델을 에이전트로 바꾸는 능력. 모델에 타입 지정 호출 가능 함수(주소 공간 읽기, 정준 태그 룩업)가 주어지고 결과가 다음 단계로 먹여지는 구조화된 호출을 냅니다.
Model Context Protocol (MCP) — 시스템의 도구와 데이터를 LLM 에이전트에 균일한 인터페이스로 노출하는 게시된 관례. 한 에이전트가 시스템마다 맞춤 접착제 없이 히스토리안·OPC UA 서버·태그 사전을 몰 수 있게 합니다.
커넥터 매핑(connector mapping) — 기기의 원시 소스 노드나 레지스터와 정준 공장 태그 사이의 대응으로, 데이터형·단위·품질을 나름. 에이전트가 초안 잡고 검증기가 점검하는 산출물.
정준 모델 / 태그 사전(canonical model / tag dictionary) — 각 신호에 대한 공장의 공유 정의(정준 태그, 기대 데이터형, UCUM 단위, 정상 운전 범위). 검증기가 제안을 대조하는 접지 진실이자, Book 3가 설계하는 통합 네임스페이스.
논리 사슬(Chain-of-Logic, CoL) 검증 — LLM의 출력을 독립적이고 점검 가능한 하위조건(소스 존재, 데이터형 일치, 단위 존재·정확, 값 범위 안)으로 분해하여, 각각을 모델의 말이 아니라 접지 진실에 대조해 점검하기.
정확도율(Correctness Rate) — 통과한 CoL 하위조건의 가중 합, 0에서 1까지로, 소리 없는 오염원 점검(소스 정체성, 단위 정확성)이 가장 무겁게 가중됨. 매핑당 단 하나의 감사 가능한 숫자.
사람 개입(HITL) 게이트 — 정확도율 1.0에서만 매핑을 자동 수락하고 나머지는 모두 예외 기반 검토 이벤트로 올려 보내는 규칙. 그 보증은 결함 있는 매핑이 결코 자동 수락되지 않는다는 것.
에이전트-대-결정론 벤치마크 — 손으로 쓴 규칙 엔진이 안정적이고 대량인 기기 계열에서 이기고 에이전트는 새로운 긴 꼬리에서만 위험을 무릅쓸 값어치가 있음을 보이는 비교. 성숙한 아키텍처는 한 게이트 뒤의 둘의 하이브리드.
가상 커미셔닝(virtual commissioning) — 물리 배포 이전에 시뮬레이션된 기기에 대고 제어 소프트웨어·통신 프로토콜·통합 논리를 검증하기. 성숙한 Industry 4.0 관행이자 하드웨어 없는 샌드박스의 기반.
클라우드 샌드박스 / 프로토콜 에뮬레이터 — 상용·GMP 연결이 없는 격리된 환경으로, 시뮬레이션된 OPC UA 서버와 Modbus 슬레이브가 실제 하드웨어를 대신하여, 에이전트의 결함 제안이 기록을 오염시키는 대신 시험에 실패하게 함.
감사 준비된 산출물(audit-ready artifact) — 각 매핑이 내는 추적 가능한 기록(설정, 근거, CoL 결과, 정확도율, 처분, 고정된 모델 버전과 프롬프트 해시, 검토자 서명). 미래 검증이 필요로 하는 ALCOA+ 증거로, PoC에서부터 설계되어 들어감.
미래 상태 GxP 가이드(future-state GxP guidance) — PoC를 GMP 봉투 바깥의 타당성 시연으로 틀짓되, 검증된 시스템으로 가는 문서화된 경로를 짝지음: 결정론적 하니스를 검증하고, 변경관리 계획 아래 에이전트를 통제하며, 그것을 비핵심·사람 개입으로 유지하기.
Annex 22 초안 / Purolea 경고 서한 — 규제 경계: Annex 22는 핵심 GMP에 정적·결정론적 모델만 허용하고 생성형 AI를 그것에서 배제함. Purolea 서한은 사람 검토 없이 GMP 기록을 생성한 에이전트에 대한 FDA의 첫 집행.

이것이 이끄는 곳

최전선은 그려졌고, 그 단 하나의 근시일 응용이 살펴졌으며, 책 전체가 벌어 온 평결이 마침내 도래합니다. 마무리 장, 정직한 평결: 바이오 제조에서 ML/AI가 정말 어디에 서 있는가는 스물아홉 장 전체에 걸쳐 장부를 결산합니다 — 무엇이 오늘 진정으로 상용급이고, 무엇이 파일럿이며, 무엇이 과대광고인지, 그리고 또렷한 눈을 가진 팀이 무엇을 짓고, 사고, 무시해야 하는지 — 이 장의 규율을 한 데이터 점으로 더하여: 2026년 가장 가치 있는 에이전트형 AI는 자신이 결정자가 아니라 배관임을 알고 그에 맞게 검증되는 것입니다.

이 장에서 다루는 내용​

에이전트가 실제로 겨누는 병목​

여기서 "에이전트형"이 뜻하는 것: 계획-행동 루프와 도구 사용​

논리 사슬 검증기: 유창한 제안을 점검 가능한 것으로 바꾸기​

실행 가능한 하니스: agentic_connectivity.py​

에이전트가 위험을 무릅쓸 값어치가 있을 때, 그리고 규칙 엔진이 이길 때​

추적 가능한 산출물: 나중의 검증이 필요로 할 것​

샌드박스: 공장을 건드리지 않고 그것을 증명하기​

미래 상태 경로: 샌드박스 PoC에서 검증된 시스템으로​

미해결인 부분: 에이전트의 도달 범위가 정확히 검증이 가장 어려운 곳이다​

이 장이 모델 모음에 더하는 것​

왜 중요한가​

현실 세계에서는​

핵심 용어​

이것이 이끄는 곳​