분자를 모델링하기: 서열, 모달리티, 개발성

📍 현재 위치: 2부 · 발견과 개발, 모델링 — 5장. 표적은 이름이 붙었습니다. 이제 프로그램은 그 개념을 실제 후보 분자로 바꾸고, 우리는 "분자"가 그래프에게 도대체 무엇인지를 모델링합니다.

발견은 하나의 체(sieve)입니다. 프로그램은 여러 후보 항체를 만들어 내고, 측정하고, 효력이 있으면서 동시에 제조 가능한 단 하나의 리드(lead) 로 좁혀 갑니다. 그 체질의 모든 단계는 모델링할 가치가 있는 엔티티와 결정을 낳습니다 — 하지만 먼저 우리는 겉보기에는 단순한 질문 하나에 답해야 합니다. 우리가 "그 분자"라고 말할 때, 그것은 그래프에게 어떤 종류의 것일까요? 그 답은 알고 보면 세 가지 서로 다른 것이며, 이 셋을 분리해 두는 일이야말로 모델이 하나의 항체를 데이터베이스 속 서열에서 약병 속 단백질까지 따라갈 수 있게 해 줍니다.

쉽게 말하면

하나의 노래는 동시에 세 가지입니다. 적힌 악보, 그것을 연주한 어느 한 번의 공연, 그리고 당신이 스트리밍으로 듣는 녹음이죠. 이 셋을 혼동하면 "같은 노래가 두 번 연주되었다"고 말할 수 없습니다. 후보 항체도 똑같은 수수께끼입니다. 그것의 서열 — 악보, 복사해서 이메일로 보낼 수 있는 순수한 정보 — 이 있습니다. 그것으로부터 실제로 만들어진 단백질 배치(batch) 하나하나 — 공연들 — 이 있습니다. 그리고 그것의 모달리티와 거동 — 그것이 어떤 종류의 음악인지 — 가 있습니다. 이 장은 이 셋을 떼어 놓습니다. 오직 그렇게 해야만 그래프가 이 약병 속 단백질이 저 서열로부터 만들어졌고 이런 방식으로 거동한다고 말할 수 있기 때문입니다.

이 장에서 다루는 내용

우리는 후보 분자를 세 가지 별개의 것으로 모델링합니다 — 서열(정보), 물질(만들어졌을 때의 단백질), 그리고 모달리티(클래스)로요 — 그런 다음 개발성(developability) 을 보고서 깊숙이 묻힌 점수가 아니라 후보가 지니거나 결여하는 일련의 성향(disposition) 으로 모델링합니다. 우리는 한 후보의 레코드를 해부하고, 리드를 선택하는 선별 캠페인이 그래프가 다시 재생할 수 있는 occurrent임을 보이며, 대부분 끝내 만들어지지 않는 수천 개의 후보에 걸쳐 설계 의도를 모델링하는 어려운 문제로 마무리합니다.

분자는 물질이기 이전에 정보다

발견에서 가장 깊은 모델링 수는 서열(sequence) 을 실체(substance) 로부터 분리하는 것입니다. 항체의 아미노산 서열은 일반적 의존 연속체(generically dependent continuant) 입니다 — 제품 개념이나 레시피와 같은 범주이죠 — 왜냐하면 그것은 손실 없이 매체를 가로질러 복사될 수 있는 정보이기 때문입니다. 그것은 데이터베이스에도, 이메일에도, 제조 기록에도 살아 있으며, 그 모든 곳에서 동일하게 그 자신입니다 [1]. 반면 단백질 은 세포가 만들어 낸 뒤에야 비로소 존재하는 물질 엔티티(material entity) 입니다. 이것은 현학이 아닙니다. 바로 이것이 그래프로 하여금 BATCH-2026-001의 물질이 특정 서열을 expresses한다고, 하류에서 만들어진 원료의약품이 그 같은 서열을 짊어진다고, 그리고 물리적으로 별개인 두 로트가 정확히 같은 정보 엔티티를 실현하기 때문에 "같은 분자"라고 진술하게 해 줍니다. 서열과 실체를 하나의 노드로 뭉뚱그리면 그 어느 것도 말할 수 없게 됩니다.

모달리티(modality) — 단일클론항체, 이중특이성, 항체-약물 접합체, 융합 단백질 — 는 또다시 세 번째 것입니다. 후보가 그것의 인스턴스인 클래스 이며, 단백질 온톨로지(Protein Ontology)와 모달리티 어휘가 공급합니다. 모달리티가 모델에 중요한 이유는, 그것이 어떤 하류 공정 클래스가 애초에 적용 가능한지를 결정하기 때문입니다. 이중특이성은 단순 mAb에는 없는 공정 단계와 품질 속성을 함의하며, 후보를 모달리티로 유형 지정하면 그래프가 어떤 제조 템플릿이 들어맞는지를 추론할 수 있습니다. "로트를 가로지르는 같은 분자"라는 주장은 항체 그 자체에 대한 공유되고 검증된 유형 위에 놓입니다.

# bioproc.ttl + align.ttl — the antibody as both a bp: material and a shared OBO molecule.
bp:Antibody a owl:Class ;
    rdfs:subClassOf bp:Material ;
    rdfs:subClassOf obo:GO_0071735 .   # GO 'IgG immunoglobulin complex' (verified via OLS4)

물리적으로 별개인 두 로트가 "같은 분자"인 것은 정확히 그것들이 같은 서열을 실현하고 이 같은 공유 클래스를 인스턴스화하기 때문입니다.

개발성은 숫자가 아니라 성향이다

후보는 표적을 완벽하게 결합하면서도 여전히 개발 불가능할 수 있습니다 — 응집하기 쉽거나, 불안정하거나, 발현이 어렵거나, 고농도에서 점성이 높을 수 있죠. 개발성(developability) 은 후보가 실제로 제조될 수 있는지를 결정하는 속성들의 묶음입니다 [2]. 순진한 모델은 이것들을 컬럼 안의 숫자로 기록합니다. 더 나은 모델, 그리고 BFO가 제공하는 모델은 이것들을 성향(disposition) 으로 다룹니다. 후보는 응집하는 성향을 지니며, 이 성향은 스트레스 하의 응집 과정에서 실현되고(realized in), 유형 지정된 값을 산출하는 OBI 분석에 의해 측정됩니다(measured by). 성향은 현재 측정되고 있든 아니든 존재하는 분자의 실재하는 특징이며, 분석 결과는 그것의 증거입니다.

왜 이 구분에 공을 들일까요? 그것이 발견이 실제로 추론하는 방식을 포착하기 때문입니다. "이 후보는 응집한다"는 분자의 본성에 대한 주장이고, "분석에서 고분자량 종이 12% 측정되었다"는 그 주장을 뒷받침하는 하나의 측정입니다. 성향을 그 측정과 별도로 모델링하면, 그래프는 동일한 근저 속성에 대해 여러 줄기의 증거를 축적하고, 두 분석이 어긋날 때 표시하고, 그 속성을 위험으로서 공정 개발로 앞으로 실어 나를 수 있습니다 — 거기서 응집하기 쉬운 분자는 특정한 관리 선택을 이끌어 냅니다. 이 분야가 발표해 온 전산 개발성 가이드라인은, 온톨로지 용어로 말하면, 일찍 선별할 가치가 있는 일련의 성향입니다 [3]. 데이터셋에서 리드는 정확히 그것 — 정보 더하기 물질 더하기 증거가 있는 성향 — 이며, 위의 12% 수치는 그것이 뒷받침하는 성향과 구별되는, 실제로 측정된 값입니다.

# instances.ttl — the lead candidate as information + material + evidenced dispositions.
bp:mAb-A a bp:CandidateMolecule ;        # the lead; a bp:Antibody, so it instantiates the shared GO class
    bp:hasSequence bp:SEQ-mAb-A ;        # the sequence — copyable information, not the protein
    bp:bindsTo bp:TARGET-X ;             # potent against the PRO target from the last chapter
    bp:selectedBy bp:SCREEN-1 ;          # chosen by the screening campaign (an occurrent)
    bp:hasDevelopability bp:DEV-agg , bp:DEV-tm , bp:DEV-titer , bp:DEV-visc .
bp:DEV-agg a bp:AggregationPropensity ;  # the disposition — a real feature of the molecule
    bp:measuredBy bp:DEV-Assay-agg ;
    bp:aggregationPropensityPct "12.0"^^xsd:float .   # the evidence (12 percent HMW species), not the disposition
bp:SCREEN-1 a bp:ScreeningCampaign ; bp:hasOutput bp:mAb-A .

하나의 후보 분자를 분리된 행들로 해부한 신분증: 서열 식별자를 가진, 일반적 의존 연속체(정보, 복사 가능)로 태그된 서열 행; 단백질 온톨로지 클래스(단일클론항체)를 가리키는 모달리티 행; 성향들 — 응집 경향, 열안정성, 발현 역가 경향, 점도 — 을 나열하고 각각을 그것을 측정한 OBI 분석 및 QUDT로 유형 지정된 결과에 연결한 개발성 블록; 이전 장의 PRO 표적으로 거슬러 가리키는 표적 결합 행; 그것을 후보 또는 리드로 표시하는 선택 상태 행; 그리고 단백질 물질은 나중에야 만들어지는 별개의 엔티티임을 강조하는 측면 주석을 보여주는 레코드 형태의 그림. 하나의 후보를 온전히 펼쳐 보면: 서열은 정보이고, 모달리티는 클래스이며, 각 개발성 속성은 자기만의 측정 분석을 지닌 성향입니다 — 그래서 분자의 제조 가능성 위험은 묻힌 숫자가 아니라 모델링된 사실로서 앞으로 실려 갑니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

리드를 선택하는 캠페인은 occurrent다

발견은 분자들의 집합일 뿐만 아니라, 그것들 사이에서 선택하는 과정 이며, 그 과정은 occurrent 로 모델링할 가치가 있습니다. 선별 캠페인 — 패널을 발현시키고, 결합 및 개발성 분석을 돌리고, 순위를 매기고, 고르는 것 — 은 정확히 1부의 상위 척추가 occurrent 쪽에 놓는 종류의 사건입니다. 그것을 모델링한다는 것은, 그래프가 이 리드가 선택되었다는 사실 뿐 아니라 그것이 어떤 후보들을, 어떤 분석에서, 어떤 기준으로 이겼는지 까지 기록한다는 뜻입니다. 그 출처(provenance)야말로 수년 뒤에도 방어할 수 있는 결정과 그저 주장만 할 수 있는 결정의 차이입니다. 규제 당국이나 파트너가 "왜 이 분자인가?"라고 물으면, 답은 하나의 서브그래프입니다. 캠페인, 그것의 후보 참여자들, 그들의 개발성 성향, 그리고 적용된 선택 기준 — 구체화된 OBI 연구 모델이죠 [4].

occurrent로 그려진 발견 캠페인: 왼쪽에는 후보 분자 노드들의 패널이 시간에 걸친 수평 과정으로 표시된 선별 과정 띠(발현, 결합 분석, 개발성 분석, 순위)로 들어가고, 분석 결과는 각 후보에 유형 지정된 값으로 붙습니다. 오른쪽에서는 단 하나의 리드 후보가 캠페인과 그 순위 기준으로 거슬러 가는 selectedBy 엣지와 함께 떠오르며, 거부된 후보들은 결정을 재구성할 수 있도록 참여자로 연결된 채 남습니다. 과정 띠는 occurrent로, 후보 노드들은 물질/정보로 색칠되어 있습니다. 과정으로 모델링한 리드 선택: 선별 캠페인은 occurrent이며, 그것의 후보 참여자, 분석, 기준이 그래프에 남습니다 — 그래서 "왜 이 분자인가?"는 회상이 아니라 서브그래프로 답할 수 있습니다. 저자가 AI의 도움을 받아 직접 제작한 그림입니다.

미해결 과제: 수천 개의 규모에서 의도를 모델링하기

여기서 정직한 어려움은 규모와 반사실(counterfactual)입니다. 실제 캠페인은 수천 개의 후보를 만들어 낼 수 있는데, 그 압도적 다수는 끝내 만들어지지 않고, 전진하지 않으며, 오직 서열과 몇 개의 분석 포인트로만 존재합니다. 그 하나하나를 성향과 출처를 갖춘 온전한 엔티티로 모델링하는 것은 가능하지만 경제적인 경우는 드물어서, 팀은 살아남은 것은 풍부하게, 나머지는 얄팍하게 모델링합니다 — 이는 곧 "왜 이 리드인가"에 대한 그래프의 설명이 패배한 후보들이 기록된 만큼만 완전하다는 뜻이며, 초기 단계 데이터는 악명 높게 지저분하고 큐레이션이 부족합니다. FAIR 이상(모든 후보가 일급의, 잘 기술된 엔티티)과 발견은 빠르게 움직이고 대부분의 후보는 일회용이라는 현실 사이에는 진짜 긴장이 존재합니다.

두 번째 열린 문제는 인 실리코(in silico) 에서 인 비트로(in vitro) 로의 연결입니다. 현대의 발견은 무엇이 발현되기도 전에 후보와 개발성 예측을 전산으로 만들어 내므로, 그래프는 (모델에서 나온) 예측된 성향을 (분석에서 나온) 측정된 성향에 관계 지어야 하며 — 어느 것이 어느 것인지에 대해 정직해야 합니다. 전산 예측을 실험 결과와 뒤섞는 것은 부주의한 모델이 불러들이는 조용한 데이터 무결성 실패입니다. 모든 개발성 주장을 그 증거 출처 — 예측인가 측정인가 — 와 함께 유형 지정하는 규율은 말하기는 간단하지만 일상적으로 건너뛰어지며, 그것은 정확히 그 예측들이 학습된 모델에서 나올 때 ML/AI 책이 고집할 종류의 출처입니다.

왜 중요한가

발견에서 내려진 결정은 전체 생애주기에 걸쳐 메아리치며, 그 대부분은 모델이 앞으로 실어 나를 수 있는 속성 위에서 내려집니다 — 모델이 그 수고를 한다면 말이죠. 여기서 표시된 응집 성향은 공정 개발에서 관리할 응집 CQA 가 되고 QC에서의 출하 시험이 됩니다. 여기서 이름 붙은 서열은 원료의약품이 일치시켜야 하는 정체성입니다. 분자를 증거가 있는 성향을 갖춘 세 개의 깔끔한 엔티티로 모델링하면 그 앞으로 이어지는 가닥은 자동으로 따라오고, 그것을 컬럼 몇 개를 가진 흐릿한 노드로 모델링하면 제조 팀은 발견이 이미 알았던 것을 처음부터 다시 도출하게 됩니다. 분자는 공정의 전체 길이를 여행하는 단 하나의 엔티티이므로, 그 모델을 제대로 잡는 일은 이후의 모든 단계에서 보상으로 돌아옵니다.

실제 현장에서는

항체 발견은 점점 더 개발성을 의식하는 방향으로 가고 있는데, 이것이 바로 이 장이 모델링하는 전환입니다. 임상 단계 항체에 대한 대규모 조사는 전진하는 분자와 실패하는 분자를 가르는 생물물리학적 속성이 무엇인지를 정량화했고, 전산 가이드라인은 이제 단 하나가 발현되기도 전에 그 속성들을 기준으로 후보를 선별합니다 [2][3]. 서열 자체는 이미 안정적인 식별자를 쓰는 데이터베이스에 살아 있고, 결합과 개발성을 측정하는 분석은 그래프가 다시 발명하기보다 참조할 수 있는 OBI 양식의 연구입니다. 여전히 고르지 못한 것은 후보의 모델링된 성향을 동일한 엔티티로서 제조까지 앞으로 실어 나르는 규율입니다 — 너무도 자주 풍부한 발견 모델은 기술 이전의 벽에서 서열 하나와 이름 하나로 납작해지면서, 다음 단계가 필요로 하는 바로 그 제조 가능성 지식을 내버립니다.

핵심 용어

서열(Sequence) — 항체의 아미노산 서열. 일반적 의존 연속체(정보)로 모델링되며, 그것으로부터 만들어지는 어떤 단백질 물질과도 구별됨.
모달리티(Modality) — 분자의 종류(단일클론항체, 이중특이성, ADC, 융합 단백질). 어떤 하류 공정 및 품질 클래스가 적용되는지를 결정하는 클래스로 모델링됨.
개발성(Developability) — 후보가 제조될 수 있는지를 결정하는 속성들의 묶음. 분자가 지닌 성향(disposition) 으로 모델링되며, 각각은 과정에서 실현되고 분석에 의해 측정됨.
성향(Disposition) — BFO의 실현 가능 엔티티. 현재 측정되고 있든 아니든 존재하는, 어떤 것의 실재하는 특징(예: 응집하는 경향).
리드(Lead) — 전진하도록 선택된 후보. 패배한 경쟁자들과 선택 기준을 보존하는 선별 캠페인의 출력으로 모델링됨.
선별 캠페인(Screening campaign) — 발견 과정. 그것의 후보 참여자, 분석, 기준이 선택 결정을 재구성 가능하게 만드는 occurrent로 모델링됨.

다음 이야기

우리는 서열, 물질, 모달리티, 그리고 증거가 있는 성향으로 모델링된 리드 분자를 손에 쥐었습니다. 다음 장 세포주와 세포 은행 계보 모델링하기는 제조 계보가 시작되는 엔티티에 다다릅니다 — 공학적으로 만든 세포주와 은행에 보관된 세포 약병들, 이 책의 모든 derivedFrom 사슬의 뿌리에 있는 WCB-CHO-001이죠. 우리는 숙주 생물을 그 분류학 IRI로, 세포 은행 위계를 하나의 계통으로, 그리고 살아 있으며 변이하는 것의 정체성과 안정성을 그래프가 어떻게 표현하는가라는 불편한 질문을 모델링합니다.

이 장에서 다루는 내용​

분자는 물질이기 이전에 정보다​

개발성은 숫자가 아니라 성향이다​

리드를 선택하는 캠페인은 occurrent다​

미해결 과제: 수천 개의 규모에서 의도를 모델링하기​

왜 중요한가​

실제 현장에서는​

핵심 용어​

다음 이야기​