Gero推出無結構小分子設計的人工智能模型

用於藥物發現的人工智能模型正變得更強大、更靈活,並且在某些情況下,在生物學方面更具通用性。這個不斷髮展的領域中較新的成果之一來自新加坡的生物技術公司Gero,該公司已經發布了ProtoBind - Diff:一種完全不依賴蛋白質結構數據的小分子發現生成模型。

大多數用於基於靶點的藥物設計的人工智能平臺在很大程度上依賴於3D結構或對接模擬,而ProtoBind - Diff僅基於蛋白質序列和配體信息進行訓練。它從超過一百萬個有活性的蛋白質 - 配體對中學習,利用預訓練的嵌入(embeddings)僅從一級序列推斷出有化學意義的相互作用。根據該模型的預印本的作者所述,這使得能夠在整個蛋白質組中生成配體——包括“結構數據不可用或不可靠的孤兒靶點(指那些研究較少、缺乏相關信息的靶點)、柔性或快速出現的靶點”。

對於老年科學(geroscience)——一個常常受限於靶點可操作性有限的領域——其影響值得關注;通過實現針對已知序列、未知結構靶點的分子設計,ProtoBind - Diff可能爲進入衰老的生物學灰色地帶提供更有效的途徑。

《長壽科技》:圍繞藥物發現中的人工智能的諸多熱鬧景象往往集中在優化上——更快的對接、更好的評分、更順暢的流程體系。相比之下,ProtoBind - Diff直接瞄準上游瓶頸:開啓蛋白質組的大量暗物質以進行治療性探究的能力。通過僅基於蛋白質序列而非結構數據來調節分子生成,它提供了一種針對無序、孤立或者僅僅是結構解析難度太大的靶點的研究方法。對於衰老生物學——一個常被指責爲靶點少而假設多的領域——這不僅僅是又一個模型基準;這是節奏的改變。我們對一個靶點了解越少,現在它就變得越有趣。

此次發佈特別值得關注的不僅僅是模型的設計,還有其意圖。Gero計劃發佈ProtoBind - Diff的權重和接口以供他人探索——在一個往往由專有平臺和閉環主導的領域,這是一個令人耳目一新的毫無防備的舉動。如果該模型表現如宣傳的那樣,它可能會加速老年科學迫切需要的早期假設檢驗階段的發現——即使在缺乏結構確定性的情況下也能快速生成探針。這可能不會使結構變得過時,但它確實促使思維方式的轉變:從等待清晰到在模糊中行動。對於一個涉及複雜性、異質性和進展緩慢的終點的領域來說,這可能正是它所需要的推動。

輸入序列,產出小分子

ProtoBind - Diff的核心是一個掩蔽擴散模型,該模型生成SMILES(一種基於文本的化合物表示形式)字符串,其條件是從預訓練的ESM - 2語言模型導出的蛋白質序列嵌入。與通常需要確定結合口袋或對接位姿的基於結構的方法不同,ProtoBind - Diff學習將序列環境與具有化學意義的配體特徵相關聯。

Gero公司的首席執行官兼聯合創始人彼得·費迪切夫(Peter Fedichev)表示:“設計能作用於蛋白質靶點的小分子是藥物研發中最困難的問題之一。經典建模面臨困境,因爲能量尺度、極化效應和蛋白質動力學的複雜性使得高分辨率預測幾乎不可能。但也許我們一直都在問錯誤的問題。”

他接着說:“大自然早就得解決這個難題了——進化優化了一種對蛋白質和分子如何相互作用進行編碼的生化語言。通過ProtoBind - Diff,我們正在利用這一點。這是一個從序列而非結構中學習的語言模型。它不模擬物理現象,而是從一百萬個真實實例中學習生物活性的規則。”

Gero公司首席執行官兼聯合創始人彼得·費迪切夫

該模型藉助預訓練的蛋白質嵌入(ESM - 2)和一個去噪擴散框架,僅在序列級信息的引導下生成SMILES格式的化學上有效且新穎的分子。作者寫道:“ProtoBind - Diff在不需要結構監督的情況下生成化學上有效、新穎且針對特定靶點的配體”[1]。雖然在訓練期間從未見過3D數據,但該模型的注意力圖與已知的結合殘基相匹配,這表明它僅從序列中學習到“具有空間意義的相互作用先驗”[1]。

衰老相關靶點已現端倪

儘管ProtoBind - Diff被視作一種通用的小分子發現引擎,但費迪切夫(Fedichev)告訴《長壽技術》(Longevity.Technology),傑羅(Gero)團隊正在積極將其應用於衰老相關生物學領域。他解釋說:“ProtoBind - Diff確實是一種通用的小分子發現引擎,旨在識別缺乏結構數據的衰老相關靶點的配體(能與受體結合的分子)。”

目前的工作包括爲參與炎症、新陳代謝和表觀遺傳調控的蛋白質生成候選分子(的工作)——這些領域是幾個衰老的特徵標誌的核心。他說:“在我們的測試基準中,我們納入了FTO(脂肪量和肥胖相關蛋白)——一種RNA去甲基化酶,抑制它可能有助於對抗與衰老相關的代謝功能障礙和慢性低度炎症。其他例子包括表觀遺傳擦除蛋白和讀取蛋白,如KDM1A和SPIN1,目前正在探索其抑制劑在癌症、炎症和纖維化中的應用——這些都與衰老生物學相關。”

他補充說:“衰老仍然是一個缺乏目標靶點的領域,在研究成果轉化開始之前很久,研究人員就需要快速生成分子探針的方法來測試生物學假設——通常是在缺乏高質量結構數據的情況下。這就是ProtoBind - Diff或其未來改進版本可能發揮變革性作用的地方。”

在基準測試中,ProtoBind - Diff比得上或者超過基於結構的模型(如Pocket2Mol和TargetDiff)在一系列“容易”和“困難”的靶點上的表現。在幾個結構數據缺乏的蛋白質上,該模型使用Boltz - 1展示出比基於晶體學數據訓練的模型更高的富集分數。

壽命效應也被提上議程,但時間是限制因素。費迪切夫(Fedichev)告訴我們:“壽命研究正在進行中,因爲它們需要大量時間和驗證工作。”

捷羅(Gero)公司的高級研究員、該項目的首席科學家康斯坦丁·阿夫恰喬夫(Konstantin Avchaciov)說:“我認爲,我們在創建理想生成模型的道路上纔剛剛開始。是的,在我們的基準測試中,ProtoBind - Diff模型優於一些現有的3D結構模型。儘管如此,我相信隨着我們繼續擴展數據集以涵蓋更多不同種類的蛋白質,我們將來會取得明顯更好的成果。”

接下來可能不需要結構

捷羅公司已將ProtoBind - Diff整合到其內部的藥物研發流程中,並正在探索在腫瘤學、免疫學、傳染病學和老年治療學方面的合作。一個公開的GitHub資源庫已經推出,並承諾很快會更廣泛地開放整個模型的訪問權限。

ProtoBind - Diff是否會成爲一個主要工具或者一代的墊腳石將取決於其在實際應用中的表現——但就目前而言,它似乎提供了衰老生物學長期以來所需要的東西:一種從序列到假設的更快途徑,即使沒有結構參與其中。