上海交大發布蛋白質設計模型“Venus”,用AI訓練“六邊形戰士”

以去年諾貝爾化學獎授予AlphaFold開發者爲標誌,蛋白質設計,已成爲當今AI for Science最熱門的交叉研究領域。然而預測結構,只是一款功能過硬的蛋白質產品誕生的起點,其後通常還需要豐富的專家經驗配合數以萬計的實驗試錯,長期以來,蛋白質設計改造的時間長、成本高、試錯密集問題,一直是業界難題。

3月22日,上海交通大學洪亮教授團隊發佈最新成果,使這些問題迎刃而解。團隊將AI與蛋白質設計與改造相結合,建立了全球最大的蛋白質數據集,基於該數據集訓練的模型,可以精準、高效地預測、設計蛋白質的功能,把蛋白質生產由“緩慢的試錯”變爲“高效率的精準設計”。該成果配合行業領先的自動化設備,已經進行產業化落地,把蛋白質設計從原先的“複雜科學”變爲如今的“簡單工程”。

建立全球最大的蛋白質序列數據集

蛋白質是由氨基酸序列構成的,氨基酸序列的長度從數百個到上千個不等。AI時代,數據是推動技術進步的核心資源,龐大的蛋白質序列數據集爲AI模型提供了豐富的“學習材料”,能幫助模型更好地理解蛋白質的序列、結構和功能關係。洪亮團隊建立的蛋白質序列數據集Venus-Pod(Venus-Protein Outsize Dataset)含有近90億條蛋白質序列,包含數億個功能標籤,是全球數據規模最大、功能批註標籤最多的數據集,也是另一行業知名模型——美國ESM-C模型訓練用的21億蛋白質序列的4倍體量。

該數據集包含36.2億條陸地微生物蛋白質序列、26.4億條海洋微生物蛋白質序列、24.3億條抗體蛋白質序列、0.6億條病毒蛋白質序列,覆蓋從常規地表生物到極端環境微生物的蛋白質序列信息,尤其是配備的數億功能標籤(蛋白質工作的溫度、酸鹼度、壓強等)。

這些數據意味着什麼?洪亮表示,首先該數據集構成了巨大的“蛋白質礦藏”,使得人類有可能挖掘新的蛋白或者生物催化劑,助力我們生物醫藥和合成生物學的快速發展;其次,AI大模型有望通過海量數據的學習和掌握自然界蛋白質的進化模式,爲AI設計優異的蛋白質產品提供了寶貴的學習資料。

瞄準蛋白質“功能預測”,用AI訓練“六邊形戰士”

蛋白質是由20種氨基酸組成的一條高分子鏈,這個高分子鏈會扭曲並摺疊成獨特的三維結構,正是這種獨特結構賦予了特定蛋白質的生物功能。2024年,諾貝爾化學獎頒發給谷歌DeepMind團隊,該團隊利用AI技術精準解析了蛋白質序列到三維結構的關係,解決了困擾生物學家長達50年的基本難題。然而,一個現實的問題是:如果我們稍微改動蛋白質的氨基酸序列,哪怕只是1%的微小改變,蛋白質的整體結構看似沒有發生明顯變化,但它的功能大概率會變差,甚至完全喪失。換言之,要設計出一款成功的蛋白質產品,不能只關注它的三維結構,而是要能成功預測和設計它的功能。因此,洪亮教授團隊“另闢蹊徑”,不再執着於蛋白質的結構,而是直接瞄準“功能預測”這一終極目標,將複雜的蛋白質設計變成以需求爲導向,配合少量實驗輸出結果的簡單過程。

“我們訓練了Venus(啓明星)系列模型,與DeepMind團隊的AlphaFold預測蛋白質結構不同,這個模型學習自然界蛋白質序列的組織規則以及它與功能之間的關係,其預測蛋白質突變功能的精度位居行業榜單之首。”洪亮表示,Venus系列模型具備兩大核心功能:“AI定向進化”與“AI挖酶”。所謂“AI定向進化”是指 Venus系列模型可以對一個不盡如人意的蛋白質產品的多種性能進行優化,讓它成爲一個“六邊形戰士”滿足應用需求。而“AI挖酶”則是指 Venus 系列模型基於其海量的未知功能蛋白質數據集,可以“海選超能力戰士”,去精準發掘滿足苛刻應用需求的具備超常規功能的蛋白質,比如極度耐熱、極度耐酸、極度耐鹼、極度耐胃腸消化等。這些超常規功能的蛋白質在生物技術、醫藥研發和工業生產中具有巨大的應用潛力,能夠爲相關領域帶來創新和突破。

與此同時,配合Venus系列模型的全球首款低通量大體積蛋白質表達、純化與功能檢測自動化一體機,可在24小時內不間斷地完成100餘個蛋白質的表達、純化與檢測任務,較人力效率提高近10倍,將大大減少研發過程中的人力、物力和時間成本投入,顯著提高蛋白質工程與合成生物學研究的效率。其宗旨就是“設計AI化,實驗自動化”,讓科研人員從繁瑣的設計和實驗中解放出來,他們只需要提出問題,AI和自動化來解決問題,最終將複雜的蛋白質科學發現變成“傻瓜相機式”的簡單過程。

已有多款產品落地,助力阿爾茲海默等疾病的診斷

從基礎科研到產業應用,在任何科學領域都是一項從0到100的挑戰,AI蛋白質設計也不例外:經AI設計出的蛋白質在實驗室環境中表現出色,並不能保證它在中試階段或大規模生產中同樣能夠維持優異的性能,這是因爲產業化生產涉及更大規模的原料處理、更復雜的工藝控制以及更嚴格的質量標準,這些因素都可能對蛋白質的性能產生影響,而經過Venus系列模型設計的多款蛋白質已經實現了落地產業化。

以國內生長激素龍頭金賽藥業的單域抗體耐鹼性改造爲例。提升蛋白質的耐鹼性歷來是一項極具挑戰性的工作,洪亮團隊藉助該模型結合少量溼實驗閉環迭代驗證,不到 1 年將普通單域抗體耐鹼性提升 4 倍,每年爲金賽藥業節約上千萬元成本。該成果已實現多個批次 5000 升放大生產,成爲全球首款由大模型設計並規模化生產的蛋白質產品。

另一項Venus系列模型的創新應用則是對某體外診斷頭部公司鹼性磷酸酶(ALP)的改造項目。ALP 因高穩定性和靈敏度被廣泛用作標記酶,其活性越高,檢測靈敏度越高,從而能夠檢測到極低的生物標誌物,但提升ALP的活性一直是一個挑戰。Venus 系列模型成功優化 ALP,使其分子活性超國際頭部公司產品 3 倍,爲超敏檢測診斷(如心肌梗塞、阿爾茲海默症)帶來巨大價值。目前,改造後的 ALP 已進入 200L 規模放大生產階段,標誌着 Venus 系列模型成功實現產業轉化。