AI賦能生物製造的產業化落地:香蘭素一年從零起步量產百噸級、辣椒每畝增產近3成

縮短數據篩選時間,提升環境要素的匹配度,並預測設計出功效指標倍數級改良的新原料,是AI在生物製造領域從理論到實驗室再到田間地頭的應用路徑。

尤其是以百圖生科、智峪生物、創建醫療爲代表的一批新興企業,正在醫藥、合成生物、化妝品領域搭建AI賦能的產業應用落地項目。

AI賦能生物製造流行路徑:提升酶篩選效率,挖掘新原料

今年7月,工信部披露人工智能在生物製造領域典型應用案例名單(第一批)。當中囊括了多個關於利用AI大模型針對蛋白質、酶、菌進行精準設計、改造的案例。

本月舉行的第七屆中國製藥工業博覽會上,中國電子信息產業發展研究院人工智能產業發展研究室主任於萍在演講中提到,團隊根據相關案例收集階段的數據彙總發現,目前AI在生物製造應用主要路徑中,有近3成爲生物反應過程的智能控制、佔比約25%的爲高性能蛋白質原件設計及構建,以及12%的生物製造產品的智能檢測與質量控制和11%的細胞工廠的構建及優化。

目前已取得顯著成效的主要是酶的篩選設計,菌株構建效率提升、製造工藝優化升級三塊領域。能夠解決以往酶篩選週期長、天然酶功能有限且改造難度大大、菌株構建存在過程長、隨機性大、失敗率高、生產精確控制難、工藝優化依賴經驗的痛點。

例如,在天然酶的篩選上,AI工具可以精準預測地球上包括酶蛋白在內的所有已知蛋白質結構,總數可達到2.14億個。在製造工藝上,可實現溫度、PH值、氧氣濃度等十個關鍵參數的實時監測,並通過積累的大量數據深度學習建立預測模型,給出最佳工藝優化建議,減少中試次數和時間。

不過,於萍也坦言,當下仍然存在高質量數據匱乏、通用算法無法滿足特定領域需求繼而難以處理跨環境任務,以及複合型人才缺乏的痛點。

前述CMC藥博會上,第一批應用案例名單中的不少企業/機構來到現場分享了其應用路徑。其中,百圖生科憑藉基於AI大模型高效改造藥用酶用於酶替代療法入選了前述名單。其方式主要爲通過自主研發的AI大模型,針對現有酶設計相應突變並進行多目標優化,有效提高酶的活性和穩定性,從而高效篩選潛在靶點、設計藥物分子、預測藥物效果並降低免疫響應。

據百圖生科生物製造解決方案主任專家羅朝暉現場演講介紹,過往生命科學前沿領域數據嚴重匱乏,自身不足以構建AI模型。而將海量弱相關數據經過預訓練後,形成生命科學基礎的大模型,可從蛋白質/基因組等序列語言中學習編碼-功能的規律,從進化樹多樣信息中學習同源進化的約束規律。再經過微調訓練,預測缺乏數據的前沿問題。例如可完成新型抗體結構、基因元件功能、RNA翻譯效率、新型酶活性、菌株改造的預測。

羅朝暉談到,公司的生物語言大模型採用多學科交叉技術,達到了數億美元的投入強度。覆蓋了藥物設計、靶點預測、生物數據圖譜、基因和蛋白算法、實驗驗證系統。

其中的一款DNA大模型,屬公司給華大研究院定製的菌種大模型,旨在幫菌種改造提供基礎模型框架。該案例需達成的客戶需求包括對菌株物種分類、菌種生存環境、菌種間相互作用情況進行細分預測。而公司的解決方案系,系通過BioMap基因組庫裡100萬+的Genome序列+註釋,基於進化距離/生境分佈,選擇出代表基因組,形成10萬+Genome的微生物代表基因組庫,再進行菌種大模型預訓練。使客戶獲得精準的菌種進化距離差異表徵能力和精準的生境差異表徵能力。

出現在第一批案例中的還有中科院天津工業生物技術研究所。該團隊在菌株創制、酶庫構建、AI智能系統開發、酶/菌精準化應用中,也有諸多專利成果。

中科院天津工業生物技術研究所副研究員高樂以“基於底物結構特性定製開發複合纖維素酶製劑”項目爲例介紹,團隊於纖維素酶loop區定點突變環節,建立了氨基酸序列機器學習方法,突破纖維素酶活力和熱穩定性雙提升的技術瓶頸。在菌絲形態調整環節,讓里氏木黴菌絲形態成功調整爲菌球狀態,使之利於規模化發酵過程中傳氧傳質。

而在基於底物結構破譯酶系組成上,由於木質纖維素複雜結構與多樣性降解酶系組成之間定量構效關係仍不明確,導致基於底物結構定製的高效降解酶系精準設計難度加大。可複雜底物-酶系機器學習模型爲擺脫實驗先驗、精準高效破壞木質纖維素提供了新策略。到了智能發酵工藝推動逐級發酵放大階段,團隊建立模型指導的智能發酵技術確保複合纖維素酶製劑規模化放大工藝可優化。

談及機器學習助力木質素降解酶的開發,高樂坦言,過去木質素有序結構難、酶解效率低、現場方法能物耗大。而開發了熒光基因修飾的木質素底物,創新了木質素降解菌株的液滴微流控高通量篩選方法,挖掘出天然生境中解聚木質素自然生物系統200株。

其中,不溶性、可溶性木質素可高效利用,實現鹼性木質素、菌體合成。全基因組註釋預測了14221個蛋白質編碼基因,大量潛在的響應木質素的關鍵元件。氣質連用對M.wuxin降解木質素產物譜進行分析,鑑定出20多種中間芳香族代謝物。成功預測了包括苯乙酸途徑在內的至少9種木質素衍生芳香族中間代謝物的代謝途徑,豐富真菌細胞內的木質素代謝網絡。並且搭建蛋白與底物配體互作機器學習模型,破解兩者有效結合模式。

據悉,機器學習模型魯棒性方面,公開數據庫運行準確率超過86%。可解釋性方面,能夠準確預測蛋白和配體結合位點。並能理性調控底盤細胞木質素代謝網絡,強化木質素定向降解和有序轉化。也打通了木質素生物合成油脂蛋白技術體系——菌體中蛋白含量30.3%、油脂含量45.5%,創新了能值蛋白原料合成的新方法。

換言之,人工智能在篩選數據時提升效率、精確控制工藝反應環節上已實現從理論到實驗室的閉環。

產業化落地現成路徑:香料快速量產、助力農業增產、提升化妝品功效

AI的產業化落地也在生物原料、農業、日化行業得以實踐。前述工信部公佈的第一批案例中,智峪生科憑藉高性能蛋白質元件設計及構建入選。其自主開發“ZCloud”生物計算平臺和“ZBot”實驗驗證平臺,基於機器學習和大語言模型從海量生物數據庫中推理合成路徑,解決“尋酶、挖酶、改酶”等核心痛點,極大提高酶法合成效率。

據智峪生科創始人王晟介紹,相比較傳統化工製造以化石原料爲主,存在高碳排放問題,反應還要涉及高溫高壓等特殊條件。生物製造則以葡萄糖、油脂等生物質原料爲主,碳排放相較化工合成降低3到5成,反應條件溫和。

而酶是生物製造的關鍵催化劑。公司從尋路到挖酶到改酶全流程基於AI研發模式。如此一來,包括基於AI的逆生物,合成路線聯想算法,發掘新反應路徑效率都能大幅提升。

王晟認爲,AI加速了新酶的發現,助力更高效的生物合成可能性。若需要酶能跟小分子相互結合,那便要讓給定結合口袋的蛋白,配體複合體柔性對接。其開發的一款算法,結合口袋預測與虛擬篩選精度提高10%以上。即AI讓蛋白-配體柔性對接成爲可能,精確預測各類酶的屬性。

其還在演講中展示了一個算法輔助阿魏酸催化生成香蘭素的酶挖掘改造產業化案例——藉助fastAF2,團隊發現了一個活性是初始酶(CSO2)19.53倍的高活性替代酶SsCSO。通過算法與傳統方法結合改造後,得到了活性是SsCSO野生性3.34倍的高活性突變體。

談及酶法阿魏酸天然香蘭素,王晟透露,公司從0開始立項到量產,只花費了18個月。去年年底量產後已能達到一年100噸級別的量產水平。預計今年公司的香蘭素產值能達到3000萬,2026年起年產值能破億。

王晟另披露了公司在香精香料、天然保健品原料、天然化妝品原料、中藥現代化四大類的不同項目階段。其中,芹菜素、生育酚-葡萄糖苷都達到了生產環節。芹菜素預計明年產值2000萬,後年破億。

產業化落地應用不止是幫AI公司找到了商業轉化的機會,更是助力實體產業在產量、質量上尋求突破。

深鬆生物創始人王益榮在演講中談到,從AI應用大背景看,聯合國糧食及農業組織曾預測,到2050年,全球糧食需增產5成,而AI與合成生物學融合技術有望貢獻3成的增產潛力。深鬆生物自2016年開始基礎研發,通過菌種選擇進入農業賽道。2018年完成第一代產品研發,走向實際應用。2019年進行田間種植實驗、水產養殖實驗。核心邏輯是通過代謝解決農業問題,即促進根系代謝物與微生物代謝物相互作用,改善作物的代謝系統,提高生長速度和產量。構建作物與微生物共生體,提升整個系統的穩定性和生產力。提升土壤健康與作物代謝,降低對化學肥料和農藥依賴。

當前,深鬆團隊主要通過HMM層基因調控建模,利用Viterbi算法尋找最優路徑。預測最優的編輯靶點組合,提高編輯效率和準確性。該算法能夠綜合考慮隱狀態轉移概率和觀測序列概率,確保預測結果的可靠性。

其過去兩年在江蘇某地的水蜜桃基地、貴州某地的辣椒種植基地試驗。而辣椒基地的實驗結果表明,相比於空白對照組,生物酶組的一級品率高出8個百分點。產量上生物酶組高達13948.2斤/畝,相比對照組增收3187.67斤/畝。

深耕新蛋白領域的谷孚諮詢,也關注到了AI賦能植物基的兩大新方向。據谷孚諮詢科技經理樑燁詩介紹,在創新配方領域,Giuseppe AI平臺的生成式AI,可以在30萬種植物成分種根據需求生成配方。口感、質構改良範疇,相關機構則可以利用機器學習框架預測植物肉的硬度和咀嚼性,發現糖、脂肪、目標溼度是影響質感的關鍵因素。

對於AI賦能細胞培養肉的最新進展,樑燁詩透露,包括Gourmey和DeepLife兩家公司在內,合作建立了全球首個禽類數字孿生,使用實際生產週期中收集的基因組和細胞水平數據來訓練模型。加速研發、優化培養基投入,提升感官和營養水平。BioCraft則通過收集開源或數據庫數據,合成細胞內部生化機制圖像,分析出影響細胞增長的關鍵營養成分,或其他關鍵細胞生理機制。

而AI賦能發酵蛋白領域,以New Wave Biotech爲代表的團隊,結合機械模型和機器學習技術模擬生物過程,改進純化過程,提高蛋白得率,降低生產成本。

不止農業生產實踐,以應用人工智能輔助重組膠原蛋白精準設計入選工信部第一批案例的創建醫療,運用AI+BT技術,發掘關鍵性細胞結合位點,並進行蛋白序列設計與作用機制模擬驗證,打通乾溼實驗閉環,精準設計蛋白序列並優化發酵純化工藝,實現特殊型別分子重組膠原蛋白高效規模量產。

據創建醫療首席技術官李海航介紹,團隊利用AI+BT發掘關鍵XVII型膠原蛋白核心細胞結合位點,生物功能驗證完成了rhCOL17開發技術閉環。當中顯示rhCOL17展示出優異的光損傷修復能力,顯著修復表皮-真皮交界(DEJ)斷裂,恢復結構連續性。並促進I型、III型和XVII型膠原蛋白表達水平,展現出膠原蛋白網絡的調控能力。

目前的產品落地環節中,珀萊雅的源力系列2.0已採用了創建醫療的rhCOL17作爲核心抗老修護成分。

“AI在美妝領域應用剛剛起步,核心應用是場景,基於場景需迭代算法、沉澱數據。”瑞德林生物研發BG總裁李加忠認爲,場景包括智能挖掘新原料、功效機理驗證、人體功效研究(圖像識別、表觀年齡識別)、工業酶設計與改造、智能配方師等精準服務。

李加忠以膠原三肽的研發爲例回顧到,瑞德林團隊獲取了45種人源性膠原蛋白序列,窮舉了2826個三肽組合,算法進行940種序列頻率分析,再篩選評估出分子量小、更易透皮吸收的小分子膠原肽。

“所以,利用AI開發爆款原料的邏輯,在於爆款原料往往具有共性。包括強功效、差異化、話題性故事性和供應鏈穩定。而AI可以基於靶點篩選原料,且易於發現新原料。”李加忠總結道。

從增產提質到發現新原料賽道,AI正以影響生物製造關鍵環節的方式,重塑農業、食品、醫藥化妝品產業的迭代水平。

林辰/文

徐楠/編輯

(編輯:林辰)