DeepMind公佈AI4S最新進展:DeepMind的AlphaFold一年就畫了2億個蛋白質!
近日,Google DeepMind 創始人、諾獎得主Demis Hassabis在接受《60 Minutes》的採訪時提到,DeepMind的蛋白質預構成式AlphaFold僅一年時間就能繪製超過2億個結構圖。
這是一個十分驚人具象的進展!因爲在沒有 AI 加持的年代,人類繪製每一個結構圖都需要數年的時間。
這意味着,藥物的設計週期將從幾年縮短到幾個月甚至幾周!
蛋白質是所有生物體的基礎,由長鏈氨基酸組成,每個氨基酸都具有獨特而複雜的三維結構。這些結構源於物理化學原理和最低自由水平的多肽序列摺疊,所以,解析蛋白質摺疊是結構生物學中最重要的目標之一。
20 世紀 60 年代初,劍橋大學的兩位生物學家Max Perutz和John Kendrew將蛋白質培育成晶體,用X射線晶體學的技術確定了血紅蛋白和肌紅蛋白的三維結構。這項實驗耗時二十多年,爲兩人贏得了諾貝爾獎。
溶液狀態下的蛋白質結構也可以通過核磁共振解析,溶液比起晶體結構能夠描述生物大分子在細胞內真實結構。但是,有時候也會因爲蛋白質在溶液中結構不穩定能難得獲取穩定的信號,因此,往往藉助計算機建模或者其他方法完善結構解析流程。通過核磁共振解析的生物大分子結構,只佔到蛋白質數據庫(PDB)的10%。
這些技術複雜、耗時、昂貴,僅僅解析其中一個結構就可能需要耗費掉大量的時間和金錢,而且解析出的結構通常不是其天然形式。
在這些限制因素的影響下,與已知的大量蛋白質序列相比,已解析三級結構的蛋白質數量很少,PDB 條目數僅爲 200,988 個,科學家需要開發更多新的蛋白質結構預測方法。
自20世紀90年代以來,一些結構生物學家一直嘗試將神經科學網絡運用到蛋白質科學中,但淺層網絡和稀疏數據的侷限性讓他們止步不前。隨着計算機的發展,科學家們學會了如何更好地構建神經網絡,以便對更多層神經元進行穩定的訓練,這給蛋白質結構預測帶來了更大的機會。
2018,DeepMind推出 AlphaFold 的首個版本,利用深度學習預測蛋白質結構,證明了僅通過訓練一個蛋白質序列的神經網絡,即可學習特定蛋白質的潛力。它包含了一個卷積神經網絡,該神經網絡通過 PDB 結構進行訓練,根據目標蛋白質的氨基酸序列,從而預測蛋白質結構本身。
2020年,AlphaFold 2 的發佈取得了蛋白質結構預測方面的突破,歸功於兩個神經網絡模塊——evoformer 和結構模塊。evoformer 從MSA和模板中提取信息,在整個網絡中來回交換信息,進而修改模板假設的蛋白質結構,使 MSA 和模板處於正確的“嵌入空間”。
AlphaFold 2 結合基於蛋白質結構進化、物理和幾何約束的新型神經網絡架構和訓練程序,能夠在幾分鐘內預測蛋白質結構,且準確度驚人。據統計,AlphaFold 2 已經預測了2億個蛋白質結構,幾乎涵蓋所有已知蛋白質序列的數據庫。
前酶工程創新中心的主任John McGeehan表示,“我們花了數月甚至數年才完成的工作,AlphaFold 只用了一個週末就完成了。”
去年5月,AlphaFold 3 發佈。同年10月,瑞典皇家科學院宣佈將2024年諾貝爾化學獎授予Demis Hassabis,表彰他的團隊解決了一個50年曆史的難題:預測蛋白質的複雜結構。
在 AlphaFold 2 的基礎上,AlphaFold 3 擁有新一代架構和訓練方法,涵蓋了所有生命分子。它不僅可以預測蛋白質的結構,還可以預測幾乎所有生命分子的結構,包括蛋白質、DNA、RNA、配體等對於蛋白質與其他分子類型的相互作用。與PoseBusters 基準上的最佳傳統方法相比,AlphaFold 3 的準確度提高了50%。
AlphaFold 3 的核心是DeepMind Evoformer 模塊的改進版本。處理輸入後,AlphaFold 3 使用類似於 AI 圖像生成器中的擴散網絡來整合預測結果。擴散過程從原子雲開始,經過多個步驟最終收斂到其最精確的分子結構。
通過這個架構,AlphaFold 3 得以破解細胞中最大結構之一——核孔複合體的精細結構。作爲細胞核的"守門人",這個複合體掌控着遺傳物質DNA的進出,與癌症、衰老及神經退行性疾病密切相關。如今,人類首次看清了它原子層面的真容。
AlphaFold 3 可以通過預測藥物中常用的分子(如配體和抗體)擁有藥物設計能力,可以結合分子與蛋白質以改變它們在人類疾病中的相互作用方式。通過將AlphaFold與基於物理原理的軟件相結合,醫藥研究人員已能精確模擬這些相互作用。這項技術有望幫助科學家以前所未有的精準度設計靶向受體的分子。
Google DeepMind 還推出了 AlphaFold Server,一個預測蛋白質在細胞內如何與其他分子相互作用的工具。它是一個免費平臺,只需點擊幾下,生物學家就能利用 AlphaFold 3 的強大功能,對由蛋白質、DNA、RNA 以及一系列配體、離子和化學修飾組成的結構進行建模。
牛津大學腫瘤學博士 Samuel Hume 表示,AlphaFold Server 可以幫助他在五分鐘內製作出一個蛋白質結構,完成他整個博士期間的工作。
但是,據《自然》雜誌稱,AlphaFold 目前也面臨數據短缺的難題。公開可用的蛋白質數據庫,例如 PDB,主要是與ATP等生物分子相互作用的數據,而不是與藥物相互作用。缺乏的藥物數據限制了 AlphaFold 有效模擬藥物-蛋白質相互作用的能力。
爲了應對這一限制,一些製藥公司宣佈將基於AlphaFold 3 創造自己的AI模型版本。包括強生、AbbVie打算使用自己內部的專有數據,這些數據集包含了與各種藥物結合的蛋白質結構。這些數據不會與外部共享,製藥公司打造的模型也有訪問權限。
Google旗下的藥物研發公司 Isomorphic Labs 將 AlphaFold 3 與一套互補的內部 AI 模型相結合,致力於爲內部項目以及製藥合作伙伴進行藥物設計。Isomorphic Labs 正在利用 AlphaFold 3 加速並提高藥物設計的成功率——理解如何接近新的疾病靶點,並開發新的方法來探索此前無法觸及的現有靶點。
儘管這些私人數據可能帶來潛在的改進,但能否提升 AlphaFold 3 的性能仍是個未知數。儘管如此,AlphaFold 3 還是將生物世界帶入了高清時代,使科學家能夠洞察細胞系統的全部複雜性,包括結構、相互作用和修飾。Demis Hassabis稱,DeepMind將持續推動人工智能爲藥物研發提供解決方案,縮短藥物研發的時間週期和成本。
引用資料:
https://www.youtube.com/watch?v=1XF-NG_35NE
https://www.mittrchina.com/news/detail/13301
https://deepmind.google/technologies/alphafold/
https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/#life-molecules
https://www.theguardian.com/commentisfree/ng-interactive/2025/mar/28/ai-alphafold-biology-protein-structure
https://slguardian.org/alphafold-is-running-out-of-data-so-drug-firms-are-building-their-own-version/
https://www.nature.com/articles/d41586-025-00868-9
https://www.frontiersin.org/journals/bioinformatics/articles/10.3389/fbinf.2023.1120370/full
https://m.medsci.cn/article/show_article.do?id=16d65269677
雷峰網