田淵棟:連續思維鏈效率更高,編碼多個路徑,“疊加態”並行搜索

AI也有量子疊加態了?

這是AI大牛田淵棟團隊的最新研究成果。

傳統LLM通過生成 “思維token”(如文本形式的中間步驟)進行推理(即離散思維鏈),但在處理複雜任務(如判斷有向圖中節點是否可達)時效率低下,需要O(n^2)步解碼(n爲節點數),且容易陷入局部解。

近期研究發現,用連續隱向量(非離散token)進行推理能顯著提升性能,但缺乏理論解釋。

田淵棟領銜來自UC伯克利、UCSD的科學家們利用連續空間中的 “疊加態”,讓大模型進行並行推理,大幅提升了模型在圖可達性等任務中的表現,給上述連續思維鏈提供了理論支持。

團隊證明了:

對於具有n個頂點且直徑爲D的圖, 一個包含D步連續CoTs的兩層Transformer可以解決有向圖可達性問題,而具有離散CoTs的恆定深度Transformer的最佳已知結果需要O(n^2)個解碼步驟。

簡單來說,對於有向圖可達性問題,離散思維鏈類似於深度優先搜索(DFS),每次只能選擇單一路徑,導致步驟多且容易受限。

連續思維鏈可以同時編碼多個候選圖路徑,類似於廣度優先搜索(BFS),並且可以利用這種“疊加”進行隱式的「並行搜索」,比離散思維鏈更具優勢。

讓我們來看看實驗細節。

團隊設計了一種注意力選擇器機制,使模型能根據當前token選擇性地關注特定位置(如邊的源節點和目標節點),確保信息的有效提取。

這個注意力選擇器就好比我們開車時用的導航儀,能幫模型在一堆信息裡精準找到該關注的地方。

具體來說,當模型在處理信息時,遇到特定的 “標記”,比如表示一條邊結束的token,就像導航儀識別出一個路口標識,這時候它就會自動把注意力集中到這條邊的起點和終點節點上。

就像你看到 “前方路口右轉” 的提示後,會重點關注那個路口的位置。

如果沒遇到這種明確的標記,注意力選擇器就會模型去關注開頭的信息,比如問題最開始給出的條件,這樣就能確保模型不會在信息堆裡迷路,始終能從正確的起點開始思考。

兩層連續思維Transformer進行疊加態維護

什麼是連續思維的“疊加態”?

我們這裡所說的“疊加態” 就像一個裝着所有可能答案的“盒子”。

比如,從根節點出發走c步後,這個盒子裡不會只裝着一條路徑,而是同時裝着所有c步內可達的節點,這些節點的信息被 “揉” 成一個向量(即思維向量),讓模型能一次性處理所有可能性,而不是一次只考慮一條路徑。

第一層Transformer:“整理” 邊的信息

假設我們有一個有向圖,邊用token表示,每個邊token旁邊還帶着它的源節點(起點)和目標節點(終點)。

此外,根節點r是探索的起點,初始思維向量就是r的嵌入向量

第一層Transformer 有5個注意力頭,每個頭就像一個 “信息收集小助手”,它們的任務是:

經過第一層處理後,每條邊的信息都被明確標註了起點和終點,初始思維向量也被保留下來,作爲下一步探索的基礎。

第二層Transformer:“並行探索” 所有可能路徑

這一層就像 “探索指揮官”,它會根據當前的疊加態(即當前能到達的所有節點),去尋找下一步能到達的新節點:

MLP層:“過濾” 和 “平衡”

團隊使用ProsQA數據集的子集進行實驗,該子集中的問題需要3-4推理步長來解決,且圖中的每個節點都作爲一個專用token注入到詞彙表中。

實驗結果顯示,採用COCONUT(連續思維鏈)的2層Transformer模型在解決ProsQA問題時表現出色,準確率接近100%

相比之下,12層的離散CoT模型準確率僅爲83%,而無CoT基線模型只能解決約75%的任務。

此外,團隊還通過對注意力模式和連續思維表示的分析,進一步證實了模型中存在預期的疊加態搜索行爲,直接支持了“疊加態存在”的理論假設。

田淵棟任職於Meta GenAI(前FAIR),但業餘時間是一位小說家(doge)。

沒錯,具體來說是科幻小說家。

田淵棟在談到第一部作品的寫作動因時說:

2020年到2021年,他完成了第一部長篇科幻小說《破曉之鐘》,該作品於2024年6月正式出版。

《破曉之鐘》講述了幾個初出茅廬的科學家們如何面對來自外太空的挑戰、如何處理人類危機的故事。

但區別於《三體》,《破曉之鐘》的技術背景離我們當前所處的時代更近,甚至都是我們這幾年人人都在談論、全球火熱的技術風口。

這本書的核心觀點是:AI只是在模仿數據,卻讓人誤以爲它有智慧

這一觀點寫於ChatGPT爆火之前,卻精準預言了大語言模型的本質。

這部作品也收穫了不少讀者的好評。

田淵棟在今年5月接受交大校友採訪時還透露,由於寫第一部小說時還沒有大模型,所以每個字都是自己手敲的,接下來的第二部應該會用AI嘗試一下輔助寫作。

目前,他的第二部小說正在構思中,還是延續《破曉之鐘》世界觀,時間線會往後推很多,可能涉及到“羣體意識”和“星際殖民”這類議題。

他說:

論文地址:https://arxiv.org/abs/2505.12514

[1]https://x.com/tydsh/status/1935206012799303817[2]https://zhuanlan.zhihu.com/p/15135181332?share_code=1io696PXYfDXY&utm_psn=1919011036050219530[3]https://www.douban.com/doubanapp/dispatch/book/36946627?dt_dapp=1

— 完 —