姚期智對話辛頓:AI有意識和知覺嗎?如何讓它擁有善意?
·“許多人對超級智能的恐懼沒有應有的那麼大,因爲他們仍相信我們身上有某種特殊的東西——主觀體驗、感知能力或意識……那是無稽之談,而且是危險的無稽之談。”
·“我們需要知道如何訓練它們,使其不想接管一切,而目前沒有人知道該怎麼做到這一點。”
你或許每天都在和AI對話,向它提問,讓它寫代碼、寫文案,流暢的迴應讓人覺得它真的“懂”你,但這種理解是真實的嗎?這背後是冰冷的計算過程還是正在萌芽的機器“心智”?它是否真的對你具有善意?我們需要一門“機器心理學”來理解它們嗎?
在剛剛落幕的2025WAIC世界人工智能大會期間,“AI教父”、諾貝爾獎與圖靈獎得主傑弗裡·辛頓(Geoffrey Hinton)和圖靈獎得主、中國科學院院士姚期智圍繞上述問題進行了精彩對話。以下爲對話實錄:
【對話】
是對大腦的模仿還是全新物種?
姚期智(圖靈獎得主、中國科學院院士、清華大學交叉信息研究院院長):神經網絡最初其實有點像是受神經系統的啓發。所以從某種意義上說,它是受大腦啓發的。現在我們已經創造出了這種驚人的計算機架構,它在某些方面似乎超過了大腦,問題是,我們是否還有什麼可以向腦科學(神經科學)學習的?
辛頓(諾貝爾物理學獎得主、圖靈獎得主):沒錯,如果沒有大腦作爲模型,我認爲根本不會有人去嘗試讓神經網絡發揮作用。我們知道這種東西肯定行得通,因爲大腦本身就是這麼運作的。因此,通過調節連接強度讓簡單單元組成的網絡進行學習的這個想法,完全是來自大腦。
現在的問題是,我們是否已經到了這樣一個階段:AI將自行騰飛,再也不需要來自大腦的啓發?我想大致上是這樣的。粗略地說,AI目前已經從大腦獲得了很多啓發,不需要再從中汲取太多了。但我認爲這並不完全正確。我認爲有一個特定方面,現有的AI模型仍然需要改進,而且可以從大腦得到很多啓發。那就是關於擁有多少種不同的時間尺度的問題。
在我們所有的AI模型中,神經網絡中權重的調整有一個慢速的時間尺度,而神經元活動的變化有一個快速的時間尺度。也就是說,當你改變輸入時,所有神經元的活動都會改變,但權重保持不變。權重只會慢慢發生改變。
而在真實的大腦中,神經元之間的連接——也就是突觸——會以許多不同的時間尺度進行適應。所以很長一段時間以來,我一直建議我們應該在神經網絡中嘗試引入三種時間尺度。我們應該有緩慢變化的權重,即普通權重;還應該有快速變化的權重。這些快速變化的權重能夠快速適應,但也會快速衰減。這樣可以提供一種容量極高的短期記憶。
然而,人們沒有這樣做是有原因的。Ilya Sutskever和我在2010年嘗試過這樣做,而且成功了。但是在我們目前的硬件上,如果每個訓練樣本都有一套不同的權重——因爲快速權重會快速調整,而實際權重是慢速權重和快速權重之和——所以對於每個訓練樣本而言,這兩種權重之和都是不同的。這意味着你無法有一套統一的權重矩陣用於許多不同的訓練樣本。因此你無法進行矩陣乘法,最終只能做向量-矩陣乘法,這效率不高。僅僅因爲這個技術原因,人們就此停止了對多時間尺度的研究。從長遠來看,我認爲我們會在神經網絡中引入多種時間尺度。我認爲這方面我們還沒有充分利用來自大腦的啓發。
姚期智:我明白。目前爲止,還沒有人沿着這一思路產出比當前大型語言模型更好的東西。
辛頓:在當前的計算機硬件上,這是無法高效實現的。
姚期智:是,但至少對我們來說,想出如何利用大腦的生物結構並不容易。當然,這是有原因的,因爲我們無法像對大型語言模型那樣輕易地在人體大腦上做實驗,對吧?所以我覺得,現在可能正是該反思一下腦科學能否從大型語言模型中學到點什麼的時候了。順着這個思路,我來問您第二個問題:您認爲在人類大腦中是否存在類似於Transformer那樣的結構?
辛頓:好的,那我先來針對你剛纔所說的第一部分評論一下。我認爲,過去二十年裡,大型語言模型乃至AI整體的成功確實對神經科學產生了影響。在AI取得巨大成功之前,神經科學家們並不清楚一種學習技術——隨機梯度下降(就是計算出梯度然後沿梯度下降)——是否能夠在非常龐大的網絡中發揮作用。符號派AI有着悠久的歷史,其中人們一直聲稱這種方法永遠行不通:你不能從隨機權重開始然後沿着梯度下降,就期望得到有意義的結果。這種立場看起來有道理,但卻是錯的。而大型語言模型證明了,沿着梯度進行學習在真正龐大的系統中非常有效。這給神經科學上了一課。
至於Transformer問題,乍看之下,你沒法把Transformer套用到大腦上,因爲Transformer會記住許多前面詞語的表徵,而在Transformer裡,那些表徵是以神經活動的形式被記住的。這在大腦中是完全不可能的——你的神經元不夠用。你無法記住所有之前詞語的活動模式。
因此,這正是快速權重派上用場的地方。你需要這樣一種系統:對先前詞彙的表徵不是以神經活動模式存儲的,而是作爲聯想記憶中權重的臨時修改來存儲,以便你可以訪問它們。通過這樣做,你實際上可以用快速權重實現一個非常粗略的Transformer版本。雖然不完全一樣,但通過快速權重實現的方法非常相似。因此,我至今對快速權重感興趣的原因之一是,我認爲這是讓大腦具備類似Transformer功能的唯一途徑。
姚期智:但這就要假定,儘管大腦不同於大型語言模型,它也使用類似詞嵌入的東西。
辛頓:我想是有的。很久以前——大概2009年左右——曾有一些研究通過MRI獲取大腦信息,嘗試判斷人們在想哪個單詞。結果成功了。所以,一個單詞的表徵就是大腦中一種神經活動模式,而且通過觀察這種神經活動模式,你大概可以猜出那是什麼單詞。很明顯,大腦是通過許多神經元的活動模式來表徵單詞的。
AI真的“理解”語言嗎?它有主觀知覺嗎?
姚期智:現在我想轉向一些更具哲學性的問題。您在今天早上(7月26日)的演講中,有一句非常重要的表述,您認爲完全可以說大語言模型理解它們自己所說的句子。可以再詳細闡述一下嗎?
辛頓:我這裡可以講一個故事。我曾第一次在和我女兒的爭論中輸給了她,那時她才4歲。她下樓來對我說:“爸爸,你知道嗎?鸚鵡會說話。”我說:“不,Emma,鸚鵡不會說話。它們只是能發出聽起來像說話的聲音,但那只是學舌,它們不明白那些聲音的含義。”她說:“不,你錯了,爸爸。它們會說話。”於是我說:“不,Emma,它們並不理解這些詞的意思。”她說:“會的。我剛看了一個節目,一個女士給鸚鵡看了一輛汽車,鸚鵡就說‘汽車’。”就這樣,我在和我4歲女兒的爭論中輸了。
我覺得如今的語言學家在某種程度上也有點類似。語言學家們最初的反應是:“哦,這些玩意兒並不會說話。這些玩意兒並不理解它們在說什麼。這些東西只是用來預測下一個詞的統計技巧。它們沒有任何理解能力。”這種看法有好幾處是錯的。
首先,如果你真想把下一個詞預測好——你就需要已經理解了別人說的話。所以有趣且對我們大有幫助的一點是,僅僅通過努力預測下一個詞,如果你想把它做到極致,你就迫使系統去理解那個問題。現在仍然有語言學家說這些東西什麼都不理解。但我認爲現在的情況是,任何真正用過大型語言模型的人都不可能相信它們聽不懂你在說什麼——它們顯然能明白你的話。
而我最有力的論據是這樣的:假設我對一個大型語言模型說:“我在飛往芝加哥的途中看到了大峽谷。”大型語言模型回答:“那不可能對。大峽谷太大了,飛不起來。”然後我對模型說:“不,我不是那個意思。我的意思是,在我飛往芝加哥的途中,我看到了大峽谷。”大型語言模型說:“哦,我明白了,我誤會了。”如果剛纔那算是它的誤解,那它在其他時候又是在做什麼呢?
姚期智:延伸這一思路,我會假設現在那些多模態聊天機器人不僅能夠理解,它們還能做到更多,對嗎?
辛頓:是的。我認爲有一個很大的問題,就是這些多模態聊天機器人是否有知覺?不同的人用不同方式表達這個問題。有些人問,它們有知覺嗎?有些人問,它們有意識嗎?還有人問,它們有主觀體驗嗎?那麼我們來討論一下主觀體驗的問題。
在我們(至少是我的文化)文化中,大多數人認爲我們有一個叫作心靈的“內在劇場”(inner theatre),在這個內在劇場中發生的事情只有自己能看到。舉例來說,如果我喝多了,我對你說:“我有一種主觀體驗,覺得有粉紅色的小象在我面前漂浮。”西方文化中的大多數人會將此理解爲:在內在劇場中,有小粉紅象在眼前漂浮。
如果你問這些小象是由什麼構成的,哲學家會告訴你它們是由感質(qualia)構成的:由粉紅色的感質、大象的感質、漂浮的感質,通過某種感質“膠水”粘在一起——由此你可以看出,我並不太相信這個理論。
有一種完全不同的理論,來自丹尼爾·丹尼特(Daniel Dennett)等哲學家。他們認爲根本不存在什麼內在劇場,當你談論主觀體驗時,你並不是在說自己心中只有自己能看到的事務,你其實是在試圖向別人解釋你的感知系統哪裡出問題了。所以,讓我把“有小粉紅象在我眼前飄浮的主觀體驗”這句話換種說法:“我的感知系統騙了我。但是如果外部世界中真的有小粉紅象在我面前飄浮,那我的感知系統說的就是真話。”因此,當你談論主觀體驗時,你是在向他人傳達你的感知系統出了問題,這就是這些體驗被稱爲“主觀”的原因。而你是通過描述一種假想的世界狀態來做到這一點的——這些小粉紅象並不是由什麼叫感質的奇怪東西構成的,它們是主觀假想的真實粉紅小象。
現在讓我把這個套用到聊天機器人上。假設我有一個多模態聊天機器人,它會說話,會指物,配有攝像頭。我訓練它,然後在它面前放一個物體,對它說:“指一下那個物體。”它指向了那個物體。現在我在攝像頭鏡頭前放一塊棱鏡,干擾了它的感知系統。然後我再在它面前放一個物體,對它說:“再指一下那個物體。”結果它指向了那邊。我說:“不,物體不在那邊,它其實就在你正前方。但我在你的鏡頭前放了一個棱鏡。”聊天機器人說:“哦,我明白了,是棱鏡折射了光線。所以物體其實在那裡。可是我的主觀體驗是它在那邊。”
如果聊天機器人這麼說,那麼它使用“主觀體驗”這個詞的方式和我們人類用的一模一樣。這也是我相信當前的多模態聊天機器人在其感知系統出錯時具備主觀體驗的原因。
姚期智:我覺得這非常有說服力。但哲學家們聽到這種論斷時,會跳起來,非常惱火。
辛頓:哲學家都是這樣的。
姚期智:是,但如果我們單純站在科學家的立場來看待,這些問題的答案重要嗎?因爲當你在科學討論中完全排除掉這些問題,它不會減少什麼,也不會增加什麼。是這樣嗎?
辛頓:我認爲在政治層面上這非常重要。我覺得許多人對超級智能的恐懼沒有應有的那麼大,因爲他們仍相信我們身上有某種特殊的東西——主觀體驗、感知能力或意識——是這些其他系統永遠無法擁有的。也就是說,我們很特別。我們有一種神奇的組成部分,而AI沒有,所以我們覺得會沒事。我認爲那是無稽之談,而且是危險的無稽之談,因爲它會讓我們自滿。
訓練一個善良的AI可能嗎
姚期智:我想我們第一部分差不多要結束了,但我有個問題一直迫不及待地想問您:您認爲AI領域最重要的未解決問題是什麼?
辛頓:我認爲最重要的未解決問題是:如何訓練出一個善良的AI。我們需要知道如何訓練它們,使其不想接管一切,而目前沒有人知道該怎麼做到這一點。
我的猜想是,這很像養育孩子。養孩子的時候,你可以給他定規矩,但那幾乎不起什麼作用。你可以獎賞或懲罰他,可能會有一點效果。或者你可以給他展示好的行爲榜樣。如果父母表現出良好的行爲,孩子通常會成長爲一個品德高尚的人。所以我覺得我們應該用精心篩選的數據來培養AI。當AI開始學習時,它只接觸好的行爲。我們把所有人的不良行爲先存起來,等它學會了什麼是好的行爲之後,再把那些不良行爲給它看。
姚期智:是啊,如果這樣行得通,那肯定能解決很多有關AI未來發展的問題。不過讓我再追問一下,因爲我覺得,要訓練出一個完全善良的AI比看起來要難。而且我懷疑,你多少可以證明那是不可能的。
我相信,這個世界上有好人,也有壞人。但事實上,好人也可能在不同環境下變成壞人。所以我認爲,“善良”這種特質也是和情境相關的。如果你在一個環境惡劣的社區長大,要成爲常人眼中的好人是很難的。
我的擔憂是,假設——就像你養育一個孩子,如果他成長在富裕家庭、良好社區,他會成爲彬彬有禮的人。但在極端壓力下,比如戰場上——有時你必須做出價值判斷。如果機器人在許多那樣的情境下接受訓練——我猜想,一臺好機器人,如果你讓它承受巨大的壓力,並且一旦做錯就會被銷燬,那麼它就會變得非常冷酷無情。
所以我的意思是,我覺得要做到你說的那一點,一個宏偉的理想是我們應該首先改造人類本身。如果我們能得到一個善良佔上風的世界,然後我們再用這種方式訓練機器人,那麼最後大家都會很滿意。但如果我們無法讓人類社會達到那種狀態,我認爲我們就無法保證那些心懷不軌者不會製造出帶有敵意的機器人來消滅所有善良的機器人。
辛頓:但我們沒有那個時間。事實上人類爲此已經努力了很久了。人類社會運轉良好這個目標,我們嘗試了很長時間。聯合國並沒有實現最初的設想。我認爲我們沒法及時做到你說的那點。我們不可能以足夠快的速度改革人類社會,來趕上應對即將到來的超級智能AI威脅。
還有一個替代方案,聽起來有點像硅谷的想法:假設我們能造出一個大體上善良的AI,然後讓它去設計一個更善良的AI。也許要真正解決如何製造善良AI的問題,你需要一個比我們聰明得多的AI來完成。所以可能可以用遞歸的方式讓AI變得越來越善良,有點像機器學習中的提升(boosting):你先有一個弱學習器,再把它變成強學習器。這是一個可能的路徑。
但就像我說的,目前我們還不知道怎麼做到。我只是不認爲首先改造人類社會會是一個選項。
姚期智:是的,我能在一種情況下看到一線希望,也就是假設 AGI 的發展是漸進的,並不是一夜之間突然就支配了我們。當跡象已經非常清楚地表明機器人將接管世界,把全人類都扔到一條船上,也許對我們來說那會是好事,讓我們汲取教訓,認識到人類的侷限。
我想我們或許太心高氣傲了。我們以爲可以擁有一切,但整個宇宙並不那麼仁慈。掌握量子、核以及生物合成的秘密知識並非毫無代價,這是一個我們人類應該意識到的危險。我們應該珍惜自己的好運,因爲我們竟然能走到今天、領悟數百年來所有這些卓越的思想,實在是個奇蹟。
當AI更加強大,我們該如何理解它
辛頓:我有幾個關於量子計算的問題想問你。第一個問題是,大多數物理理論在極端條件下都會失效。你認爲有沒有可能,我們對量子力學的理解也無法一直成立?也就是說,在某些情況下——比如無法保持非常複雜的糾纏,而量子計算依賴於完美維持這些糾纏——最終量子計算實際上可能行不通?
姚期智:我認爲按照正統的量子理論,只要量子理論成立,糾纏多少個量子比特都不影響其有效性。但在實踐中,就目前而言,物理學家目前能夠實現深度糾纏的最大粒子數大概是60個。所以我們距離理想中想要執行的那種量子計算還差得很遠。從這個意義上說,這確實是個懸而未決的問題。
不過物理學家或自然科學家的觀點是:如果你有一個好的理論,在出現相反證據之前不要去動搖它。我記得在量子計算的早期,有幾位非常受尊敬的理論計算機科學家,他們認真質疑過量子因數分解算法是否真的可行,因爲物理學家一直無法在實驗中實現。但我認爲物理學家是能做到的,只是答案尚未揭曉。而我的那些對這個問題感興趣的朋友,我猜他們內心是想拿諾貝爾獎的。他們覺得,如果計算機科學家設計出量子算法並由物理學家實現,結果發現並不能給出正確答案,那麼計算機科學就通過在量子理論中製造了一個悖論而作出了巨大貢獻。不過我認爲就目前而言,我所有搞量子計算的物理學家朋友都完全忽略了這種可能性。
辛頓:第二個問題:我們先假設量子計算最終能夠奏效。你認爲在未來比如10到15年內,量子計算會對AI產生巨大影響嗎?還是你覺得AI的進展會依靠經典計算來實現?
姚期智:我認爲這對AI和量子計算來說確實都是一個前沿問題。因爲量子的威力來自一種與AI所帶來的能力完全不同的方向。所以自然而然的問題是,終極的計算能力將來自在量子條件下構建AI機器。原則上,我們應該能得到更好的成果,因爲利用量子,可以做到一些AI做不到的事情。比如分解大整數——我想幾乎沒有從事AI的人認爲AI真能做到這一點。所以我們不必那麼害怕AI,因爲有些事我們能做到,而超級智能機器做不到。
辛頓:接下來還有一個不涉及量子計算的問題。有些人認爲,我們現在在AI中所做的就是在創造外星生命。我聽你說過,如果事情真是如此,我們需要爲這些外星生命建立一門心理學。你能詳細談談嗎?
姚期智:我認爲我們字面意義上就是在創造外星生物。我記得你今天早上提到,這些超智能機器真的是外星人。我的感覺是,儘管我們同意在科學討論中去除“意識”和“理解”這些詞不會損失什麼,但在我們嘗試構建機器時,考慮看看能否將這些特性賦予進去以讓它們更加善良,實際上可能是有益的。
因此,我確實相信在某個時候 AI 將催生一個獨立的學科,也就是機器心理學。我覺得這很有意思,因爲機器心理學和普通心理學之間的關係是這樣的:目前我們基本上還沒有真正的 AGI(通用人工智能),所以我們仍然有許多需要向人類學習的地方。
目前所有智能機器都有一個前提:由人類設計者確定其高層結構。歸根結底,AI 大多就是以智能的方式搜索大量可能性的能力,有時這種方式還很神秘,我們無法理解也無法證明。所以假設我暫且不考慮安全問題,只管去設計我所能設計的最聰明的機器,同時努力讓它保持善良,那麼最好的指導仍然來自人類;我們僱傭聰明的人來思考如何設計體系結構。
我認爲目前我們可以利用人類心理學作爲指導,對機器進行初步的分類,並對它們進行測試。但我相信,機器心理學最終會比人類心理複雜得多,因爲在欺騙方面,它們甚至會比我們人類中最不堪者還要更勝一籌。所以當它們聰明到那種程度,如果我們想研究它們的心理,我認爲就得由它們自己的同類來發展這門學科——也就是由機器自己來研究。