李飛飛巴黎AI峰會演講:人類文明正面臨重要歷史關頭,如何創造向善的AI力量?

導讀

在全球矚目的巴黎AI峰會開幕式上,被稱作“AI教母”的斯坦福大學李飛飛教授發表演講。她帶來了一個跨越五億年的宏大敘事。

"毫無疑問,歷史學家今後一定會把這段時間稱作'真正的第一個AI時代'。

李飛飛從五億年前生命感知能力的進化講起,一路講到圖靈時代,展現AI發展的宏大歷史脈絡。

首次系統闡述現代AI崛起背後的三大支柱:感知算法的突破、認知科學的啓發、計算能力的躍升。

"以人爲本的AI"三大核心價值:維護人的尊嚴、增強人的能力、促進社區發展。

呼籲拋開科幻化想象,採取務實態度推動AI發展,構建開放多元的健康生態系統。

人類文明正面臨一個至關重要的歷史關頭,與其再問“我們能否創造AI”,不如問“我們能否創造一股向善的AI力量”。

李飛飛,1976年出生於中國北京,美國國家工程院院士、美國國家醫學院院士、美國藝術與科學院院士,美國斯坦福大學首位紅杉講席教授 。

本月初,李飛飛等斯坦福大學和華盛頓大學的研究人員以不到50美元的費用,使用了16張英偉達H100GPU,耗時26分鐘就完成了訓練,成功“打造”出了一個名爲s1-32B的人工智能推理模型。

人工智能的故事可以追溯到生命起源

對我們許多人而言,人工智能往往被視爲一個關於技術、關於現代世界的故事,也毋庸置疑是一個關於未來的故事。

然而對我而言,它還是一個可以追溯到所有生命起源之初的故事,早在五億年前就已經開始。

那是一個極其久遠的時代,當時連“視覺”這一概念都尚未出現,實際上連眼睛都尚未進化,沒有任何生物曾看過這個世界,所有生命都被置於你現在在屏幕上所看到的那片黑暗當中。

最初只是一種被動的體驗——讓光線進入體內,但不久之後就變得更加豐富並富有主動性。神經系統開始進化,“看見”開始轉變爲“洞察”,看見進而變爲理解,而理解則推動了行動,所有這些都孕育了“智能”,從而永久地重塑了地球上生命的本質。

時至今日,五億年之後,人類的智能已經讓我們的物種可以想象並塑造工作和生活的方方面面。而我們也不再滿足於僅僅擁有自然賦予的這份智慧。我們懷着的好奇心如今驅使我們想要創造出與我們同樣聰明、甚至更勝一籌的機器。

其起源可以追溯到20世紀中葉。英國的偉大數學家艾倫·圖靈(Alan Turing)極具前瞻性,早在計算機尚未真正出現之前,他就已經開始思考如何讓它們擁有可與人類比肩的認知能力。

這股好奇心與雄心同樣也感染了美國的早期計算機科學家們,他們不僅舉辦了首個研究項目來探索“會思考的機器”的可能性,還在1956年那個炎熱的夏天正式提出了“人工智能”這一術語——比這個概念進入公衆視野要早幾十年。

令人覺得有趣的是,他們當時以爲只需要兩個月就能解決這一重大課題的很大一部分,甚至能破解智能的奧秘。也許他們太過樂觀,但不得不佩服他們的膽識。如今,我們已經在那個“兩個月項目”裡走過了820個月,但確實也取得了不少實質性進展。

現代AI三大關鍵要素

另一個對AI的誤解在於,認爲它只是計算機和工程領域的事情,然而事實上,它一直以來都是一門高度跨學科、富有活力的追求。我們當今所處的現代AI時代,正是三項極其重要又各自獨立的技術與科學進步匯聚而成的成果。

第一項是對感知算法的研究——即生物(包括動物乃至人類)如何理解周圍世界,並最終創造出讓機器也能具備類似能力的數學模型。

在達特茅斯AI夏季研討會上延續了圖靈的大膽假設之後,神經生理學家David Hubel和Torsten Wiesel率先揭示了哺乳動物視覺皮層中神經處理的層次結構,爲他們贏得了諾貝爾獎,也徹底改變了我們對視覺處理的認知。

大約在同一時期,心理學家Frank Rosenblatt搭建了最早的神經網絡原型之一——感知器(Perceptron)。這項工作啓發了數十年後無數計算機科學家,最終形成了我們今天所熟知的深度學習神經網絡算法,讓機器擁有了自身近乎神奇的感知和分析能力。

與此同時,第二條研究脈絡也開始出現——認知科學家轉而研究人類自身的大腦,揭示我們對周圍環境進行感知時所擁有的驚人深度和複雜性。

他們的研究明確指出,無法將我們的腦與其所處的進化環境分割開來。大腦不過是一個被禁錮在顱骨黑暗之中的機器,卻又從生命最初時刻開始,就急切地向外部學習,通過每一次光線的照射、每一次觸覺刺激、每一聲細語來獲取信息。

對我個人而言,作爲在21世紀初成長起來的科學家,當時感知算法幾乎是我所在領域的唯一關注點,而認知科學帶給我的啓示在於“規模”。

演化與發育能如此有效地塑造人類智慧,是因爲它們能利用大量數據來驅動我們的學習。我和我的合作者、學生們推測,同樣的規律也適用於機器,只不過這一次,數據來自現代數字設備和互聯網,而不再是依靠生物感官。

我們提出了一個關鍵假設:數據是讓神經網絡等高容量算法真正“活起來”的關鍵。這個理念讓神經網絡煥發新生,開啓了利用海量數據來推動AI進步的全球趨勢,也成爲如今所說的AI“規模定律”(scaling law)的一部分。

最後,如果沒有極其強大的運算能力來支撐,以上所有成就都不會發生,或者根本連起點都無法跨越。

爲追求更逼真的遊戲畫面,90年代初誕生了一個小型產業,但在短短二十年內迅速膨脹爲全球巨頭——以英偉達(NVIDIA)等公司爲代表,開發出了越來越強大的圖形處理器(GPU)。

結果證明,這恰恰是讓神經網絡算法得以利用互聯網規模大數據進行學習的最後一塊拼圖。所以,如果現場有遊戲玩家,那我們要感謝你們。

AI的發展越來越快,看不到盡頭

2012年,在ImageNet挑戰賽上,我的實驗室率先將算法、數據和計算這三大要素首次大規模結合在一起,幾乎在一夜之間就改變了我們整個領域。那是機器首次能夠理解並準確地描述海量圖像——成百上千萬張之多。

如今我們對此已經習以爲常,但在當時,這是一項前所未有的壯舉,甚至有些像科幻小說裡的場景。它就像推倒了第一塊多米諾骨牌,隨後的一系列突破接連不斷,並且來得越來越快。

毫無疑問,歷史學家今後一定會把這段時間稱作“真正的第一個AI時代”。從任何一個你能想到的指標來看——無論是計算機專業中人工智能方向的學生人數、投資金額、新創企業數量,還是其他方面——AI都是一場在深度和廣度上不斷擴大的革命。

過去幾年裡,人工智能又迎來了更驚人的躍進——也就是大型語言模型的出現。

這些大型語言模型把現代AI所依賴的三大要素——算法、數據和計算力——都推向了更極致的規模。它們採用了一種名爲“Transformer”的新型模型架構,訓練數據幾乎覆蓋了整個互聯網,並在數量驚人的最新、最強大芯片上運行。正如我們所見,其結果是在機器能力上比過去十年來的任何一次突破都更爲迅猛。

現在我們幾乎將“AI可以用自然語言流暢地跟我們對話”視爲理所當然,AI能回答我們提出的幾乎任何領域的問題,甚至能夠生成各種複雜形式的內容——從圖像、聲音、音樂到視頻,無所不包。ChatGPT所取得的驚人成就就是這項創新如何影響我們日常生活的最佳例證,因其創造了用戶採用速度的歷史新紀錄。

而且,這些能力並不只是表面上看着“會說話”而已。你會發現AI模型在各種基準測試(從手寫識別到博士水平的科學問答)上的表現近幾年都在飛速攀升;其中一些難度極高、對人類來說具有挑戰性的任務,AI的成績簡直像坐火箭一樣往上躥,幾乎呈垂直上升的趨勢。

AI正從觀察者變身執行者

不僅如此,從能夠流暢使用語言開始,大型語言模型還在朝更具“主動性”的方向發展——它們學會了將複雜任務分解成若干步驟,並逐步規劃如何實現目標。人們目前將這種趨勢稱作“具備代理能力(agentic)的AI”。而在2025年,這似乎正成爲這場深遠技術演進的新篇章。

對許多用戶和企業而言,這些能力已經非常實用,而它們還遠不止於此,後續的發展潛力更是不可估量。

我們目前所討論的還大多停留在“語言智能”層面,但人類之所以爲人,是因爲我們擁有更全面、更完整的智能。從“被動感知”到“主動行動”的新階段正在到來。

在我自己的研究領域——涉及攝像頭和機器人時,我看到AI正逐漸具備“創造、理解、推理和交互”這些維度,進而在數字或物理的三維空間裡與人和環境相互作用。我們稱之爲“空間智能(spatial intelligence)”和“具身智能(embodied intelligence)”。

舉個例子:假設你看到這樣一張圖片,視覺智能很容易讓我們識別出裡面的所有物品:那隻貓、那盆植物、那張桌子,以及那杯牛奶。但是,這就代表我們感知系統的全部功能了嗎?我敢打賭,其中不少人不僅僅“看懂了”那張圖,還會產生“哎呀,快伸手把那杯牛奶抓住,別讓它掉到地上打碎了!”的衝動。

這只是個小例子,但它清楚展示了“從觀察到行動”之間多麼巨大的差別,也說明了我認爲我們如今所處的拐點:AI正從觀察者變成與我們並肩行動的“執行者”。

實際上,就連我一直崇拜的圖靈先生,他對於未來的預見在這一點上也可能有些“過於狹隘”或“向內看”了。因爲進化本身已經一再告訴我們:智能的真正強大之處,不僅僅在於“思考”,而在於讓思考能驅動行動。

人類文明面臨至關重要的歷史關頭

不過,如果AI真的不再只是“會思考的機器”,而是同時成爲“會行動的機器”,那麼我們整個社會在引導這項技術發展方向時,就承擔着更加緊迫而重大的責任。我認爲毫不誇張地說,這一切正將我們帶到一個對整個人類文明至關重要的歷史關頭。我們要如何應對?我想,這也正是我們這周聚在這裡的主要原因。

這個問題其實一直在指引我的研究工作。雖然我肯定,想要找到簡單答案几乎不可能,但有一個主線在我多年的探索中始終貫穿,那就是我所說的“以人爲本的AI(Human-Centered AI)”,並且它包含三個核心價值:尊嚴(dignity)、能動性(agency)和社區(community)。

首先是尊嚴。當面對越來越強大的技術時,我們人類常常會反思:到底是什麼在定義“我們是誰”?如果AI這項技術能幫助我們守護並且“找回”這份尊嚴,尤其是能幫助到最脆弱的人羣,那將是讓我最激動的事情。

在這一點上,我想給各位看一個例子:如何讓機器人和AI技術幫助那些嚴重癱瘓患者重新獲得自主行動的可能。在這項斯坦福大學的研究中,我的學生利用完全“非侵入式”腦電波(EEG)記錄獲取使用者的思維信號,通過AI算法對這些信號進行解碼併發送指令給機械手臂。最終,機械手臂在患者“意念”的控制下做出包括烹製日式壽喜燒在內的一整套烹飪動作。這便是AI幫助人們重新贏得自主與尊嚴的一個示例。

其次是能動性(agency)。我所在實驗室多年來的核心理念,就是探索如何讓AI“增強(augment)”人類的能力,而不是取代人類。

毫無疑問,每一次重大的技術變革都會對勞動力市場產生衝擊,AI也不例外。然而,我相信AI可以幫助我們從創造力到醫療保健、從科研到製造業,在方方面面獲得新的能力。因爲在許多方面,AI的技能與人類的技能其實是互補關係。我們完全可以利用這個“數字或物理上的合作者”來強化自身能力。

最後是社區(community)。過去十年裡,科技也常常被詬病“把人們越拉越遠”,催生了各種“信息繭房”和“狂熱話題誘餌”等。如今,AI又一次走到了十字路口:一條路是讓AI主導很多社交體驗,甚至爲每個人極度定製並強化他們原本的偏見;另一條路則可能幫助我們構建更健康、更強大並具有包容性的社區,比如藉助AI教育助手,讓更多人(包括孩子和成人)獲得學習的機會。

以人爲本,創造向善的AI力量

在這樣一個關乎人類文明走向的關鍵時刻,我們如何通力合作,以一種理性、務實且負責任的方式去治理AI,從而讓它繼續釋放驚人的潛力?

最起碼,我們需要從以下幾個方面開始:

首先,務必要基於科學而不是科幻來進行治理。無論是大街小巷還是華爾街,關於AI的話題中都充斥着誇張炒作和聳人聽聞的描述,往往導致對AI的治理政策被各種誤導。相反,我們應該用更科學的方法來評估和測量AI的實際能力與侷限,從而制定更加精準、可落實的政策,並且基於現實而非幻想。

其次,我們需要採取務實而非意識形態化的態度來看待AI治理。AI有望成爲一種強大技術,如果使用得當,它確實能讓我們更好地工作和生活。因此,我們不應該只顧在上游阻礙這項仍然非常年輕的技術進一步探索與研究;相反,我們應該更多關注它的具體應用場景,確保它能被善加利用,並對可能產生的不良後果加以防範。

最後,我們必須投入更多資源,構建更健康、更蓬勃的AI生態系統,讓學術界、創業者、開源社羣以及公共部門都能與大企業一道參與進來、發揮關鍵作用。如果AI真的要改變世界,我們就需要各行各業、社會各個羣體都能在這個變革過程中發揮作用、共同塑造未來。

我在演講開頭提到過,現代AI之所以興起,主要歸功於算法、數據和計算力這三大要素的結合。但若這三種關鍵資源僅僅掌握在少數幾家公司手中,AI生態系統就會面臨好奇心驅動的研究乏力、頂尖教育人才受限、開源項目缺少資源、多學科交叉探索不足等諸多問題。

75年前,艾倫·圖靈對未來一瞥,發出了“人類是否有膽量去構造能夠思考的機器”的挑戰。今天,我們已經把這個挑戰推進到一個恐怕是他當年難以想象的高度。AI時代的技術飛躍令人歎爲觀止,我相信,如今是時候提出一種新的挑戰了:與其再問“我們能否創造AI”,不如問“我們能否創造一股向善的AI力量”。

簡而言之,今天我想向各位發出邀請:讓我們共同努力,去構建“以人爲本”的AI。

本文源自:價值線