解碼谷歌Gemini大模型:AI大神Jeff Dean 九月訪談錄 (附視頻)

未經許可不得轉載,務必保留原文出處鏈接和公衆號按鈕

關注本城公衆號並設星標,不錯過最新精彩內容

文:Web3天空之城·城主

在這場訪談中,谷歌的傳奇AI負責人Jeff Dean深入回顧了他在推動谷歌人工智能發展中的關鍵角色。

從90年代初加入谷歌,Dean見證了從一個小型創業公司到全球技術巨頭的轉變。他領導了TensorFlow的推出,使得機器學習的普及成爲現實,特別是通過擴展計算能力和網絡規模推動了搜索引擎和神經網絡的發展。他談到了谷歌AI研究的轉折點以及與DeepMind的合作。最引人注目的是Dean對未來的展望,特別是關於多模態AI模型Gemini的潛力,該模型能夠處理文本、音頻、圖像和視頻,帶來了全新的跨領域應用前景。

谷歌早期的計算擴展與AI發展

Jeff Dean回顧了谷歌在90年代如何通過擴展計算資源來應對快速增長的搜索需求。谷歌從一開始就注重提供高質量、快速的搜索服務,而Dean作爲其中的重要推動力,通過優化代碼、提升計算機性能,確保谷歌能夠承載日益增長的用戶流量。他指出,這爲神經網絡的擴展和現代人工智能的發展鋪平了道路。

神經網絡的歷史與進化

Dean詳細解釋了神經網絡的起源以及在90年代初的侷限性。儘管當時神經網絡被廣泛討論,但由於計算能力有限,實際應用範圍受到限制。隨着時間的推移和摩爾定律推動的計算能力提升,谷歌的研究團隊開始使用數千臺計算機並行訓練大型神經網絡,這最終導致了現代神經網絡的飛躍。他特別提到了2012年TensorFlow框架的推出,如何讓神經網絡訓練的規模和複雜度達到了前所未有的高度。

Gemini多模態模型的潛力

Jeff Dean重點介紹了谷歌當前正在開發的Gemini項目,這個項目被認爲是AI的未來。Gemini模型不僅是一個語言模型,它還可以處理多種輸入模式,包括文本、圖像、音頻和視頻。Dean解釋了這種多模態模型將如何在教育、醫療等領域帶來革命性變化,允許用戶從不同輸入模態中獲取更豐富、更有用的輸出。特別是Gemini模型在教育中的應用潛力,例如幫助學生通過對話理解複雜概念,使個性化的學習成爲現實。

與DeepMind的合作與整合

Dean詳細回憶了谷歌與DeepMind的早期合作,特別是如何將監督學習和強化學習相結合,推動了AI在多個領域的進展。他提到DeepMind在使用強化學習玩雅達利遊戲上的成就,以及如何將這些技術擴展到更大規模的AI模型訓練中。Dean強調,正是通過這種合作,谷歌和DeepMind得以創建強大且具有變革性的AI模型,如Gemini。

AI對未來社會的深遠影響

Dean深入探討了AI在未來教育和醫療中的應用。他指出,AI工具可以幫助學生實現個性化學習,甚至提供類似於一對一輔導的體驗,從而顯著提升教育效果。此外,他認爲AI有潛力改善全球醫療服務的可及性,通過更準確的診斷和醫療建議,特別是在資源匱乏的地區。他同時警告,AI技術也有可能造成社會的兩極分化,只有少數人能享受其好處,因此他呼籲讓這些技術儘可能地廣泛應用。

B站傳送:【精校】AI大神Jeff Dean訪談| 解碼Google Gemini大模型 【中英字幕】-嗶哩嗶哩】

https://b23.tv/5LxuLVD

主持人:

歡迎回到谷歌DeepMind播客,我是主持人漢娜·弗萊教授。在這一集中,我們有幸採訪到了計算機科學領域最傳奇的人物之一,Jeff Dean。

在1990年代末,傑夫編寫了將谷歌從一家小型創業公司轉變爲今天跨國公司的代碼。他率先推出了TensorFlow,這是推動機器學習民主化的編程工具之一,並推動了人工智能在大規模模型方向上的邊界。如果這還不夠,他還共同創立了谷歌的AI研究項目——Google Brain,並且是早期新神經網絡架構——Transformers的先驅之一。

人們開玩笑說,傑夫·迪恩的簡歷上只列出了他沒有做過的事情,因爲這樣比較短。最近,作爲谷歌的首席科學家,傑夫在桌子旁佔據了最重要的席位之一,因爲Alphabet的兩大AI部門DeepMind和Google Brain已經合併。他最新的項目是與他共同合作的Gemini,這是一個遠遠超越了語言的大型語言模型。Gemini是一個多模式模型,可以理解文本、代碼、音頻、圖像和視頻。它完全是人工智能,並且幾乎肯定是谷歌搜索本身的發展方向。

傑夫,非常感謝你今天跟我一起聊天。

Jeff:

謝謝你邀請我,很高興來到這裡。

主持人:

所以,好吧,25年,四分之一個世紀在谷歌。我想了解一下早期的情況,比如90年代你剛加入的時候,谷歌還不是現在這般成熟的組織。那時候是不是都是很多帶着貼紙的筆記本和穿着人字拖在編碼?

Jeff:不幸的是,那時候還沒有筆記本電腦。

主持人:沒有筆記本電腦!

Jeff:

是的,我們都有那些巨大的CRT顯示器。那時還是前液晶顯示器時代,所以它們佔用了很多桌面空間,不太靈活。我的桌子就像兩個鋸馬上的一扇門。你可以自己調整它,比如從桌子上站起來背對着它,像這樣把它調整到更高的設置。

主持人:真的嗎?

Jeff:是的。

主持人:太棒了。

Jeff:

當我開始工作時,我們在這個小辦公室區域,其實也不算特別小,大概是這個房間的三倍大。整個Google在帕洛阿爾託的University Avenue上,位於現在一家T-Mobile手機店的上方。那個時候真正有趣和令人興奮的事情是,我們是一家小公司,但我們能看到人們越來越多地使用我們的服務,因爲我們提供了優質的、高質量的搜索服務。你可以看到你的流量在增長,日復一日,周復一週。所以我們總是嘗試在星期二中午不要崩潰,那是全周流量高峰時段。爲了應對需求,我們需要快速部署更多計算機,優化代碼以提高運行速度,並提出新的、有趣的創新,使下個月的索引在相同硬件上能夠服務更多用戶。

主持人:

我可以想象這是非常令人興奮的。有沒有一個時刻讓你們意識到,這真的要變大了?

Jeff:

我認爲從我加入公司的最早期就可以看到這一點。我加入公司是因爲我們的流量增長非常快。我們認爲,通過專注於提供高質量的搜索結果並快速完成這一過程,給用戶他們想要的東西,我們實際上是希望儘快將人們從我們的網站上引導到他們所需的信息。這是一種成功的提議,用戶似乎也喜歡我們的服務。所以我會說,即使從早期開始,這看起來也是相當有前途的。

主持人:

不過,合理樂觀和實際結果之間存在相當大的差距。對你們所有人來說,這是否是一個驚喜?

Jeff:

我認爲我們已經拓展到了一些顯然難以預料的領域,比如自動駕駛汽車。當你在開發搜索引擎時,很難想象這些東西。但是,我認爲我們產品組合逐步擴展到其他類型的信息是非常合理的。從公共網頁到幫助用戶用Gmail組織自己的電子郵件,這些都是自然的進化,解決了人們的實際問題。這讓我們處於一種狀態,現在我們不再只有一個產品,而是有一系列人們經常使用的產品。

主持人:

回顧所有這些時間,你認爲谷歌一直是一家搜索公司嗎?你認爲它是一家假裝是搜索公司的AI公司嗎?

Jeff:

是的,我認爲我們作爲一家公司想要解決的很多問題確實是那種需要AI來真正解決的問題。所以在這個過程中,在長達25年的時間裡,我們一直在逐步解決一些艱難的AI問題,並在這些問題上取得進展,然後在搜索以及我們所有其他產品中使用現在開始有效的新技術。

主持人:

你認爲Google將永遠是一家搜索公司嗎?或者你認爲它現在甚至是一家搜索公司嗎?它在改變嗎?

Jeff:

我非常喜歡Google的一件事是我們的使命依然非常相關,即便是25年後,仍然是要組織全球的信息,並使其普遍可訪問和有用。我覺得Gemini確實在幫助我們朝着理解各種不同信息的方向推進。所以文本,文本數據,軟件代碼,它在某種程度上是文本性的,但在某些方面非常結構化。但也包括所有其他類型的輸入模態,人類在這些模態上非常流利,我們自然會閱讀東西,但我們也用眼睛看東西,用耳朵聽東西。而且你希望模型能夠接收各種形式的信息,並且也能以文本形式生成信息,或者生成音頻,以便你可以與模型進行對話,或者在合適的情況下生成圖像,或者用圖表或類似的東西來註釋文本。我們真正嘗試的是構建一個能夠接收和生成所有模態的單一模型,並在合適的時候使用這種能力。

主持人:

你還記得你第一次接觸神經網絡是什麼時候嗎?

Jeff:

是的,神經網絡有着有趣的歷史。人工智能是一個相當古老的學科,早期的AI階段是關於如何定義事物運作規則的過程。這大約是20世紀50年代、60年代、70年代的情況。然後,神經網絡在70年代出現,並在80年代末和90年代初引起了激動的浪潮。

實際上,我在1990年是明尼蘇達大學的本科生。當時我在修一門並行處理的課程,這個概念是如何將問題分解成可以在不同計算機上完成的部分,然後這些計算機共同合作解決單個問題。

主持人:

我猜這也是因爲當時計算能力還不如現在強。這就像是,如何讓計算機像團隊一樣工作?

Jeff:

那時,神經網絡是一種特殊的方法,用於機器學習和AI,涉及到非常粗略地模擬我們認爲的真實人類或其他大腦中的神經元工作方式。這就是爲什麼它們被稱爲神經網絡,因爲它們由人工神經元組成。人工神經元與其下方的其他神經元有連接,然後它們查看從那些人工神經元傳來的信號,並決定對特定的信號模式有多感興趣,是否應該足夠興奮以將信號進一步傳遞到神經網絡的上層。

神經網絡由許多層許多這樣的神經元組成。更高層次的神經元建立在較低層次神經元的表示上。例如,如果你在構建一個用於圖像處理的神經網絡,最底層的神經元可能會學習特徵,比如這是一個紅色或綠色的斑點,或者在某個方向上有個邊緣。然後下一層可能會學習到,它是一側有黃色邊緣的邊緣。再更高層,它可能會學習到,它看起來像一個鼻子或耳朵或者一張臉。通過構建這些分層的學習抽象,這些系統實際上可以開發出非常強大的模式識別能力。

這就是爲什麼人們在1985年、1990年對神經網絡感到興奮的原因。

但我們談論的是非常小的網絡,所以它們無法識別例如人臉和汽車這樣的東西。它們可以識別像是人工生成的圖案中的小圖案。例如你有一個網格,你可以識別可能是一個十字,或者一個手寫的數字,這是一個七還是一個八。那時的技術他們大概只能做到這些。然而,人們非常興奮,因爲他們能夠解決那些基於純粹邏輯規則的系統無法很好解決的問題,而這些規則無法很好地概括所有種類的凌亂手寫字。

在聽了兩場關於神經網絡的演講之後,我對這個領域產生了濃厚的興趣。於是,我決定做一個關於神經網絡並行訓練的高級論文、榮譽論文,因爲我覺得我們需要更多的計算能力。如果我們使用系裡的32處理器機器,做一個更大的系統,我們可以訓練更大的神經網絡嗎?於是,我花了大約三個月的時間在這個項目上。

主持人:它成功了嗎?

Jeff:

是的。無論如何,我當時非常激動。我覺得,32個處理器會讓神經網絡運行得非常順暢。結果證明我是錯的。那時天真的本科生我,並沒有意識到我們需要大約多一百萬倍的處理能力,才能真正開始在實際問題上取得好效果。

但是,感謝摩爾定律20年的進步,以及更快的CPU和計算設備,我們開始擁有實際的系統,這些系統的計算能力是我們那臺先進的32處理器機器的一百萬倍。於是,我又開始對神經網絡產生興趣。

當斯坦福教授Andrew Ng每週在谷歌進行一天的諮詢時,我在我們衆多的微型廚房中的一個碰到了他。我問他,你在谷歌做什麼?他說,我還沒有真正弄明白,因爲我剛開始在這裡做諮詢。但我在斯坦福的一些學生在神經網絡方面取得了不錯的成績。我說,真的嗎?爲什麼我們不訓練非常非常大的神經網絡呢?於是,這就成爲了我們在谷歌進行神經網絡工作的開端。

然後,我們組建了一個小團隊,稱爲Google Brain Team,開始研究如何利用谷歌的計算資源來訓練非常大的神經網絡。我們建立了這個軟件基礎設施,使我們能夠拿到一個神經網絡描述,然後將它分解爲不同計算機、並行團隊的不同成員可以處理的部分,並以他們需要的方式進行通信,以便解決如何在2000臺計算機上訓練一個神經網絡的整體問題。這是我們最早爲擴展神經網絡訓練而構建的軟件,它使我們能夠訓練比現有神經網絡大50到100倍的模型。

主持人:這是2011年。

Jeff:

確切地說,是2012年初的事情。這是在圖像識別重大突破之前的事情。

主持:那時,你們做的還是把計算機連接在一起的工作。就像我本科論文一樣。

Jeff:

沒錯,但這次我們可以在更大規模上再做一次。這一次真的成功了,因爲計算機速度更快,而且我們用了更多的計算機。

主持人:2011年那時感覺有點賭博的意味嗎?

Jeff:

是的。我們爲訓練這些神經網絡並嘗試不同拆解方法而建立了一個系統。我把它命名爲DistBelief,部分原因是人們認爲它不會真的有效果,另一個原因是它是一個可以構建這些的分佈式系統。我們想要訓練的不僅是神經網絡,還有置信網絡。

主持人:

我喜歡這個名字。當這在美國進行的時候,大西洋彼岸的DeepMind也開始了。我知道你是被派去看看他們的人,你能講講那個故事嗎?

Jeff:

是的。Geoffrey Hinton,一位非常著名的機器學習研究員,2011年夏天在谷歌呆過一段時間。當時我們不知道該如何將他歸類,所以他被歸類爲實習生,這有點搞笑,畢竟他是歷史上最資深的實習生。

他和我一起工作,然後我們發現了DeepMind。我想Geoffrey對公司成立的事情有一些瞭解,其他一些人也說,英國有這樣一家公司。當時它非常小,大概有40或50個人。於是我們決定作爲公司去看看他們,作爲一個潛在的收購對象。

當時我在加州,Geoffrey在多倫多,他當時是那裡的教職人員。Geoff有背部問題,所以他不能坐商業航班,因爲他不能坐下來,只能躺着或站着。航空公司不允許你在起飛時站着,所以我們必須找到解決辦法,就是在私人飛機上安裝醫療牀。

我們一羣人從加利福尼亞出發,飛往多倫多,把Geoffrey從停機坪接上來,放在醫療牀上,然後一起飛往英國,降落在一個非主要機場。在城邊,我們全都上了一輛大面包車,前往訪問DeepMind,我想那是在Russell Square附近。我們前一晚飛行都很疲憊,但隨後我們連續聽了大約13個20分鐘的講座,介紹他們正在做的各種事情。

主持人:這些講座是來自DeepMind團隊的嗎?

Jeff:

是的,來自DeepMind團隊。我們看了一些工作,但時差還沒倒過來。時差還沒倒過來,簡直像情景喜劇裡的情節。

我們看了一些關於他們在 Atari 工作的展示,這些工作後來發表了關於如何使用強化學習去學玩老版 Atari 2600 遊戲的研究。像 Breakout 或 Pong 之類的遊戲,還有其他一些遊戲,都非常有趣。

主持人:當時你們並沒有進行強化學習。

Jeff:

我們主要專注於如何擴展大規模的監督學習和無監督學習。我認爲這些技術都非常有用,而且它們通常結合使用會更有用。

您應該把強化學習想象成有一個在環境中操作的代理,每一步都有很多不同的動作或操作可以選擇。例如,在圍棋遊戲中,你可以在很多不同的位置下子。在雅達利遊戲中,你可以向上、向下、向左或向右移動搖桿,或按下左鍵或右鍵。

在這些情況下,通常不會立即得到獎勵。比如在圍棋中,你下了一步,但直到整個遊戲過程結束之前,你並不知道這是否是一個好主意。強化學習的一個有趣之處在於,它能夠對一系列較長的行動進行評估,然後根據你採取的行動序列的意外程度來分配獎勵或懲罰。

當你做出那個決定時,你認爲這是一個好主意嗎?然後你贏了,所以你可能應該增加一點你認爲這是個好主意的可能性。或者你輸了,你可能應該減少一點你認爲這是個好主意的可能性。這就是強化學習背後的主要想法。這是一種非常有效的技術,尤其是在立即判斷這個是否是個好主意很不明確的環境中。

相反,監督學習是指你有一個輸入,並且有一個類似於真值的輸出。經典的例子就是你有一堆圖像,每張圖像都被標記爲一類。比如說有一張圖像,標籤是汽車。另一張圖像,標籤是鴕鳥。再另一張圖像,標籤是石榴。如果你有一組豐富的類別。

主持人:

告訴我,當你在 DeepMind 時你決定要進行收購時,Demis 緊張嗎?

Jeff:

我不知道他是否緊張。我想我當時說,好吧,你已經看過這些精彩的演示,但我能看看一些代碼嗎?因爲我想確保背後確實有代碼,並且看看編程標準是怎樣的,人們是否實際寫了註釋之類的東西。所以 Demis 有點不確定。我說,不需要是超級機密的代碼。我和一位工程師進入辦公室,坐下聊了10分鐘。我問他這段代碼是做什麼的,並請他展示一下它的實現。離開時,我對代碼的整潔感到滿意。對於一家試圖快速發展的小公司來說,這段代碼相當整潔。雖然是研究性代碼,但很有趣且文檔齊全。

主持人:

我聽說你在寫代碼時會加一個小東西,就是LGTM(looks good to me 看起來不錯)。

Jeff:我在現實生活中也會用它,不僅僅是用於代碼審查。

主持人:在這些展示中,你能回憶起你的印象嗎?

Jeff:

他們似乎在做非常有趣的工作,特別是在強化學習方面。我們專注於擴展,訓練的模型比當時DeepMind使用的要大得多。他們正在學習使用強化學習來解決某種遊戲玩法,這是一個適合強化學習的乾淨環境。強化學習的結合,加上我們一直在進行的許多擴展工作,會是一個非常好的組合。

主持人:

你們似乎正從兩個不同的方向接近一個問題:使用強化學習從非常小的問題開始並逐步建立,然後在非常大的規模上擁有豐富的理解。當兩者結合在一起時,事情便變得非常強大。

Jeff:

這正是我們去年將傳統的DeepMind、傳統的Brain和Google研究的其他部分結合在一起的動機。我們決定將這些單位合併在一起,組建谷歌DeepMind。Gemini的想法在合併之前就有了。我們認爲應該在這些問題上真正地一起工作,因爲我們都在嘗試訓練高質量、大規模、多模態模型。分散我們的想法和計算資源是不合理的。我們應該把這一切結合在一起,組建一個聯合團隊來解決這個問題,這就是我們所做的。

主持人:爲什麼叫Gemini(雙子星)?

Jeff:

其實是我命名的。我喜歡命名事物。Gemini與雙胞胎有關,我覺得這是一個很好的名字,因爲它代表了前DeepMind和前Brain這兩個“遺產”團隊的結合,真正開始一起在一個雄心勃勃的多模態項目上工作。

主持人:

Gemini這個名字讓人聯想到太空任務,就像是阿波羅計劃的前身。

Jeff:

一個名字有多重含義是件好事,這也是選擇這個名字的另一個原因。這有點像是雄心勃勃的太空計劃進展的前兆。

主持人:

我想談談多模態的東西。在我這樣做之前,我猜公衆對聊天機器人和大語言模型的意識發生重大變化的一個主要原因之一,部分來自於Google Brain的Transformers技術。如果你能原諒這個雙關語,你能告訴我們一些關於Transformers技術的工作以及它的變革性嗎?

Jeff:

當然。事實證明,你想要在語言以及其他許多領域解決的問題,其實都是序列問題。如果你考慮Gmail中的自動補全功能,當你在輸入一個句子時,系統能否通過爲你完成句子或想法來幫助你?很多時候,這依賴於看到序列的一部分,然後預測其餘部分。本質上,這就是這些大語言模型被訓練去做的事情。它們被訓練爲一次處理一個單詞或一個單詞的一部分,然後預測接下來會是什麼。

主持人:像高級的自動填充?

Jeff:

是的,事實證明這很有用。你可以用這種方式建模許多不同的問題。比如翻譯,你可以將其建模爲輸入一句英文句子,然後訓練模型在有足夠多的英法句對的情況下輸出句子的法文版本,類似於一個序列。你也可以在醫療環境中使用此技術。比如,如果你試圖預測,現在面前的患者報告了這些症狀,並且他們有這些實驗室測試結果。過去,他們有這些情況。你可以將整個情況建模爲一個序列,然後你可以預測,如果你有其他去標識化的數據作爲訓練,這些數據也被類似地組織爲這些序列,這樣你就可以預測可能合理的診斷。你可以這樣做的方法是你隱藏序列的其餘部分,並強迫模型嘗試預測接下來會發生什麼。

這確實是一件非常有趣的事情,因爲它適用於語言、翻譯、醫療環境、DNA序列和各種各樣的事情。

主持人:但是關鍵在於你在任何時候關注的部分。

Jeff:

在Transformer架構之前,成功的模型是所謂的循環模型,它們具有一些內部狀態,每次看到一個詞時,它們都會進行一些處理來更新其內部狀態。然後它們繼續處理下一個詞,再進行一次。它們的狀態會稍微向前移動一點,並根據剛剛看到的下一個詞更新狀態。你可以想象它像一個12個詞的句子,你需要更新狀態12次,但每一步都依賴於前一步。這意味着其實很難讓它跑得很快,因爲你有一個所謂的順序依賴,其中第七步依賴於第六步,第六步依賴於第五步,依此類推。Google Research的一組研究人員提出了一個非常有趣的想法:與其在每個詞上更新單一狀態,不如一次性處理所有詞,並記住處理每個詞時得到的狀態。當我們嘗試預測一個新詞時,可以關注所有之前的狀態,並學習注意重要部分。這就是Transformer中的學習注意機制,用於預測下一個詞。

對於某些詞彙,可能需要非常關注前一個詞。在某些上下文中,稍微關注一下上下文中的許多詞也非常重要。關鍵是,這一過程可以並行完成。你可以同時處理一千個詞,爲每個詞並行計算狀態,這使得在擴展性和性能方面比之前的循環模型高效10到100倍。這就是爲什麼這是一個如此大的進步。

主持人:

通過僅僅序列和語言,有可能獲得某種概念上的理解或抽象。這是出乎意料的嗎?

Jeff:

我認爲我們在Google Brain團隊做的有關語言建模的早期工作,主要在於建模詞彙,而不是將它們表面形式建模成像H-E-L-L-O或C-O-W那樣,而是關於表示詞彙使用方式的高維向量。

我們習慣於以二維或三維的方式思考,但當你有一百個維度或一千個維度時,一千維空間有很多餘地。當你有一些東西是臨近的,並且你以某種方式訓練了模型,牛、羊、山羊和豬都靠得很近,而它們與濃縮咖啡機距離很遠。雖然牛奶可能介於兩者之間,牛奶可能更靠近牛,但在兩者之間。是的,它可能在百維空間中的某條百維線上。

這就是爲什麼這些模型具備驚人的能力。我認爲這是因爲它們使用高維空間來表示事物,所以它們實際上可以同時抓住一個詞或一個句子或一個段落的許多不同方面,因爲它們的表示空間非常大。

主持人:它提取了我們賦予語言的基礎,我猜是這樣。

Jeff:

是的。當我們聽到一個詞時,我們不僅僅考慮這個詞的表面形式。我們想到牛,那會觸發一堆其他的東西,比如牛奶或濃縮咖啡機,或者擠奶,牛犢和公牛。

與那些早期的詞彙表示法一起,我們發現方向是有意義的。如果你考慮像 "walk" 這樣的動詞現在時,你會在這個百維空間中沿着相同的方向從 "walk" 變爲 "walked",就像從 "run" 變爲 "ran",以及從 "read" 變爲 "read" 一樣。

主持人:

所以它實際上理解了,理解了,我一直用這個詞,但我並不是這個意思,但在這些結構中確實存在某種時態表現。

Jeff:

是的,這只是從訓練過程中自然生成的,並不是我們告訴它要做的事情,而是我們使用的訓練算法使然。語言有很多方式可以使特定的形式被使用,從而顯現出這種現象。例如,你可以在男性或女性版本的詞之間互相轉換。所以,從“cow”到“bull”與從“queen”到“king”或從“man”到“woman”、“woman”到“man”是相同的方向。這真是不可思議。

主持人:

但是,這仍然只是我們在這裡討論語言。那麼,多模態方面的變化是如何的?這使得它有什麼不同?

Jeff:

是的,因爲你仍然是在這些高維空間中表示輸入數據。這實際上是個問題:你如何從圖像的像素中,將其轉化爲某種理想狀態,即你希望多模態模型具有與我們類似的東西。當我們看到一頭牛時,這引發了我們大腦中與閱讀“牛”這個詞或聽到牛叫聲類似的激活。你希望訓練模型,使其具有那個共同的意義和表示,而不論它們是如何獲得那些輸入數據的。

所以,如果模型看到一段牛在田間行走的視頻,這應該會觸發模型中與之相關的一大堆事物,基於模型通過激活建立起來的這些事物。通常這些模型是非常深層次的,最低層通常有非常簡單的表示,然後模型中的較高層在這些表示的基礎上構建,並構建出更有趣和複雜的特徵和表示的組合,無論是詞語還是圖像或其他。

當你說從零開始的多模態,即通常聽到的一個大詞彙,並不是說你在此處有單詞部分,在彼處有像素部分,並在兩者之間進行轉換,而是在模型本身中,這些表示非常早期就在模型中。

主持人:

這是否在開始設置時更加困難?這是否使其更加難以執行?

Jeff:

是的,我認爲弄清楚如何將不同的模式整合到模型中,以及如何訓練一個多模態模型,比單純的語言或純字符模型更復雜。但你從中獲得了很多好處,因爲你有時會得到跨模態傳遞。現在看到關於奶牛的視覺內容實際上有助於語言理解。也許你在草地上或某些地方看過許多關於奶牛的描述,但現在它突然看到了這些圖像和視頻,並且能夠以一種使模型內部觸發相似事物的方式將這些表徵結合起來,無論你是看到了“奶牛”這個詞還是奶牛的圖像。

主持人:

給我舉一個你認爲在未來這種情況有用的例子。

Jeff:

我認爲它已經很有用了,這很好。比如,你想要能夠拍攝一張手寫白板上解決數學問題的圖片,然後說,這個學生解決這個問題。現在確實需要在一個例子中引入多模態能力。你需要實際進行手寫識別,從中理解這是一個學生在白板上寫的物理問題,可能還有一張滑雪者下坡的圖片。

在早期的Gemini技術報告之一中,我們有一個很好的例子:一名學生在白板上解決了一個問題。你實際上可以問Gemini,學生是否解決了這個問題。如果沒有,哪裡出了問題?你能解釋一下如何正確解決這個問題嗎?它實際上能夠判斷出,學生錯誤地應用了滑雪者在無摩擦坡道上滑行的公式,他們用了斜邊而不是高度。它會說,“不,不,實際上,你應該用這個。”這是解決的問題。它做了所有這一切,並且識別了所有的手寫內容。事實上,這是一個物理問題,這種物理知識模型已經具備,這種應用是正確的。

主持人:

我認爲,這確實是一個很巧妙的方式,你可以在現有的教育模型中使用Gemini現有的模型。但我認爲,實際上,這些並不是彼此獨立的系統。所以,從某種程度上說,你認爲這些多模態模型會徹底改變我們進行教育的方式嗎?

Jeff:

我認爲,使用人工智能工具幫助教育的潛力真是令人驚歎。作爲一個社會,我們纔剛剛開始這段旅程。例如,我們知道,接受一對一輔導的學生的教育成果比傳統教室裡一個老師和30個學生的設置要好兩個標準差。那麼我們如何讓每個人都感受到他們擁有一個一對一的教育導師的好處,這個導師瞭解他們知道什麼,瞭解他們不知道什麼,可以幫助他們以他們最擅長的方式學習呢?這就是人工智能在教育中的潛力。

其實,我們離這樣的一種情況並不遠。在這種情況下,你可以指向一個Gemini模型或未來的Gemini模型,針對某些材料,說,“你能幫我學習這個嗎?”比如你生物課本的第六章。它包含了一堆圖片,包含了一堆文本,也許還有你看過的一段講座視頻。然後你實際上可以說,“我真的不理解這件事。你能幫我理解嗎?”它可以向你提問,你可以向它提問。你可以回答問題,它可以評估你是否正確,並真正引導你在學習旅程中的進步。

因爲這是個性化的,我們應該能夠將其提供給世界各地的許多人,不僅僅是英語,還涵蓋世界上成百上千種語言。

主持人:

所以我理解你說的關於多種語言,以及試圖讓這些語言儘可能廣泛地可用。但是否存在創建某種兩級系統的危險?一方面,擁有這些工具接觸的人,如你所描述的,能夠獲得更好的結果,加速他們的學習和生產力。那些不幸無法接觸到這些工具的人確實會面臨困境。

這是你關心的問題嗎?

Jeff:

是的,我認爲確實存在創建兩級系統的風險。我們應該努力使這些技術儘可能廣泛地、普遍地爲每個人所用。如果我們能做到這一點,就能真正利用這些優勢爲社會做出貢獻,並使人們能夠負擔得起或免費利用這些能力,用於教育和醫療。我認爲這是人工智能在醫療可及性方面真正產生巨大影響的另一個領域。

主持人:

回到Gemini,如果可以的話。

如果你是從Google搜索開始的,那麼事實性絕對是你所關心的一切的基石。但是Gemini,我的意思是你一直在與它合作。我想你一定見過它說一些相當離奇的事情。你是如何在腦海中調和這一點的,例如,不再總是需要絕對的事實性?

Jeff:

是的,作爲一家公司,這實際上是一個棘手的平衡,因爲我們從一開始就是一家基於搜索的公司。正如你所說,提供準確的事實信息是搜索引擎體驗的頂峰。我認爲我們實際上在內部建立了一些有趣的大型語言模型,大家都很喜歡與之對話。事實上,其中一些模型在疫情期間可以在內部使用,所以大家都在家時就能使用它們。實際上,你會看到在午餐時間,內部使用量會激增,因爲大家會和他們的虛擬聊天機器人對話,畢竟,在家獨自一人時還能跟誰聊天呢?

這些模型實際上被訓練成預測合理的下一個詞元,本質上就是這個。你可以將詞元理解爲一個單詞或一個單詞的一部分。預測合理的下一個詞元和絕對真理是不同的,它是一個概率上合理的句子。這與事實是不同的。我認爲我們逐漸意識到的是,這些模型即使不是100%真實的,實際上也可以相當有用。所以我認爲,意識到還有很多其他的用例,或者能不能在五條中總結這個幻燈片?是的,您可以爭論第五個要點是否完全正確,但仍然很有用,能有4.5個關於幻燈片放映的事實準確的要點。我們在努力爭取達到五個事實準確的要點。但即使沒有那一點,我認爲這些模型的實用性其實已經相當高了。

主持人:

這是一個讓人不舒服的認知嗎?因爲當然,其他實驗室確實更早推出了他們的模型。您認爲您們因爲這個事實問題而顯得過於小心了嗎?

Jeff:

我認爲我們有很多不同的顧慮,事實性只是其中之一,還有像模型訓練方式中的毒性和偏見,以及它可以產生的輸出,這是我們希望在很多方面使模型減少偏見的一個領域。所以在發佈給公衆之前,我們在諸多領域都希望保持相對謹慎。我認爲我們已經解決了很多這些問題,以至於我們認爲我們在這個領域發佈的產品是有用的,儘管在事實性或偏見等方面顯然還有改進的空間。我認爲人們需要進行一些調整,既要盡力做到最好,也要意識到如果不發佈某個東西,實際上是在抑制一些對很多人可能有用的東西,即使它還有一些瑕疵。

主持人:

那麼,有了這些瑕疵,我們從這裡開始該往哪個方向走呢?在我看來,計算方式似乎已經發生了真正的轉變。比如,使用計算器時,輸入同樣的計算兩次會得到同樣的答案。而我們現在處於一個概率計算的時代。因此,我想知道,公衆是否需要接受這一點,並接受我們正處於一個事物更像人類且可能犯錯的時代,還是你認爲這是可以解決的問題?

Jeff:

我認爲兩者都有一些道理。我認爲有很多技術方法可以改善這些問題的真實性。一個例子是,如果你考慮一下模型訓練的數據,比如萬億級的文本和其他數據,然後把這些數據混合在這個巨大的包含數十億參數的“湯”中。我喜歡把這比作你見過很多東西,但記得不是很清楚。

如果你把信息放在……我們在Gemini中推動的事情之一是擁有一個長上下文窗口。當你有一大段空間可以放置你試圖總結、操縱、比較或提取信息的各種直接信息時,模型在上下文窗口中實際上對這些信息有一個更清晰的視圖。它就像擁有實際文本和這些文本的表示,而不是與它看到的所有其他內容糾纏在一起。

主持人:

因此,這個上下文窗口就是模型在那一刻可以看到的重要部分。

Jeff:

是的,它可以以比在其訓練過程中看到的其他事物更精確的方式進行推理。

因此,它可以處理五個科學文章的PDF,然後你可以提出問題,比如,能否請你告訴我這些文章的共同主題是什麼?它實際上能夠做到這一點,因爲它擁有所有這些文章內容的自我表示。這就是我們一直在推行Gemini模型的超長上下文窗口的原因之一,因爲我們認爲這對於事實性、視頻摘要以及各種應用都非常有用。

主持人:

但是上下文窗口有上限嗎?你能不能一直推一直推,直到它變成一個無限的上下文?

Jeff:

這是個很好的問題。目前,注意力處理的計算方面花費相當昂貴。你試圖將其做得越長,它變得越昂貴。昂貴在時間上的開銷、計算時間、金錢、計算能力以及各種資源的開銷。但我們認爲可能可以通過算法改進使其超越我們當前的兩百萬標記上下文窗口。我指的是,一百萬標記已經相當多了。一百萬標記大約是600頁文字,相當於大多數書籍,約20篇文章,或一小時的視頻。

主持人:

那麼在另一方面呢?因爲你說這兩方面都有一點。

Jeff:

也許人們必須調整他們的期望。我認爲這些模型是工具,人們需要理解它們的能力,但也要知道,在某些情況下,可能不應該使用這些工具。因此,這對人們來說是一個教育過程。不要立刻相信語言模型所說的每一個事實,你需要對其進行一些審查。我們已經教育人們,如果你在網上看到某些信息,那並不一定意味着它是真的。我認爲,對來自語言模型的某些類型的信息保持類似程度的懷疑也是合適的。隨着模型的改進,這種懷疑可能會減少,但最好帶着一種健康的態度來看待,可能它實際上並不是真的。

主持人:

除了上下文窗口之外,還有其他方法可以讓你在編寫提示時儘量減少得出完全虛假的結果的風險嗎?

Jeff:

谷歌研究人員提出了一種技術叫做“鏈式思維提示”。如果你只是給模型一個有趣的數學問題,然後問它答案是什麼,它可能會答對,但也可能不會。而如果你說,這是一個有趣的數學問題,你能一步一步地展示你的解題過程嗎?回想一下你四年級的數學老師,他或她可能會說你真的應該逐步展示你的解題過程,然後得到最終的答案並寫下答案。這部分原因是因爲這幫助你通過多步驟的思維過程,從被問到什麼到我需要計算這個,基於那個計算這個,等等,最後得到答案。事實證明,這不僅使模型的輸出更易於解釋,因爲它有點告訴你它經過了哪些步驟,而且也更有可能得到正確的答案。

主持人:但如果這不是一個數學問題呢?

Jeff:

即使在那些不是明確定義正確答案的領域,這種方法也有效。這有點微妙,我認爲人們需要實際學習如何使用這些模型,你提示它們的方式實際上是一個很大的決定因素,影響輸出的質量有多高。比如,如果你說總結這個,那可能會導致一個結果。如果你說,請總結這篇文章並給我五個重點突出文章主要內容的要點,並列出作者寫下的兩個缺點。如果你這樣說,這對模型應該做什麼來說是一組更清晰的指示,而不是隻是簡單地說總結這個。

主持人:

當我們把這些東西放在一起時,就是逐步分解步驟,但也理解更多的背景和多模態的內容。我們是否在向一種多模態模型理解我們作爲個體和我們的偏好這種情況邁進?

Jeff:

是的,我認爲你真正想要的是一種非常個人化的Gemini版本,它瞭解你現在正在嘗試做什麼,但也瞭解你在嘗試這樣做的背景。我是素食者,所以如果我問Gemini關於倫敦的餐館推薦,它知道我是素食者,它會推薦不同的東西,而不是我不是素食者時推薦的東西。我認爲,一個通用模型,如果是爲每個人提供相同的服務,這種模型並不會比一個真正瞭解你和你的背景的模型好。有些類型的問題你可能想問一個模型,但現在用Gemini還不能完全做到。不過,你可以想象一下你想要實現的功能,比如,你能把我上週遠足時拍的照片做成一本插圖故事書嗎?

今晚我孩子的就寢時間,模型會知道你徒步旅行時的那些照片來自哪裡,並且知道如何製作一本能夠吸引你孩子的插畫故事書。也許它還會知道你孩子的年齡,以便使其內容適合。

所以我認爲你現在還不能做到這一點,但這可能會是一個有用的功能。人們會想要,你會希望人們選擇加入。我認爲你希望模型知道和掌握的上下文信息越多,你就越希望人們能理解正在發生什麼。

我們能做的一件事情是,不是基於這些數據去訓練模型的一個版本,而是僅在上下文中提供正確的信息,以便在生成響應時可以調用這些信息。我覺得那會挺不錯。

主持人:

就像你有一個幾乎可以將自己的上下文印刻其中的常規結構,但那對於你來說是私密的。

Jeff:沒錯。

主持人:

這看起來會非常好。

我們在這裡只限於音頻、視頻、屏幕上能看到的東西、語言等,還是我們是否期望這些助手能夠從我們的電腦裡走出來?

Jeff人:

我認爲實際上有許多不同種類的新數據模式,這些模式並不完全是人類的模式,我們希望這些模型能理解。

比如,來自世界各地的大量溫度讀數有助於天氣預測,或者基因序列,或者自動駕駛汽車或機器人應用的LiDAR數據。在一個環境中,你希望這些模型或許能夠幫助實際世界的機器人應用。能夠與機器人設備對話,用普通語言給它指示,比如你能不能去廚房,擦一下櫃檯,然後把我留在櫃檯上的汽水罐回收掉,然後給我拿包開心果之類的。

傳統上,機器人無法理解這樣的語言,但我認爲我們正處在實現這種能力的邊緣。能夠讓機器人在凌亂環境中完成50或100個有用的任務,而不僅僅是在過去機器人已被部署的那種非常受控的環境中,比如工廠裝配線那種,他們從這裡到那裡。這是一個非常可以預見的事情。

主持人:

我們在這裡談論作爲助手,這些東西在某種程度上是增強人類能力的方式。我可以在醫療環境中看到它,在教育環境中看到它。但是,多模態方面是否爲我們提供了更多,比如關於我們如何理解世界的方面?

Jeff:

我認爲這些模型現在能夠做的是通常可以進行一些推理步驟,從而完成你要求它做的任務。我認爲隨着這些模型在能力上的提高,你將能夠讓模型與您合作完成更多複雜的任務。就像是區別於能否在椅子租賃處訂購一堆椅子與幫我策劃一場會議。後者是更高層次的,更復雜的。合適的模型會向你提出一連串的後續問題,因爲其中存在模糊性。例如,有多少人會來?這是關於什麼的?你在哪個國家?你想在哪裡舉行?什麼時候?然後我們就可以出發,並且能夠完成你可能想要實現的許多事情,以實現那個高級目標。

主持人:

如果你有這種概念性的連接或這些概念性的連接,我指的是回到奶牛這件事,它理解圖片,還理解重力,通過在互聯網上看視頻。它們可能看過像是物理入門課程的講座。所以它從這個角度理解它,並且還看過很多東西落下。那麼某天你可以進來說,給我畫一個非常高效的飛機藍圖嗎?

Jeff:

我認爲這些模型需要與某種探索過程結合。這種探索過程可以是這樣子的,不一定非要在200毫秒內給你答案。也許你明天拿到飛機就開心了。

所以我認爲在那時,你就有更多的自由去設計系統,從而能夠有效地完成類似的事情。它們可以在模擬器中進行一些實驗,或許是他們可以訪問的模擬器,或者他們爲基本流體動力學等創建一個模擬器。然後他們嘗試,知道,嘗試一堆設計。也許他們對飛機形狀有一些想法,在看過很多現有飛機之後覺得有什麼意義。所以,他們可以嘗試完成你所要求的事情。希望他們首先問的是,你希望你的飛機具有什麼特性。

主持人:原來一直是紙飛機。

Jeff:

是的,紙飛機。知道它是紙的很重要,這可以大大降低成本。

所以,我認爲這些事情最終會實現。要準確說出這些能力的確切時間有點困難,那是一種相當複雜的集成,涉及到模型的推理能力、它所需要的知識、你要求它做的事情以及你如何要求它去做的事情。但是,我們已經看到這些模型在五年、十年期間能力的巨大進步。所以在五年、十年的時間裡,這可能是有可能的。甚至可能比這更快,例如,你能幫我設計具有這些特性的一架飛機嗎?

主持人:

但我想這些就像是我們希望阿波羅成爲那樣東西的早期前兆。

Jeff:是的,沒錯。

主持人:

Jeff,非常感謝你加入我。

Jeff:

很高興來到這裡。謝謝你邀請我。

主持人:

在很多方面,我認爲傑夫的整個故事就是關於規模的。對於谷歌搜索來說,這就是如何獲取更多的網頁,更多的用戶,更快的查詢。對於神經網絡來說,關鍵在於更多的計算能力和更多的機器。在最近的機器學習時代,關鍵在於越來越多的數據。

從這一切中,出現了一種真正的世界概念模型。這種模型具備抽象能力,已經證明能提高人類的生產力。值得注意的是,Jeff 並沒有就此止步。還有更多的傳感器和更多的模式將會出現。而且,當它們與在這棟樓裡誕生的強化學習工具結合時,也許在人類通用人工智能(AGI)的道路上還會取得更大進展。