o1 發佈後,信息量最大的圓桌對話:楊植麟、姜大昕、朱軍探討大模型技術路徑

AI 發展很快,並且還在加速。

作者 | Founder Park

在 2024 雲棲大會上,階躍星辰創始人姜大昕、月之暗面Kimi創始人楊植麟、生數科技首席科學家朱軍與極客公園創始人張鵬一起,探討了各自眼中 AI 技術發展的現狀,推演未來 18 個月,大模型行業會發生什麼。

在這場圓桌裡,他們重點聊了:

客觀來說,AI 領域過去兩年發生了什麼?

OpenAI o1 的發佈對行業意味着什麼?

o1 背後的強化學習新範式對算力和數據提出了怎樣的新要求?

AI 應用層的創業,在今天該怎麼做?

未來 18 個月,AI 技術和應用的發展路徑是什麼?

信息量很大,我們將現場實錄整理如下。

01AI 發展的速度太快了

張鵬:OpenAI 發佈到現在快兩年了,這兩年裡引發了整個世界對 AI 的討論。各位都是下場創業做大模型的創業者,你們的感受是怎樣的?

我們是在「看遊戲」,你們在「打遊戲」,感受可能會很不一樣。過去 18 個月,AI 技術的發展在減速嗎?

姜大昕:我覺得過去 18 個月是在加速的,而且速度還是非常快的。

過去 18 個月裡發生的大大小小的 AI 事件,我們可以從兩個維度去看,數量和質量。

數量上,基本上每個月都有新模型、新產品、新應用涌現出來。單說模型,OpenAI 2 月發的 Sora,過年期間把大家轟炸了一下,然後 5 月出了 GPT-4o,上週又出了 o1。OpenAI 的老對手 Anthropic,它有 Claude 3、3.5 系列,再加上 Google Gemini 系列、 Groq、Llama……

去年我們的體感還是 GPT-4 一家獨大、遙遙領先,今年就變成了羣雄並起、你追我趕的局面。所以各家肯定是在提速。

從質量的角度來看,我覺得有三件事情給我的印象非常深刻。

第一是 GPT-4o,在多模融合領域上了一個新的臺階。之前有視覺理解模型 GPT-4v;有視覺生成模型 DALL-E、Sora;有聲音模型 Whisper、Voice Engine。4o 把孤立的模型能力融合在了一起。

爲什麼融合非常重要?因爲我們的物理世界本身就是多模態,多模融合有助於我們更好地爲物理世界建模,更好地去模擬世界。

第二是特斯拉的 FSD v12,一個端到端的大模型,它把感知信號直接變成控制序列。我覺得自動駕駛非常有代表性,它是一個從數字世界走向物理世界的真實的應用場景。FSD v12 的成功意義不僅在於自駕本身,可以說這套方法論爲將來智能設備如何與大模型結合,如何更好地探索物理世界指明瞭方向。

第三就是上週的 o1,它第一次證明了語言模型也可以有人腦的慢思考,也就是系統 2* 的能力。我們一直認爲 AGI 的演進路線分爲模擬世界、探索世界、歸納世界。而系統 2 的能力正是歸納世界的前提條件。

注:系統 1、系統 2 來自《思考,快與慢》,系統 1 指快速的、無意識的快思考;系統 2 指有意識的慢思考。

過去幾個月的時間,GPT-4o、FSD v12 和 o1 分別在這三個方向上都取得了非常大的突破,而且爲將來的發展也指明瞭方向。所以我覺得無論是從數量還是質量來說都是可圈可點。

張鵬:感覺你在你期待的領域裡都看到了廣泛的突破和進展。那植麟的體感是怎麼樣的?投身其中的人可能會跟我們外邊「看遊戲」的人不一樣。

楊植麟:我也覺得整體是處於加速發展階段,AI 發展的核心可以從兩個維度來看。

第一是縱向的維度,智商是一直在提升的,體現上還是去看文本模型能做到多好;第二是橫向的發展,除了文本模型之外,像剛纔提到的多模態,這些模態其實是在做橫向的發展,它讓模型具備更多技能,能夠完成更多任務,然後同時跟縱向的智商發展相結合。

在這兩個維度上我都看到了非常大的進展。在縱向維度上,數學競賽的能力去年是完全不及格,而今年已經能得到 90 多分了。代碼也是一樣,現在能擊敗很多專業編程選手。也產生了很多新的應用機會,比如說現在流行的 Cursor,能通過自然語言直接去寫代碼,未來這樣的軟件也會越來越普及。

很多具體的技術指標,比如現在的語言模型能支持的上下文長度,去年大部分模型都只能支持 4-8K 的上下文。但是今天 4-8K 已經是非常低了,128K 是標配,很多已經可以支持 1M 或者甚至 10M 的上下文長度,它其實也是智商不斷提升的重要基礎。

最近的很多進展不光只是在做 scaling,很多進展來自於後訓練的算法優化、數據的優化,這些優化其實週期會更短,更短的優化週期也會導致整體的 AI 發展節奏進一步加快。

橫向上也產生了很多新的突破。Sora 可能是影響力最大的,它完成了視頻生成,最近也有特別多新的產品和技術出來,比如現在已經可以通過一篇論文,直接生成一段真假難辨的 Podcast 雙人對話。未來類似這樣不同模態之間的轉化、交互和生成會變得越來越成熟。所以我覺得整體是在加速的過程中。

張鵬:感覺這些技術還在加速地擴展,雖然可能沒有長出 Super App,但如果拋掉 Super App 的視角,去看技術,反而能看到它真正的進展,這可能是更理性客觀的視角。朱軍老師,你會怎麼總結這 18 個月?你覺得 AGI 的技術經歷了什麼樣的發展?

朱軍:其實 AGI 裡大家最關注的還是大模型,大模型方面從去年到今年發生了很多重要的變化,我非常同意整個進展在加快。另外大模型解題的速度也變快了,它的 learning curve(學習曲線)在變得更陡。

大語言模型從 2018 年到現在發展過來走了 6 年的路,去年下半年大家開始討論多模態,到今年年初,只過了半年時間,多模態大模型的時空一致性就已經讓大家震驚了。這種加速最核心的原因在於,大家對路線的認知和準備達到了比較好的程度。

還有物理條件,比如雲設施、計算資源的準備也在加速。ChatGPT 剛出來時大家不知所措,很多人沒準備好去接受它,花了很長的時間去學習和掌握。當我們接受和掌握它之後,再去解決新的問題,它的發展速度是越來越快的。

當然,能力輻射到實際的用戶身上也有快慢之分,而且也分行業。可能在廣泛的角度上大家沒感知到能力的進步,但從技術來說,進步的曲線越來越陡。我對高階的 AGI 發展是比較樂觀的,而且發展速度會越來越快。

02o1 提升了 AI 上限,帶來了新範式

張鵬:外界有人說:「AGI 怎麼發展變慢了」,三位的反應好像是:「你還想要怎樣?」它的發展進程在這 18 個月裡已經讓我們每個人都目不暇接了。

OpenAI 的新模型 o1,在專業人羣裡產生了非常大的影響,現在還有很多討論。先問問大昕,你怎麼看 o1?很多人認爲這是 AGI 發展階段的一個重要進步,我們到底該怎麼理解這個進步?

姜大昕:我確實看到了一些非共識:有些人覺得 o1 意義很大,有些人覺得 o1 也不過如此。我試用 o1 的第一印象就是:它的推理能力確實非常驚豔。我們自己試了很多 query,覺得推理能力確實上了一個很大臺階。

它背後的意義究竟是什麼?我能想到的有兩點。

第一,o1 第一次證明了其實 LLM 可以有人腦的慢思考,也就是系統 2 的能力。以前 GPT 的訓練範式是「預測下一個 token」。這就註定了它只有系統 1 的能力,而 o1 用了強化學習這樣一個新的訓練框架,所以帶來了系統 2 的能力。系統 1 是直線型思維,雖然我們看到 GPT-4 可以把一個複雜問題拆解成很多步,然後分步解決,但它還是直線型的。系統 2 和系統 1 最大的區別就在於,系統 2 能夠去探索不同的路徑,可以自我反思、自我糾錯,然後不斷試錯,直到找到正確的途徑。

這次 o1 把以前的模仿學習和強化學習結合起來了,使模型同時有了人腦系統 1 和系統 2 的能力,我覺得從這個角度來看它的意義是非常大的。

第二,帶來了 scaling law 的新方向。o1 試圖回答的一個問題是:「強化學習究竟怎麼泛化?」o1 不是第一個做強化學習的,DeepMind 一直在走強化學習路線,從 AlphaGo 到 AlphaFold 到 AlphaGeometry。DeepMind 在強化學習上非常厲害,但是以前這些強化學習都是爲特定場景去設計的——AlphaGo 只能下圍棋,AlphaFold 只能預測蛋白質的結構。o1 的重大意義是讓強化學習的通用性和泛化性上了一個大臺階。

而且 o1 已經 scale 到了一個很大的規模,我認爲它帶來了一個 scaling 技術的新範式,不妨稱之爲 RL scaling。而且 o1 還不成熟,它還是一個開端。這點恰恰讓我覺得非常興奮,這就等於 OpenAI 跟我們說:「我找到了一條上限很高的道路,仔細思考它背後方法的話,你會發現這條路是能夠走下去的」。

總的來說,o1 從能力上展示了 LLM 可以有系統 2 的能力;技術上帶來了一個新的 scaling 範式,所以我覺得它的意義還是非常大的。

張鵬:聽起來,雖然說現在有非共識,感覺你是非常看好,非常認同的。朱軍老師怎麼看,o1 帶來這一階段的進展,你怎麼評價它的意義?

朱軍:我的看法是,它代表着一個顯著的質變。

我們對 AGI 大概做過一些分級,學術界和產業界有 L1-L5 的分級,L1 相當於聊天機器人,像 ChatGPT 等,之前大家做了很多對話。L2 叫推理者,可以做複雜問題深度思考的推理。L3 叫智能體,「數字世界」走向「物理世界」,要去改變,去交互。L4 是創新者,要去發現、創造一些新的東西,或者發現一些新的知識。L5 是組織者,它可以去協同,或者有某種組織方式更高效地運轉,這是大家對於 AGI L1-L5 的分級,當然每一級也有 narrow 和 general 的區分,現在在某些任務上可以展示出來。

比如 o1 在 L2 的 narrow 場景下,在一些特定任務下已經實現了,可以達到人類很高階的智能水平。我覺得從分級角度來看,它確實代表着整個行業的一個巨大的進步。

技術上,過去的強化學習或者其他一些技術,其實在研究裡已經做出了很多東西,但能在大規模基座模型上 scale up,做出效果,從工程上或者從實現上來說,對行業來說是一個很大的觸動。當然它也會觸發或者激發出很多未來的探索,或者實際的研發,可能會走向從 narrow 到 general 的躍遷。這個速度我相信會很快,因爲大家已經有很多準備了,我也期待這個領域裡有更多人將 L2 做得更好,甚至實現更高階的效果。

張鵬:感覺你對這個定義已經很高了,你看到了 AGI L2 層面顯著明確的路徑和階段性成果,而之前都在 L1 的層面。當然要到大家期望的擁抱改變物理世界,最終還要往前走,到了 L3,可能這件事就真的會完整的、系統性地發生。

回到植麟這邊,這次發佈 o1 之後,Sam Altman 熱情洋溢地說,我們認爲這是一次新範式的革命。當然 Sam 很會演講,很會表達。我想聽聽你怎麼看,怎麼理解他說的「這是一次新的範式變革」,你是否認同?

楊植麟:我覺得它的意義確實很大,主要意義在於它提升了 AI 的上限。

AI 的上限是說,(能)去提升 5%、10% 的生產力,還是 10 倍的 GDP?我覺得這裡最重要的問題就是,能不能通過強化學習進一步 scaling。所以我覺得這(o1) 是一個完全提升了 AI 上限的東西。

如果我們看 AI 歷史上七八十年的發展,唯一有效的就是 scaling,加更多的算力。在 o1 出來之前,也有很多人在研究強化學習,但都沒有一個非常確切的答案,強化學習如果和大語言模型,或者和 pre-training、post-training 整合在一起,它能不能持續提升?比如 GPT-4 這一代模型的提升,更多是確定性的提升,在一樣的範式下把規模變得更大。

但是我覺得 o1 的提升並不是一個完全確定性的提升。

在之前,大家可能會擔心數據牆的問題,現在互聯網上大部分優質數據都已經被使用完了,也沒有更多的數據可以挖掘,所以原來的範式可能會遇到問題。AI 有效了,又需要進一步 scaling,那這個 scaling 從哪裡來?我覺得(o1)很大程度上解決了這個問題,或者說至少證明了初步可行。初步可行的情況下,可能會有越來越多人投入去做這個事情,最終要做到 10 倍 GDP 的最終效果,它完全有可能,我覺得是一個很重要的開端。

當然,我覺得對很多產業格局,或者對於創業公司的新機會來講,也會發生一些變化。比如這裡很關鍵的一個點是,訓練和推理算力佔比會發生很大的變化,這個變化不是說訓練的算力會下降,訓練的算力還會持續提升,但與此同時,推理的算力提升會更快,這個比例的變化本質上會產生很多新的機會,會有很多新的創業公司的機會。

一方面,達到一定算力門檻的公司,可以做很多算法的基礎創新,甚至可以在基礎模型上取得突破,我覺得這個很重要。而對於算力相對小一點的公司,也可以通過後訓練的方式,在一些領域上做到最好的效果,也會產生更多的產品和技術機會,所以我覺得,整體也打開了創業相關的想象空間。

張鵬:所以這一次核心的所謂範式變化,帶來的就是在 Scaling Law 上解決了我們接下來的 scale what,我們看到了新的路徑,並且未來可拓展的創新路徑空間和探索的東西變多了,而不像原來,是一個收縮甚至是遇阻的狀況。

03推理能力泛化路徑還不明確,是一個新的技術變量

張鵬:想問問朱軍老師,今天在一個階段性的、還比較明確的一些場景裡,這種把 RL 加到體系裡面成爲一個新的範式之後,我們能看到明顯地去泛化這個能力的路徑嗎?

朱軍:這個問題確實很值得思考,因爲現在它先是在一些任務上能取得突破,我們再想着把它做到更廣泛的任務上,或者有更廣泛的能力提升上。從目前來看,o1 沒有完全告訴我們技術路線是怎麼做的。

張鵬:明顯沒有 ChatGPT 出來前那麼 open。

朱軍:對,但是從本身科研的積累解讀,能看到它到底用了哪些技術。

這裡有一個很重要的問題,叫過程監督的數據,它和之前的結果直接 output 的監督還不太一樣,要對裡面的每一步都去標註,比如思考的過程,獲取這種數據首先可能就比較難,需要專業的人去做專業的高價值數據。

另外,在實際做的過程中,包括大家之前看 AlphaGo 遷移到其他領域面臨同樣的問題,在更泛化,或者更開放的場景下,Reward Model 不好定義。

比如說,現在有確定答案的定理證明或者是編程問題,Reward 是比較明確的,獎勵函數是很容易定義的。但如果到自動駕駛、具身,或者藝術創作裡面,比如生圖、生視頻,這裡面的界定是比較模糊的,可能很多場景下是很難清晰地定義到底什麼好,什麼不好,可能很多問題不是「是」和「非」的問題,比如像生成式內容,對美學或者對其他的評價,每個人感受還不太一樣。在這種情況下要去泛化的話,技術上就面臨很多問題,我怎麼定義 Reward Model,怎麼收集數據,還包括怎麼高效地實現,給它 scale up。

現在大家看到這條路了,相當於已經看到曙光,會引導大家朝着這個方向去努力。另外,結合現在比較強大的基座模型,可能比之前上一代 AlphaGo 遷移到其他領域裡,我相信會更快,包括像一些開放領域裡,我們有更好的模擬器,甚至包括一些 AGI 的生成方式來構建這個環境。這些加持在一起,我想這條路會走得更快一點,會比之前更容易取得效果和提升。

張鵬:今天確實還沒有看到一個公開、明確的,可以確定性把這個泛化完成的路徑,但它存在探索的空間和足夠的可能性。想追問一下植麟,這個狀態對於像你們這樣的創業公司,是好事還是壞事?

楊植麟:我覺得這其實是一個很好的機會,因爲等於說有了一個新的技術變量,是一個新的技術維度。

當然這個我們之前或多或少也有一些投入,但是現在可能它會變成一個主題,在這個主題下面,我們會有非常多新的機會。一方面是朱軍老師提到的怎麼去泛化的問題,另一方面是,在這個過程中還有一些基礎的技術問題沒有被完全解決,底層涉及到訓練和推理,這兩個東西要同時去 scaling,很多問題今天還沒有被完全探索清楚,包括剛纔提到過程監督的問題,中間的一些幻覺也會給它的效果帶來很大的傷害,這些問題都很值得研究。

但如果能做好的話,可以把現在很多的能力提升一個臺階。所以對我們來講,可能會有更多通過技術創新,形成一些突破的機會。

張鵬:有不確定其實是好事。有確定的方向和不確定的路徑,對創業公司反而是好事,否則就沒有創業公司的事了。

04新範式對算力的需求會更大

張鵬:回到大昕這邊,過去我們說算法、算力、數據,這三個都是談 AGI 時的關鍵三角,這次看起來在算法層面有些範式的變化,反過來對於算力、對於數據這方面,這個三角形會怎麼產生連鎖的反應,能不能幫我們推理一下?

姜大昕:我覺得算法、算力、數據這個連鎖的鐵三角關係沒有改變。RL 確實是算法上的改變。對算力造成的結果中,有一個是確定的,有一個大概率會確定,還有一個是目前不太會確定的。

確定的是,就像剛纔兩位談到的,在推理側,它對計算的需求量肯定是成倍的提升,這就是 OpenAI 在博客裡提到的 Test-Time Scaling。它對推理芯片的能力要求肯定也是提高了,可想而知,OpenAI 在 o1 的背後可能是用了 H100 在做推理,一個問題往往要消耗十幾秒、幾十秒時間,所以我們要加快速度的話,對推理芯片的要求也會提高。

一個大概率會確定的事情是,在訓練 RL 的階段,我們所需要的算力可能並不比預訓練要少,這可能是一個非共識。因爲在 RL 的階段我們做 self-play,這個數據量在理論上是可以沒有上限的,我們也聽說 OpenAI 在訓練 Strawberry 模型時用了上萬張 H100,訓練了幾個月,現在還是 o1 的 preview,訓練還沒有完成,所以訓練的代價是非常高的。如果我們追求的是一個通用的,有泛化能力的推理模型,而不是爲某個特定場景所設計的 RL 模型,可能訓練所需要的計算量並不小。

還有一個是我不太確定的,在 self-play 時,我們用了主模型,它的參數量要不要再繼續 scale,讓它產生更好的推理路徑。因爲現在大家有一個普遍的觀點是,GPT-4 到了萬億級參數之後,你再去 scaling 它的參數,它的收益邊際是在下降的。但如果 RL 方法產生了放大器作用,它能加倍你的收益的話,是不是總的收益 ROI 又打正了?這是一個不太確定的事情,可以留在後面去驗證。如果這個結論成立的話,算力的增長又回到了平方的維度,因爲計算量=參數量×數據量,所以我的感覺是,RL 帶來的不管是對於推理側還是算力側,它對算力的需求都是在增長的。

那麼數據測,剛纔提到,RL 階段有兩種數據,一個是少量人工合成的數據;二是海量機器生成的數據。數據量可以很大,但數據的質量非常關鍵,所以你怎麼去構造生成數據的算法,以及 self-play 用的主模型能力就變得非常關鍵了。

05模型輸出變慢了,怎麼向用戶交待?

張鵬:今天三位都是創業者,有自己的團隊。想問問植麟,Kimi 在今年引發了很多關注,產品發展得也很好。你覺得這一波 AI 的新變化,接下來會對 AI 相關的產品帶來什麼樣的連鎖反應?這個變化會如何發生?

楊植麟:我覺得我們現在還是處於產業發展的早期,這個階段技術驅動的產品會更多,很多時候產品需要去看當前的技術怎麼發展,然後去把最大化的價值提取出來。

我們可以根據新的技術進展,反推一下,現在的產品應該做什麼變化。

現在的技術發展有幾個點,一個是會有很多探索新 PMF 的機會,這個 PMF 是兩方面的平衡,一方面是大模型需要做系統 2 的思考,導致延時是增加的,但這個延時增加對用戶來說是一個負向體驗,因爲所有用戶都希望能儘快拿到結果。

第二,它確實能提供更好的輸出,能拿到更好的結果,能完成一些更復雜的任務。所以,我覺得這個新 PMF 探索的過程,其實是要在延時增加帶來的用戶體驗下降和結果質量更高的用戶價值上升之間找到一個平衡點。

要讓增量的價值大於體驗的損失,我覺得這個很重要,在一些更高價值的場景,特別是生產力的場景,可能率先會有一些東西出來,因爲如果是娛樂場景,用戶很難忍受延時上的增加。

然後,我覺得產品形態上可能也會發生一些變化,因爲引入了思考範式。現在這種即時的類似聊天的產品形態,一定程度上也會發生變化,以後的 AI 可能會思考 20 秒、 40 秒,或者去調用各種工具。它會去執行分鐘級別、小時級別甚至天級別的任務,產品形態上會更接近一個人,更接近一個真實的 assistant 或者助理的概念,幫你去完成一個一個的任務。這裡面產品形態的設計我覺得會發生很大的變化,新的想象空間蠻大。

06推理能力會向物理世界落地

張鵬:我們也看到在 AGI 領域有一些其他的變化,比如李飛飛在推空間智能,也看到在自動駕駛、機器人等具身智能方面的變化,想問問朱軍老師,在 AI 相關條線裡的一些技術進展,會對未來的產品,或者說技術最終落到產業裡有什麼明確的推動?

朱軍:大規模預訓練技術代表着一整個範式的變化。不光是從語言到多模態,再到具身智能,或者李飛飛老師的空間智能,其實重點還是怎麼讓智能體能夠有交互,能夠在交互的過程中去學習。

從智能角度來看的話,這是必然的,因爲決策交互實際上是智能裡非常核心的能力的體現,人類每時每刻都在做決策。我們面對的是一個未知的開放環境,對智能來說,它的發展路徑規劃裡,也是朝這個方向在走。

現在所有的進展,包括剛剛討論很多的 o1、視頻生成、3D,這些東西最後指向的有兩個方向:

一個是給消費者看到的數字內容,看上去很好看、很自然,能夠講故事,能夠讓大家參與講故事、能夠交互。在數字內容上,這肯定是一個很重要的方向,

另外一個方向,指向實體、指向物理世界,這一定是生產力的提升。不光給我們做一些好看的東西,或者好玩的東西,最終還要和物理世界結合。這其中可能最好的一個結合點就是和機器人結合,現在已經有了好多例子,我們也看到很好的一些進展,比如用了預訓練的範式讓機器人能力具有通用性。

我們自己實驗室做過一些例子,像四足機器人,過去讓它跑起來需要用很多的人工調參。但現在,在一個仿真環境裡面,或者用一些 AI 的方式來生成一些合成數據,讓它在裡面大規模地訓練,訓練出來的策略可以灌到機器人上,相當於換了一副大腦,可以讓它的四肢更好地協同起來,同樣一套策略可以做各種場地的適應。這還只是一個初步的例子,現在大家也在關注更復雜的控制決策,像空間智能、具身智能等。

剛纔講到智能體是 AGI 的 L3,現在到 L1、L2 的進展之後,後面肯定會提升到 L3,讓機器人更好地做推理規劃,更高效地和環境做交互,更好地完成我們的複雜任務。現在很多任務相對來說還是會進行分解,定義成一個簡化的。未來,通過它內嵌的思維鏈或者過程的學習方式,能夠完成複雜任務。到那個時候,智能的能力又有一個很巨大的提升。

07談卡傷感情,沒卡沒感情

張鵬:想問問大昕,之前你們要花很多的成本去做基礎模型,以及多模態模型,參數也要做得很大,都讓人覺得要捏把汗,因爲要花很多的錢,還會經常遇到問題。在過去 18 個月,包括這次的 o1 出來,對你的心態有什麼影響嗎?未來作爲創業公司是有了更大的創新空間,有了更讓人興奮的可能性嗎?

姜大昕:我覺得從兩個角度看,一個就是創新的點,RL 確實和前面的範式不太一樣,GPT 的範式是 predict next token,其實從 18 年 GPT-1 出來,一直到 GPT-4,除了加了 MOE 的混合專家模型以外,沒有什麼太多新的東西。但是 o1 我覺得還是一個初始階段,剛纔也談到強化學習究竟怎麼和大模型相結合,能夠做到泛化。我覺得裡面有非常多的問題值得去探索。

剛纔植麟也談到 Reward Model,包括在做搜索路徑的時候,需不需要人工干預去幫它找到更好的路徑等等,self-play 題目從哪裡來、答案怎麼找,這些都是一些新的未知的領域,要去探索。我相信在未來的一段時間裡,肯定會有很多加速,一定是這樣的一個趨勢。對於我們創業公司來說,在創新方向上肯定有很多的機會。

但是另外一方面,我認爲在推理側也好,訓練側也好,需要的算力還是不小的,尤其當我們追求通用性能夠泛化的推理模型的時候,所需要的算力並不小。其實我們內部也有調侃「談卡傷感情,沒卡沒感情」,後面又加了一句「用卡費感情」,但如果我們所要追求的目標就是 AGI 的話,付出再多也還是要堅持下去。

張鵬:過去覺得如果按照 Scaling Law 繼續往下走,玩家會變得越來越少,因爲對資源的比拼要求太高。現在,你覺得對於資源的門檻會有降低嗎?還是說繼續要拼算力上的資源?

姜大昕:我覺得分成兩種不同的創新,一種是基礎模型,就是奔着 AGI 去,就是要做通用的泛化新能力強的,這個的投入還是很大,而且我們看到國外巨頭都是一年千億美金的規劃。

但是另外一方面,我覺得做應用,還是有大量創新的空間。我們本來覺得 GPT-4 所展現出來的智能,加上智能體 Agent 的框架,已經能夠解決很多的問題了,一個是數字世界的問題,一個是物理世界的問題。那今年 o1 出來以後,強化學習又泛化到了一個更高的階段,上限變得更高了,這裡面還是有大量的機會。

08做 AI 應用,找 ChatGPT 的弱點

張鵬:那我再問問植麟,今天植麟能不能換個身份,假定你今天不是創業者,是個有技術背景,對 AI 很瞭解的投資人。你今天會看創業者的什麼數據,作爲你的投資決策?

楊植麟:首先像 DAU 這些數據,肯定是重要的指標。然後,可能分成幾個層面。

第一個層面,作爲創業者,做一個產品首先要有價值,或者滿足了用戶的真實需求,這個跟 AI 也沒有太大關係,產品本身需要滿足這些屬性,所以可能又有更多的前置指標,比如留存,這個還是最重要的。

第二個點跟 AI 更相關,不光要有價值,也要有增量的價值。相比於市面上已有的 AI 產品,或者說更通用的 AI 產品比如說 ChatGPT,能產生增量價值,產生一個在 ChatGPT 裡面做不了的事情,或者說做起來體驗很差的事情,這個就會有很大的增量價值。比如說最近很火的 Cursor 就是一個例子。

一般增量價值會來源於幾個方面:一方面,可能交互完全不一樣,或者是不同的入口,有可能背後對應了不同的資源。通過這種方式去產生增量價值,我覺得可能會是一個很重要的事情。

第三個維度,不光是有增量價值,而且它還要隨着技術的發展,市場規模應該越來越大,而不是越來越小。

如果目前的產品有一定的 PMF,但還沒有泛化到一個很主流的羣體,有可能是技術不夠強,這個時候再搭配上第二點,有增量價值的話,這個市場又越來越大,它可能就是一個好的 AI 創業的機會。

張鵬:聽起來就是,數據是要看的,但是在看數據之前先看邏輯,就是產品存在的邏輯,如果它是成立的,數據又能證明這就是一個值得投的公司。

09朱軍:18 個月,在 L4 取得進展

張鵬:在下一個 18 個月裡,期待看到什麼樣的進展?就是在 AGI 領域裡第一你覺得會很興奮,第二你覺得它是有可能的事情。

朱軍:我希望看到 L3 已經基本上實現。

AGI 的 L3,至少在智能體、世界模型的創建生成、虛實融合,在一些特定場景下的決策能力有巨大提升。其實它會利用我們今天講到的推理、感知等。

張鵬:在特定場景裡確實不是 copilot,而是 autopilot 了。

朱軍:我覺得可能在某種意義上會達到這種能力,至少在一些特定場景下。

我們前一段時間對 L4 做了專門的分析,發現如果要去做科學發現或者創新的話,需要的那些能力目前散落在各個角落裡,但是現在還沒有一個系統把這些整合在一起。

所以,如果更激進一點,我甚至覺得未來 18 月,可能在 L4 上也會有顯著的進展。這裡主要說的是嚴肅科學,L4 還有創意表達的部分,其實在某種意義上已經達到了,比如像藝術創造、圖生視頻,一定程度上幫大家去放大想象,或者是讓想象可以具象化。我對整個的發展還是比較樂觀的,至少 L3,或者 L4 有一些苗子吧。

張鵬:年底之前,你自己的事上有什麼進展,能提前透露嗎?

朱軍:今年年底的話,希望將我們的視頻模型能夠以更加高效、更可控的方式提供給大家。

解釋一下,高效和可控主要是指,去表達一個故事,不是簡單的讓一段話或者一張圖片動起來,我們希望它可以連續的去講,而且不光是人的一致性,還包括像物體等各種的主體一致性,還包括交互性。

高效,一方面是解決對算力成本的考量,因爲如果想去服務很多人,讓大家去用的話,首先成本要降下來,不然就還是燒錢、一直賠錢。另外一個更重要的還是體驗上。對使用者來說,想去表達自己的創意,需要多次和系統交互,一方面去驗證,另外是獲得啓發,這個過程也需要模型能夠比較高效,比如說終極目標是實時,讓大家能快速嘗試。

到這個階段的話,我相信用戶體驗、用戶量都會有一個巨大的提升,這是今年我們重點想去突破的。

10楊植麟:開放性的強化學習、自我進化

張鵬:3 個月的目標和 18 個月的對未來的期待都是很明確的。植麟呢,可以說說這 18 個月,也可以講講未來 3 個月會有啥進展。

楊植麟:我覺得接下來最重要的 milestone 是開放性的強化學習。比如說在產品上跟用戶交互,在一個真實的環境裡面去完成任務,然後自己進化。當然,我覺得 o1 已經一定程度上說明這個方向比之前有更強的確定性,這個會是一個重要的里程碑,可能也是 AGI 路上僅剩甚至唯一的一個重要問題了,我覺得這個會很關鍵。

張鵬:這個關鍵問題,你期待未來 18 個月有突破和進展?

楊植麟:對,應該是能看到很多進展。

張鵬:那未來三個月有什麼可以透露的嗎。

楊植麟:我們還是希望能在產品和技術上持續創新,至少在一兩個重要領域能夠做到世界最好,有新的進展會盡快跟大家分享。

11姜大昕:多模融合,通向世界模型

張鵬:大昕你怎麼看?18 個月和未來 3 個月。

姜大昕:第一,我也很期待強化學習能夠進一步泛化。

另外一個方向我也很期待,就是視覺領域的理解和生成一體化。在文字領域,GPT 已經做到了理解生成一體化,但是在視覺領域非常難。目前爲止,我們看到的視覺模型,理解和生成是分開的,即使像多模融合的 GPT-4o,其他模態都解決了,唯獨不能生成視頻,這是一個懸而未結的問題。

爲什麼很重要呢?如果我們解決了視頻理解生成一體化,就可以徹底建立一個多模的世界模型,有了一個多模的世界模型以後,可以幫助我們去生成非常長的視頻,解決 Sara 目前的技術缺陷。還有就是可以和具身智能相結合,作爲機器人的大腦去幫助智能體更好去探索物理世界,這個我也是非常期待的。

張鵬:年底之前,你這邊有什麼值得期待的進展嗎?

姜大昕:一方面期待模型或者技術的進步,另外一個是產品能夠帶給用戶更多更好的體驗。

階躍有一款產品叫做躍問,用戶可以在上面體驗到我們最新的萬億參數模型,它不光是理科很強,而且文學創作能力也很強,經常給大家帶來一些驚喜。

躍問上還有一個新的功能叫拍照問,用戶經常拍張照片去問食物的卡路里,問寵物的心情,問一個文物的前世今生等等。包括 Meta 眼鏡的發佈,還有 Apple Intelligence,都突出了視覺交互的功能,我們在躍問上也有體現,而且我們會努力一步步把這個功能做得越來越好。

*頭圖來源:2024 雲棲大會

極客一問

你用 OpenAI o1 了嗎?

使用感受如何?

扎克伯格:低估痛苦,直面挑戰,你才能學到最重要的東西。

點贊關注極客公園視頻號,