模型與「殼」的價值同時被低估?真格基金戴雨森 2025 AI 中場萬字覆盤

這是一期真格基金管理合夥人戴雨森的訪談實錄,也是2025年中,對於整個 AI 行業的一次半年度覆盤。

戴雨森從投資人的視角出發,圍繞近期的AI 熱點分享了很多有價值的看法,包括:OpenAI 的通用大語言模型首次達到了 IMO 國際數學奧林匹克金牌水準意味着什麼、ChatGPT Agent 的發佈、RL研究的進展、AI 應用和「套殼」的價值都被低估了、基礎模型未來演進的方向等等。

戴雨森認爲,2025 年,屬於各行各業的「李世石時刻」,可能纔剛剛開始。

超 10000 人的「AI 產品市集」社羣!每天推薦一款 AI 應用。

邀請從業者、開發人員和創業者,飛書掃碼加羣:

進羣后,你有機會得到:

最新、最值得關注的 AI 新品資訊;

不定期贈送熱門新品的邀請碼、會員碼;

最精準的AI產品曝光渠道

01OpenAI 拿下 IMO 金牌,又一個李世石時刻

Q:最近有哪幾件重要的事值得展開聊聊?

戴雨森:確實過去這個週末發生了很多事情。我覺得最重要的一件是 OpenAI 的一個新模型,在 IMO(國際數學奧林匹克)2025 年的題目上獲得了金牌級別的成績。具體來說是六道題做對了五道。

這個爲什麼重要呢?因爲按照 OpenAI 的描述,這是一個沒有聯網的通用大語言模型,並且沒有針對數學做特別優化,也沒有用任何 Code Interpreter 一類的工具。它完成的是 IMO 的證明題,而且 OpenAI 找了三位 IMO 的金牌得主來交叉驗證,確認這些解答是對的。

當然,這個結果也引發了一些爭議。比如有些人指出它還沒有經過官方認證,因此不一定有效。陶哲軒也說,IMO 題目的解法路徑會有很多不同,最終得分也會不一樣。

注:7 月 22 日當晚,Google DeepMind CEO Demis Hassabis 在 X 上發帖強調,這一結果已經獲得了奧賽組委會官方認定。

但不管怎樣,這個結果是一個劃時代的進展。語言模型沒有經過特別的數學優化,只在離線環境中就能解出 IMO 級別的證明題。像之前 Google 用 AlphaGeometry 是爲數學專門設計的模型,還藉助了形式化驗證方法,並不具備泛化能力。

Q:這剛好是一年前的事,2024 年 7 月 Google 的 AlphaGeometry 達到了 IMO 銀牌的水準,當時差一點到金牌。但那不是通用大語言模型,而這次OpenAI說是通用大模型。

戴雨森:對,而且今年這個時間點正好是 IMO 出題的時間,OpenAI 是題目一出就做了,所以也不存在模型訓練時提前見過這些題的情況。

雖然過去一年語言模型已經有很多進展,但像數學證明這樣的任務,尤其是 IMO 這類題,屬於 hard to verify 的問題類型。驗證一個答案是否正確本身就非常難。

這類問題一直以來都被認爲是當前語言模型難以勝任的任務。並且現實中世界上大部分真正的問題,事先都是沒有標準答案和解法的。所以當一個語言模型可以在沒有任何特別調教的前提下,解出這類高難度的題,達到人類頂尖水平時,這意味着它的思考能力確實上了一個臺階。

OpenAI 也提到,這種能力可以通過延長思考時間進一步提升,這也驗證了 inference scaling law(推理擴展定律)。

我們以前聊過,除了 pre-training,還有 post-training 和 inference scaling law。這次的結果說明:

1.LLM 的泛化能力很強,能解決我們原來認爲解決不了的問題;

2.模型能力越強,可應用的場景越多,所創造的價值也越大;

3.IMO 的證明題和現實中的某些理科的問題在形式邏輯上很相似,都是證明題。LLM 既然能做前者,也許說明它離發現新知識的能力也不遠了。

目前它肯定還不能解決像哥德爾猜想這種超難問題,但發現理科新知識這件事,可能已經是一步之遙了。

還有一個八卦:據說這次 OpenAI 使用的模型和 GPT-4o 是同一個底層模型。也就是說,取得這個成績並不是因爲底層模型有很大提升,而是在 post-training 和 inference 階段做出了優化。後續的優化空間給整個 AI 發展帶來了很多想象。

Q:你是從一些技術人員那聽來的描述是嗎?

戴雨森:對,簡單打聽了一下。這事情也就 24 小時之內發生的,但我感受非常強烈。

這讓我想到 2023 年 3 月微軟那篇論文《Sparks of AGI》,當時他們測試 GPT-4 的預發佈版本,感嘆從中看到了 AGI 的火花。那篇文章也就兩年半前,而現在我們已經走到了能解 IMO 的地步。兩年半在科技進步史中是很短的時間,甚至比很多創業公司從種子輪到產品發佈還短。

那篇文章的作者後來加入了 OpenAI,他在看到這次OpenAI 模型獲得 IMO 金牌成績後說:這是「AI 的登月時刻」。

一個「只是預測下一個詞」的語言模型,在沒有任何工具輔助的情況下,能夠完成一個只有極少數天才人類才能做出的有創造性的數學證明。這確實說明 AI 的能力已經到了一個新的高度。

我們年初錄節目《》時也說過:2024 年會是很多行業迎來「李世石時刻」的一年。所謂「李世石時刻」,就是 AI 在某個領域超越了人類最強水平。

我們已經在圍棋、編程、數學推理等領域看到這種情況不斷出現。接下來還會有更多這樣的時刻等待着我們,解決我們原本以爲還很難、很遠的問題。

Q:而且我還看到一個信息:似乎不止 OpenAI 做到了。因爲 OpenAI 發這個消息之後,一個 Google 的研究員也在 X(原 Twitter)上發帖,說 OpenAI 搶先發布了。

戴雨森:我們也在拭目以待。好像 Google DeepMind 也做到了金牌,但我們不知道是不是用通用模型實現的。如果真是通用模型,那就說明這個能力已經不只是一家掌握的。這種技術一旦擴散開來,會帶來推理能力的大幅提升,不管是哪個模型廠商都會從中受益。

注:7 月 22 日,Google DeepMind 宣佈,Gemini Deep Think 模型獲得官方認證的 IMO 金牌,並公開了具體解題過程。這一通用模型僅用純自然語言(英語)完成了解題。

Q:你和國內一些從業者交流過,他們對這個成果是感到吃驚,還是覺得其實也在預期之中?

戴雨森:我覺得方向大家早就知道,是朝着更強 reasoning 能力去的。誰都知道 reasoning 能力提升了,模型就能解更難的題。但現在就能做到確實還是讓人很震驚。我聊到一些中國最頂尖的研究者,他們也表示非常驚訝。但就像原子彈一樣:爆炸那一刻起,大家知道這件事情可以做到,就已經離做出來不遠了。

Q:從技術進展的角度看,圍棋、編程、數學是三個典型的「李世石時刻」。你怎麼看這三個的不同影響?

戴雨森:數學推理其實比編程更難。

編程屬於好驗證的問題。強化學習在編程上容易成功,一大原因是因爲它的 reward 清晰。代碼能運行、能通過 test case 就說明結果是對的。

但數學證明題的判卷是非常複雜的。IMO 就是典型的「hard to produce, hard to verify」的問題。

圍棋是一個雙方信息公開且完備、勝負明確的任務,非常適合強化學習;編程也是結構化任務,而且很多代碼是已有人寫過的,拼裝比全新創造多。

但數學是理工科的基礎,它的推理是很多學科的根基。而且不依賴自然世界實驗,只靠邏輯思維。所以 AI 能解 IMO 級別的證明題,意味着理工科很多知識生成方式可能都要改變,帶來的科學進步可能比編程還大。

Q:你覺得這個應用影響會更大?

戴雨森:有可能更大。因爲編程現在替代的是一些重複性較高的初級工作,比如 Vibe Coding 大部分還是複製粘貼一些前端代碼。但數學推理帶來的是非常強的思考和潛在的新知識發現能力。顯然,這是更值錢的部分。

AI 會不斷替代簡單任務,而人類往更有價值、更難的方向走。但現在 AI 正在追着人類解決那些最有價值的難題。

這就是爲什麼我說這次 IMO 金牌事件讓我更清晰地看到了 AGI 即將到來的信號。如果以前是遠處看到一輛冒煙的火車,現在已經能聽到它的轟鳴聲了。

Q:有人在 X(原 Twitter)上說強化學習現在也能處理那些獎勵反饋不是很直接的領域。這可能是這次進展背後更大的突破之一。還有人提到「驗證的非對稱性」,說有些任務你做出來的時間可能比驗證時間還短。IMO 數學題就屬於這種類型。

戴雨森:對,以前很多任務是「hard to produce, easy to verify」,比如寫代碼。但現在變成了「hard to produce, hard to verify」。

Q:不過有人認爲,在這些驗證成本高的任務上,AI還很難完全替代人,因爲最終還得靠人來判斷。

戴雨森:有可能。但光是給出證明這一點,其實就已經是質的飛躍。現在我們還不知道所有細節,但我們期待更多公開信息,或其他模型公司復刻類似成果。按照目前 AI 的發展速度,只要一件事被做到,那它就已經不是遙不可及的難題了。

02ChatGPT Agent 發佈,「殼」的價值在於 context

Q:7 月 18 日凌晨,OpenAI 發佈了 ChatGPT Agent。不過和 Manus 不同,這個 Agent 讓很多人其實覺得有點失望,沒有那麼驚豔。

戴雨森:我覺得這反映了 OpenAI 作爲 AI 的領頭羊、最大的 AI 應用公司,他們也把 Agent 作爲重要的方向。就像我們年初就開始討論的:理解目標、拆解規劃、編程使用工具、對結果進行復盤和反思。從一開始的構想,到 Devin、Manus 等第一波產品的出現,再到 ChatGPT Agent 的發佈,Agent 確實逐漸成爲了AI 應用的共識,變成了大家聚焦的方向。

Q:有人說「OpenAI 發了一個 Manus」,你怎麼看?

戴雨森:我們不會這麼想。我覺得不能低估 OpenAI。他們有最多的人、最多的卡、最多的用戶,在安全性上也做了很多考量,加了很多額外約束。其實 ChatGPT Agent 的能力是被限制得很死的,這是負責任的表現。

這個產品也是他們第一個在 AI 安全性評估中被列爲「高危險級別」的,說明他們確實擔心這類 Agent 會遇到比如釣魚網站、或者生物武器信息等風險(詳見 OpenAI 發佈的 ChatGPT agent System Card)。當公司變大,就會變得更謹慎;這也反過來說明了創業公司的行動力快、敢於突破的機會所在。

Q:我覺得「發了個 Manus」的說法也不一定是說效果不好,更多是說產品形態。它其實把 Operator 和 Deep Research 結合起來了,形態上有點像 Manus 或 Genspark。

戴雨森:是的,Manus 確實探索出了一個方向:讓 AI 在做什麼可以被直觀看到,讓人理解背景,否則如果只看到最後的結果,會很困擾。所以我們看到 Manus、Genspark、Kimi,還有 MiniMax 等中國團隊也在針對 OpenAI 的 Task,用自己已經發布的線上 Agent 做對比。不得不說,這些公司的產品在很多維度上的表現,比如做 PPT 的任務,確實比 ChatGPT Agent 要好。

Q:ChatGPT Agent 做出來的 PPT 真的有點醜。

戴雨森:但這讓我有幾個啓發:

第一,中國團隊在產品力上確實不錯。移動互聯網時代就有很多例子,比如 TikTok、Shein、剪映,中國團隊確實做出了很多好產品。

第二,所謂的「套殼」產品,也就是調用 API 的應用,並不會就一定被 model native 產品吊打。之前大家以爲 OpenAI 下場,訓練的模型能端到端處理,就能完全替代第三方。但其實不然,尤其 Agent 需要更多 context 和工具,很多都依賴殼和應用本身提供的環境。

Manus 分享的那篇關於 Context Engineering 的文章《》就收到很多好評。因爲這就是一個大家現在都在解決的問題,裡面有很多實踐是需要時間和經驗的。

我理解,Context Engineering 最早是來自於 Prompt Engineering。Prompt Engineering 就是給 AI 一個命令、一個任務,然後 AI 自己去做事。這很像傳統管理方式:老闆佈置任務,員工去執行。而像 Netflix、字節等先進公司強調的「Context, not control」,意味着要給員工更多上下文和授權,才能更好完成任務。Context Engineering 也是類似的道理:我們要給模型提供的是能夠幫助它更好完成任務的上下文。

第一個層面,就是單個 session,看我們怎麼提供更好的上下文、更好的數據、以更適合模型操作的格式去處理它。

第二個層面,是多 session 或跨 session 的個性化記憶:比如說今天做了什麼,明天再做對應的事,用戶的偏好、習慣、工作經驗,能不能累積?這個長期可能成爲護城河。因爲同樣的模型,誰有更好的上下文,它就更懂我。

第三個層面,是產品設計本身可以提供模型原本獲取不到的上下文。比如大家設想的一個還沒做出來的產品:戴個眼鏡可以實時看到周圍世界。這樣的 context 是模型自己無法產生的,必須通過好的硬件與軟件設計來實現,也說明了產品層的價值。

Q:你說的眼鏡能看到的數據,是現在所有互聯網巨頭都沒有的。

戴雨森:對。所以從 ChatGPT Agent 的發佈,我覺得可以看到三點:

第一,Agent 方向逐漸達成共識;

第二,創業公司在模型核心巨頭面前,依然有靈活性、先發優勢和競爭力;

第三,進一步印證了我們之前說的兩個被低估:模型進步速度被低估了,產品「殼」的價值也被低估了。

模型這條線,OpenAI 這周剛拿下了 IMO 金牌,說明它的進步速度還是很快。而 OpenAI 自己做的 ChatGPT Agent 還有很大提升空間,說明「殼」的價值也非常重要。所以我覺得模型和應用都被低估了。

Q:你剛說的 context 的價值特別好。它其實和管理學也打通了,比如 Netflix 的那本書《No Rules Rules》最開始就講了這個邏輯。AI確實很像一個人,你要教它、要給上下文,比起給它具體指令,這可能是更好的方式。

戴雨森:第一階段大家都在寫更好的 prompt,就像老闆寫 brief。後來發現要加更多示例、更好的上下文、更適合模型工作的環境。這其中有很多具體技巧。Manus 的文章就分享了很多。我想說的是,更多的 context 帶來模型能力的提升,也反映出我們對 AI 的使用越來越深入,產品本身也越來越完善。以前一句 prompt 就能跑,現在產品本身要承擔更多事情,產品公司的價值也在這裡體現。

Q:你覺得這一層的應用價值,什麼時候會被模型本身做掉?是不是等到模型具備在線學習能力、能不斷吸收新的上下文的時候?

戴雨森:也得看你的產品有沒有用戶 input。如果沒有用戶輸入,那模型再怎麼學習也沒法學到用戶自己獨特的東西。

Q:所以是不是又回到一個曾經被否認的邏輯?以前移動互聯網時代,用戶越多,數據反饋越多,推薦越準,有一個數據飛輪。但後來大家覺得大模型裡用戶輸入對模型智能提升沒啥幫助。但你剛剛的意思是:用戶輸入對上下文是有幫助的。

戴雨森:這是兩個不同的問題。大家說的數據飛輪失效,指的是用戶的聊天記錄不能提升模型智能。這我同意。因爲現在模型的智能已經超過普通人。你跟它聊些日常話題,沒法提升它的能力。

最開始模型通過 RLHF(人類反饋強化學習) 來學習人類偏好,現在來看普通人反饋意義不大。比如 AI 都能解 IMO 的題了,爲什麼還要在意普通人覺得哪個答案更好?所以對於有標準答案的任務,用戶輸入越來越沒什麼價值。

但如果是完成一個具體工作,比如 Agent 在完成人類工作時怎麼更好達成目標,這時用戶的輸入和喜好當然有用。

Q:所以用戶數據其實對產品體驗是有幫助的,但不一定能直接提升模型能力?

戴雨森:是的,尤其是在智能能力或者那種有標準答案的任務上。最開始大模型可以看作是對大量人類平均智能的一種壓縮。當時特德·姜(Ted Chiang)不是就說過,語言模型本質上是對互聯網的模糊壓縮嗎?但現在,它顯然已經超越了普通人的水平,達到了某種超人水平。在這個階段,簡單的數據可能就沒那麼有用了。

Q:現在這個時間點,是越早做 Agent 越好嗎?因爲你積累的用戶上下文越多,價值也越大。之前大家可能擔心新的強模型會把已有產品淹沒掉。

戴雨森:如果你沒有上下文、沒有環境,最後只是調模型,那確實可能被新模型取代。

03AI 應用普及:最重要的、被高估的、被低估的

Q:上次我們聊是二月份,轉眼到現在差不多五個月了。今年已經過去一半,回頭看,你覺得 2025 年上半年AI領域發生的幾件最重要的事是什麼?

戴雨森:整體來說,AI 已經從一個偏研究性質、看起來很新穎但實用性有限的技術,進入到了主流市場。上半年我認爲有幾個重大進展。

第一,是AI在編程領域的突破。Coding 已經成爲 AI 應用的重中之重。我今天還聽說 OpenAI 現在已經有三個業務線:GPT、API 和 Coding。用戶也發現 AI coding 產品非常有用,也願意爲此付費。Cursor 等 AI 編程工具的成長速度就是一個代表。Claude Code 也有人稱是 L3 或 Agent 級別的產品,能比人類寫得更快更好,代碼更優雅,還能處理更大的代碼庫。所以 AI 在編程領域已經正式跨越鴻溝,進入了主流市場。

第二,是 o3 在四月的正式發佈,伴隨着ChatGPT用戶的高速增長,這是推理模型的持續演進。從去年下半年開始我們就看到 OpenAI 推出 o1、R1,到今年的 o3,它標誌着推理問答、題解這些能力從科研層面進入到了普通用戶可以使用的產品,是真正的落地了。

ChatGPT 的用戶增長還在持續,這一波也受益於 o3 推理能力的提升。我們也看到年初中國這邊的突破,比如 R1 是國內在 reasoning 上邁出的重要一步,Kimi Researcher 也是第一個廣泛可用的 deep research 類產品,用戶反饋很好。AI 在這個領域已經比絕大多數人做得更好了,也是跨越鴻溝。

第三,是 Agent 應用開始普及。比如 Devin 是第一個讓人看到 L3 Agent prototype 的產品。Manus 和 Genspark 都是在三月發佈,Claude Code 也在不斷完善。我們看到隨着模型在推理、編程、工具使用這三大能力的增強,出現了第一批具備完整 Agent 形態的產品:它們能接收模糊目標,自主調用工具,尋找解決方案,評估任務進度,並最終完成任務。雖然它們還不算主流,但已經進入 Early Adopter 階段,部分場景下用戶非常願意用。儘管還有不少問題,但 Agent 已經變得有用了,這是上半年 AI 應用領域最重要的進展之一。

第四,是多模態能力的快速進步,尤其是圖像生成。從早期像玩具一樣的工具,變成了實實在在的生產力工具。比如 ChatGPT 的圖像生成對語義的跟隨非常好,能準確理解用戶意圖。現在很多人用 AI 來畫漫畫、畫流程圖、做視覺內容。這種生成能力的提升已經變得非常實用。

Q:它也能支持 Agent 做出更豐富的輸出,對吧?

戴雨森:對,因爲它的指令跟隨能力越來越強,能更好滿足用戶需求。原來是像抽卡那樣的不確定性,現在已經越來越好了。直播頭像好多都變成了 AI 生成的。

Veo3 也是一個很厲害的模型。它加入語音配音後,我發了個朋友圈感嘆,它生成的世界已經接近真相難辨的虛擬世界了。Veo3 第一次讓我有一種跨越恐怖谷的感覺,真假難辨。

第五,是搶人大戰。無論是 Meta 的大規模挖人,還是創業公司瘋狂融資,再到 Windsurf 最近收購的 drama,都說明硅谷對人才的爭奪和資本競爭進入了一個新的階段。我們在國內也感受到類似熱度:融資額上升、項目搶手、一個月融資幾輪的情況又出現了。這背後是因爲大家真的看到了AI正在落地,不再只是概念,很多已經實實在在地產生收入了。

Q:你關注的主線還是圍繞AI的應用普及,技術的變化是原動力,對嗎?

戴雨森:我們認爲模型基礎能力的提升是解鎖應用場景的關鍵。模型能力配合好的產品設計,才能真正釋放價值。一個真正有價值的 AI 應用,一定能通過某種方式讓用戶付費,比如訂閱或按工作交付。所以我們特別關注 AI 在提升生產力方面的價值,尤其是在數字世界裡的應用。可以看到我們投的很多是 AI Agent 或者 AI 生產力方向的項目,因爲這是當下最能真正幫用戶解決問題的場景。

Q:除了你說的應用這條主線,其實AI硬件也很熱,比如機器人,具身智能其實也在 AI 產業鏈上。

戴雨森:是的,但我認爲上半年有一個被高估的方向,就是人形機器人。特斯拉最近下調了對 Optimus 的生產預期,我覺得很有代表性。

去年我就說過,大家對 Optimus 進工廠打螺絲的期待值太高了。當時有人說 2025 年特斯拉就能有一萬個機器人進廠幹活,這完全低估了 manipulation(操作控制)的難度。現在我們看到的一些 demo 確實越來越好,比如疊衣服,但真的要機器人做出一杯咖啡,還是非常難的。

當然,我認爲這個領域還在快速發展,在未來幾年可能會看到 manipulation 的「ChatGPT 時刻」突破,但如果期待 2025 年就能大規模落地,我覺得是大大高估了。

技術的發展不能拔苗助長,必須經歷:方向確定、逐漸放大、形成產品、再到大規模落地,這幾個階段,沒法跳過。機器人目前顯然還處在早期探索階段。

Q:另一方面,你覺得這半年有沒有一些被低估的事情、公司或者現象?

戴雨森:我覺得首先,應用的價值還是在被低估的。一年前,大家還在講模型公司會顛覆應用公司,說「應用只是套殼」,這個業務模式不成立。當時不管是 Manus、Genspark,還是很多其他公司,都經歷了不少質疑,說:「你是一個殼公司,有沒有長期價值?是不是模型一升級你就完了?」

現在這個爭論雖然還在繼續,但顯然不是模型升級了應用公司就會完蛋。相反,好的應用公司是期待模型升級的,這樣可以讓用戶享受更強大的體驗。「殼」的價值仍被低估了。

第二,優秀團隊的價值也在被低估。不管是 Kimi、Manus,還是 Genspark,我們歸根結底是投人。

大家之前可能不會料到,肖弘能做出一個世界級的 AI 應用。而幾天前發佈的 Kimi K2,在 7 月 15 日這個時間點,可以說是全球最強的開源大模型,沒有之一。它在 coding、Agent 工作流和中文寫作等方面的表現,確實優於 Claude。當然,Claude 是在年初發布的,但在 AI 這個領域,六個月就相當於很久了。

OpenRouter 上的調用數據顯示,K2 剛上線沒幾天,昨天還在編程類目裡排第 13,今天就升到了第 10,前面是 Claude、Gemini、GPT。這種上升速度是非常快的,說明用戶反饋非常好,但現在大家其實已經對 benchmark 麻木了。我們更看重實際用戶的使用反饋。

比如 Perplexity 的創始人就在推特上說,他們團隊已經開始調研在 Perplexity 上引入 K2,也明確表示:Kimi 做得非常好。

Kimi 是最典型的例子,但不是唯一的。我們也討論過 DeepSeek 後他們團隊的轉型問題,Kimi 背後的 Moonshot 也經歷了很多覆盤,並集中精力攻堅下一代模型。我覺得外界太容易在很早期就下結論,比如說 DeepSeek 出來的六小龍公司是不是都不行了。但實際上,如果一個團隊足夠穩定,有優秀人才、有資源、有意志,那他們的主觀能動性和突破空間遠遠被低估了。

第三,我覺得模型能力進化的速度也被低估了。比如現在已經有傳言說 GPT-5 很快就要發,它可能是一個原生多模態、推理能力非常強、具備高級 Agent 能力的模型。

現在新產品發佈的時候往往會被噴,說畫了大餅但實際上產品體驗沒有那麼好。但好的應用公司需要爲 6 到 12 個月後的模型設計。比如 Cursor 一開始發佈的時候,當時的模型還無法實現它的完整願景,直到 Claude 3.5 Sonnet 出來,Cursor 才真正成爲一個好用的產品。

Manus 在設計時能用的最好模型是 Sonnet 3.5,發佈時 Sonnet 3.7 剛上線,Manus 因此能夠完成一些更復雜的任務,之後Claude 4,Gemini 2.5 Pro 等新模型的發佈也進一步提升了 Manus 的表現。也許再需要 1-2 個模型的大版本迭代,才能夠充分讓主流用戶感受到 Agent 帶來的生產力提升。

所以我們認爲,未來模型的能力提升仍然非常快,也許很快就會有讓大家震驚的發佈出現。那時,模型增長和應用價值可能都將超出市場預期,整個 AI 發展節奏也會再度加快。

Q:這半年還有一個我之前沒有想到的新變化,就是最近非常激烈的外賣大戰。因爲外賣大戰這件事情牽扯了好幾個巨頭的精力和資源,包括阿里、美團和京東。你覺得這個會怎麼影響中國的AI的格局,或者說對創業公司來說,它可能會有什麼影響?

戴雨森:現在看其實還是兩個戰場。從長期看,可能會對資源投入產生一些影響。

但我看阿里雲的增速預期還是挺高的。今天 Jensen 還宣佈可以重新向中國銷售 H100。我們看到,今年美國的 IDC 和雲服務增長得非常快,因爲應用落地之後推理的用量會大幅增長。

我認爲中國市場的發展路徑也會是類似的。當 Kimi、字節、DeepSeek 等公司推出更好的模型後,更多場景被解鎖,推理的算力需求也會很快爆發。知識工作者在中美其實都很像,大家都用 Office、都要搜索、都用 deep research 工具,在美國市場已經驗證的這些需求場景在中國遲早也會爆發。

當然這跟外賣大戰沒什麼直接關係。但比如說阿里雲、火山雲這些中國雲服務商,可能也會經歷一次美國那樣的增長過程。

04從 DeepSeek 出發,不同公司各有演進之路

Q:我們接下來圍繞一些具體的方向聊聊,你覺得爲什麼 DeepSeek 還沒發佈 R2?

戴雨森:這個現在還是挺神秘的,我們也只能通過一些外圍信息去了解。我聽說現在 V4 還在訓練階段。因爲他們當時是先發了一個 V3,然後再發 R1,那現在 V4 都還沒補發,聽說還在訓練中,那 R2 的發佈時間可能就要等到 V4 之後了。但我相信 DeepSeek 肯定在做很多有意思的創新。我們也和裡面的一些同學聊過,知道他們的創新能力是非常強的。不過我覺得他們也確實會受到算力資源的限制。畢竟卡的總量是有限的,而且他們發佈模型之後,還有大量的算力要用來做推理(inference)。

Q:對,我覺得他們現在可能也在思考模型或者智能未來的演進方向,基本上還是不做多模態。

戴雨森:對,這其實反映了一個很現實的情況:DeepSeek 的資源沒有多到可以在所有領域對標 SOTA。所以就像 Claude 背後的 Anthropic 一樣,他們要做一些判斷:哪些方向在當前階段最重要、最能出結果,然後集中資源突破;而對於一些尚不明朗的方向,他們可以等等,等到思路更清晰之後,再利用自己的工程能力和團隊的努力趕上。

而字節 Seed 現在可能是在試圖做到全面領先:他們有 Edge 組去做最前沿的研究,有 Focus 組去衝擊 SOTA,還有 Base 組去做服務產品應用。這種是全棧型的佈局。

相比之下,DeepSeek 更有選擇性,比如重點突破模型智能。當資源不那麼充足時,確實需要做一些取捨。像 Seed 這樣的組織結構,把 Edge、Focus、Base 三個方向明確分開,我覺得是更明確的。

Q:對,他們現在就是這種比較明確的分工結構。Edge 一開始列了五個方向,現在可能已經擴展到了十幾個項目,確實挺厲害的。

戴雨森:我覺得把應用和研究分開,再把研究中的 SOTA 和 Frontier 部分繼續細分,是比較對的做法。之前大家可能就是分成 Frontier 和 Applied Research,但那時候資源不夠,組織的職責也不夠明確。普遍的問題是:如果你讓一個模型團隊既要做前沿研究追趕 SOTA,甚至超越 SOTA,同時又要滿足 App 的落地需求,這兩個目標是很容易衝突的。

Kimi 在過去半年其實也總結了很多這方面的經驗。如果有個大用戶量的應用在線上,需要花大量精力去維護,處理各種 corner case,修 bug。但這些工作其實對推動下一代模型、挑戰 SOTA 的幫助是有限的。今年就沒有投入太多精力在 K1 的迭代和應用功能上,而是專注於做下一代模型,來拓展模型智能的邊界。

Q:這也是我們以前反覆會問大模型創業公司創始人的一個問題:你一邊做模型,一邊做產品,中間的精力怎麼分配?

戴雨森:目前來看,我覺得還是要先把一個方向做到極致。比如你如果是做應用的,那就假設自己能用上最好的模型,誰最強、最合適就用誰。但如果你是做模型的,那目標就是讓自己的模型保持在 SOTA 水準,在某個具體領域做到最強。

05投人的價值,K2 如何逆風翻盤

Q:我想聊一下 Kimi K2。今年年初 DeepSeek 引發熱潮後,Kimi 內部也有了一個比較明確的目標,就是要追求 SOTA。在這個目標下,K2 應該是他們做出方向調整後第一個比較重磅的成果。你對這個過程是怎麼理解的?

戴雨森:我想先講個小故事。前幾天,暗涌在良渚組織了一個圓桌,把投資了 Kimi 和 MiniMax 的投資人都請到一塊。我還開玩笑說,這像是一個「同情局」,彷彿我們投了大模型公司,很慘該被同情。但我覺得,其實真正體現一個團隊能力的,是他們面對挑戰時的應對方式,以及是否堅持自己的路線去做有價值的創新。

順風的時候有順風的打法,逆風的時候也有逆風的打法。像 MiniMax,他們專注自己的方向,現在也在推進上市流程。這就是他們面對挑戰的方式。當然,也有一些公司在逆風中內部團隊發生較大變化,甚至業務方向都有調整。但我覺得 Kimi 特別的一點,是他們的團隊非常穩定。如果你看他們的創始團隊或核心成員,幾乎沒有大的變動。

Q:這其實就是我第一個好奇的點。現在很多公司到了聯合創始人或核心業務負責人層面,都會有一些變化,但 Kimi 基本沒怎麼變。

戴雨森:這可能跟他們的團隊組成有關。Kimi 的創始團隊一直是以植麟爲核心,而且成員是清華的老同學,之間合作很多,甚至是室友還一起玩過樂隊。並不是因爲要做大模型公司才臨時組起來的。

Q:我查閱資料時發現,當年楊植麟去評特獎的時候,有一張照片是他們系的一些同學舉着橫幅去支持他。幾位他們系的師弟師妹都會說,楊植麟在當時就是一個讓大家覺得非常有號召力的人。

戴雨森:沒錯,這也是我們從一開始就決定投資他們的重要原因之一。這個團隊不僅有技術,而是有很長的共同信任。創業會經歷很多挑戰,如同壓力測試,在面對挑戰的時候,團隊穩定和方向聚焦會很重要。

Kimi 這個團隊從一開始就是以技術基因和技術視野作爲核心能力的。很多人可能已經忘了,在 2023 年的時候,AI 的變化太快,幾乎每個月都有新風向。當時,Kimi 就對長文本這個方向做出了很重要的判斷,選擇做了一個具備長文本能力的模型,並基於這個推出了帶搜索能力的 Kimi 第一個版本。

那時大量的 AI chatbot 其實是沒有搜索功能的。沒有搜索,模型的用途就會受到很大限制,比如你隨便問一個「現在的美國總統是誰」,它都可能答不上來。

Kimi 團隊當時對長文本技術方向的判斷就展現了他們非常強的技術 vision。到了 2025 年,AI 更強調 Agent 能力、複雜任務執行、以及處理更大的代碼庫,大家才真正意識到長文本的重要性。如果你真的要讓 AI 做一個 Agent,完成一個複雜任務,它不能只是執行 100 步就歇了。回頭看,其實這也驗證了植麟判斷上的準確。

所以我覺得他們團隊身上,有三個特別重要的品質:

第一是團隊的穩定性。這來自於成員之間長期的淵源和信任。

第二是對技術方向的堅持。他們不是看到哪個火就往哪兒跟風,比如陪伴火了去做陪伴,多模態火了又去做多模態。很多方向都可以做,但真正有積累的是那些持續做一件事的團隊。

第三是他們一直保持的技術敏感度和洞察力。這個在技術變化的關鍵節點上尤其重要。

當然 R1 的成功也確實給了行業很多啓發,這一點毫無疑問。當時很多人看到 R1,有個流行說法是:「pre-training 不重要,post-training 才重要。」但我認爲 R1 的基礎是 V3,這恰好說明好的基礎模型很重要,pre-training 和整體架構優化可以帶來模型能力的提升。K2 現在還是個 non-reasoning 的模型,已經呈現出很好的能力,這也說明 pre-training 依然很重要。

開源也很重要。現在全球 AI 社區正處於 Early Adopter(早期採用者)階段,通過開源優秀的模型和產品給社區提供價值的團隊,很容易得到熱心的迴應。我們在 DeepSeek、K2,以及我們 sponsor 的 vLLM、ControlNET 等開源項目中看到,只要不斷拿出好的產品,保持對用戶開放交流的態度,世界各地的用戶都會欣賞、支持你,甚至主動幫你改進問題。但只開源不是本質,本質是開源好的東西,不是開源就一定好,社區覺得好纔是核心。

Q:說到開源,因爲 K2 是 1 萬億參數,開源社區裡能真正部署的人很少。

戴雨森:K2 主要的場景不是在本地機器部署,事實上要在本地滿血跑 Deepseek R1 也不簡單。開源的核心不在於本地部署,而是讓大家對模型有更多自主把控。

Q:你能總結下他們爲什麼能做出 K2 這種級別模型?現實過程中遇到了哪些挑戰?外部輿論把他們放在低谷,是否帶來很大壓力,比如人才流失?我指的不光是核心層,還有一線工程師。

戴雨森:這裡肯定有人流失,但 Kimi 有兩點優勢:第一,核心層很穩定;第二,很多年輕同事願意留在 Kimi。

我覺得大家留下不只是因爲錢,更因爲能學到東西,能幹成自己覺得厲害的事。這符合 Kimi 核心團隊的基因。

之前做投放時討論過,他們做投放不是強項,要做團隊能力最強的方向。我覺得這很重要。面對外部市場壓力,首先不要亂,要聚焦自己最擅長、最能做好、最有意義的事情。知乎上也有好幾位 Kimi 的研究員寫了參與 K2 的很多感想。

06技術變化:推理、編程、工具使用

Q:在技術領域,你會比較關注哪些變化?

戴雨森:我們之前聊到過,我認爲解鎖AI生產力的三大主線是 reasoning、coding 和 tool use。

在 reasoning 方面,我們看到了 o3、o4 mini 的發佈,還有後來的 o3 pro。雖然這些模型在一些榜單上表現進展不大,但我們自己的使用體驗是,o3 相比 o1 是一個明顯的大臺階,o3 pro 在推理長度和邏輯連貫性上也越來越好。現在很多模型在 reasoning 的細節上都有進步,比如細節的幻覺減少,推理結果更嚴謹。

同時我們還看到,一些小一點的模型也開始具備很強的 reasoning 能力。像 GPQA 或 AIME 這些反應模型 reasoning 能力的指標都非常高。K2 在這方面也表現不錯。

Q:我們之前和一些人交流,比如阿里雲CTO周靖人,他並不覺得像 o 系列的更新是特別大的範式變化。他認爲這還是在大模型原有方法框架內的自然延展。

戴雨森:這個我同意。如果這些模型還是 Transformer 架構,那它們就還是在現有範式內演進。大家現在都在期待下一個 Transformer 是什麼。

不過有時候,一個技術範式就可以走得很遠。就像高速公路可以用幾十年,不一定非要每年都有顛覆式的架構變化才叫創新,實際上,如果每年都有顛覆式的技術發生,那說明這個行業還很不穩定,反而不一定適合產業落地。今年我們在產業上真正能用到的技術,並不是從 0 到 1 的變化,更像是從 1 到 10,甚至從 5 到 8 的進化。像 reasoning 的進步,就是從很好變成非常好。

在 coding 上,Sonnet 3.5 已經很不錯了,但 context 長度還不夠,自我糾錯能力也一般。Sonnet 3.7 和 4 跑在 Claude Code 上效果非常好。對複雜代碼、長代碼段,它們常常一步就能做對。這不是從 0 到 1,而是從 7 到 10 的質量提升。

Q:在基礎模型的競爭上,Google 最近的勢頭也很強。過去兩年OpenAI橫空出世時,Google 給人感覺有點被打懵。但現在 Gemini 2.5 的口碑和實際使用反饋都很好。

戴雨森:確實,Google 技術積累深厚,人才密度高,又非常有錢,算力也很充沛。所以我們今年明顯感覺到 Google 的邊際變化是很大的。

模型層面,Google 的 Gemini 2.5 表現非常好。雲服務層面,提供同樣的 Claude API 推理服務上,GCP 的表現其實更好,這背後也離不開 TPU 的支持。Google 的實力很強,是現在模型領域前三名中非常有競爭力的一家。

但他們現在也有一個現實問題,就是 Google 的搜索主業正在承壓。因爲擔心 AI 對搜索廣告帶來衝擊,所以它的股價一直在震盪。我覺得這就是一個典型例子:老業務在受損,而新業務增長又很快。這最終會怎麼演化,我覺得可能還需要一兩年才能看清。

07應用的生長,讓 AI 不止於問答

Q:這也回到了你之前提到的一個主題:模型和上層應用之間的關係,現在這個關係還在演變。

戴雨森:應用的價值首先取決於模型本身,也就是模型廠商固化在權重裡的那些基礎能力。模型的推理能力、編程能力越強,應用所能釋放的價值就越大。但權重一旦固定,內容就是死的,而問題是動態的,所以需要引入 context,現在流行的 Context Engineering vs Prompt Engineering 也說明了 prompt 模型並不夠,還需要更多更好的 context。

我認爲 context 可以分爲三層:

第一層是通用信息,比如「今天的天氣怎麼樣?」這類模型本身是沒有的,需要通過搜索等方式動態獲取。雖然現在也有模型能做簡單的搜索工作,但這需要給模型配備合適的工具。

第二層是組織層面,比如公司內部有哪些流程、文檔、已有的知識積累。這些信息模型本身也不知道,需要通過應用層與模型協作,讓模型指導人去調用這些信息。比如一個人和 AI 的對話歷史、個人偏好、背景信息等,這些模型也不具備,必須由應用層來提供。

所以 context 這一層是由應用來提供的,它的質量會對 AI 應用的表現帶來巨大差別。

AI 的目標不只是成爲一個問答機器,最終它是要真正幫用戶完成事情。那在做事情的時候,它能調用哪些工具、影響什麼結果,這些也是由應用層公司提供的。比如產品提供了哪些公有或私有的 MCP 工具,或者最終 AI 能把它的輸出結果部署在什麼環境上。

模型其實只是最底層的那一塊。但因爲 ChatGPT 剛出來的時候,我們的大多數使用場景都是在「問」模型,所以只能提取它通過壓縮已有知識所獲得的回答。比如問一個事實類的問題,這種情況下確實主要靠模型本身。但當任務更復雜、模型的智力需要與 context、甚至 environment 配合才能發揮作用時,那就是「殼」的價值了。

Q:所以你覺得這是一個很自然的演化路徑?也沒必要非得強化「我們就是做模型」這件事?

戴雨森:對,模型肯定很重要,但只靠模型本身可能不足以真正釋放出全部的價值。

Q:一年前大家怎麼看 Google?一個失意者?

戴雨森:大家那時候肯定覺得 Google 有點落後,被 OpenAI 搶了風頭,很多人才也選擇出走。但後來 Google 的聯合創始人 Sergey Brin 迴歸公司之後,很多事情發生了變化。比如有傳聞說 Google 收購的 Character.ai 創始人 Noam Shazeer 回去後親自改了一個 bug,直接讓模型性能大幅提升。真假不確定,但關鍵人才確實能解決問題。

Q:所以 Google 能快速追趕,可能不僅是技術,也有組織方式、投入強度的變化?

戴雨森:對,他們對這件事是非常重視。我聽說 Gemini 團隊加班也很厲害,原本大家覺得 Google 是養老公司,但現在他們也很拼。

Q:模型競爭其實激活了很多聰明人,追求的成就感也回來了。

戴雨森:我覺得是的。這幾家公司的創始人都非常重視 AI,現在已經不是「AI 會不會落地」的問題了,而是必須贏。

不管是 Zuckerberg、Sergey Brin,還是 OpenAI 和 Anthropic 的團隊,他們都看到 AGI 已經迫在眉睫,意識到這件事的重要性,願意花錢、願意投入資源。

最近 Y Combinator 的創業營也提到,現在做任何公司,都應該以「AGI 兩年內實現」爲前提假設。你要思考:假設 AGI 兩年內實現,那你的公司該怎麼做?

當然 AGI 到底是什麼還有很多爭議,但毫無疑問巨大的變化正在發生,而且是快速發生。現在硅谷學計算機的學生找工作都變難了,因爲初級程序員的工作已經被 AI 替代了很多,很多變化是實實在在發生的。

Q:我們回到你說的三條主線。我們講了推理和編程,現在講工具使用。最近像 Kimi K2 和 Grok 都在訓練階段就加入了使用工具的能力。這是新趨勢嗎?

戴雨森:現在 AI 使用工具主要有兩條路線:

1. 像 MCP 這樣,走 API 接口方式;

2.通過視覺模擬 AI 操作已有軟件。

這兩種方式都有人在做,現在像 MCP 這樣的生態已經建立起來了,越來越多爲 AI 搭建的工具變得可用。又比如 Manus 和 OpenAI 的 Operator 用的是沙盒虛擬機裡面的瀏覽器、通過視覺操作瀏覽器等已有的軟件,模擬人類的使用過程,目的是讓 AI 更好地調用已有軟件的功能。

能夠使用人類的工具完成任務,我覺得這是讓AI真正變有用非常重要的一件事。

08Agent 讓每個人學會當好老闆

Q:其實在 OpenAI 最開始規劃的五個階段裡面,第三個階段就是推理之後的 Agent。

戴雨森:對,之前張祥雨有個播客講得特別好,我很認同他的分析。第一個階段是 chatbot,對應 ChatGPT;第二個階段是 reasoning,對應 o 系列模型;第三階段的 Agent 對應的是 Agent-native 模型,但目前好像還沒有真正出現。

在 Agent 的定義中,目標是AI自己去尋找的,但目前目標仍由人給定。Agent 是說,我給你一個目標後,它去預測使用工具的序列,選擇什麼工具完成任務。它可能還沒做到像給員工完成任務那樣,自己拆分任務和定義目標。

現在 AI Agent 這一類產品還處於非常早期階段。比如 Manus 纔剛推出幾個月,但我覺得一年甚至半年後,隨着模型能力提升,這類產品的能力會大幅增強。

我想說的是,不同公司因爲資源稟賦不同,解決 Agent 這個問題的方式也會有差異。我們儘量不做預判,不認爲我們能夠預先知曉未來。比如 Kimi 的看法是 Model as Agent,通過模型訓練中加入大量端到端的工具使用數據,讓模型本身具備強大的工具調用能力。而同樣是調用閉源模型 API 的產品。Manus 提出了「less structure, more intelligence」,但有時結構化也能提升工作效率。Genspark 就專門做了針對 PPT 場景的 slide 生成功能,引入了一系列優化工作效果的方法。

Q:這兩種角度都對。對用戶來說,有些場景有大致流程,結果更可控,成本也會更低。

戴雨森:因爲用戶要的是最後的結果,而不同的公司想實現這個結果,可能有各種不同的路徑。有的靈活但成本高,有的固定但成本低。所以大家解同一道題,用不同方法都合理。

Q:你說的最大趨勢無疑還是 Agent?

戴雨森:是 AI 對生產力的提升,想讓 AI 把生產力真的提高,就得讓 AI 承擔更多工作。像 Claude Code、Manus 等 Agent 產品,核心理念是人不做事,AI 做事。

有人說這是類似自動駕駛 L3級別的產品,人不動方向盤,車自動駕駛。我們發現寫代碼的工程師一開始喜歡 Cursor,因爲它還是讓你在熟悉的 IDE 裡面寫代碼,但Manus 發現產品經理用 Cursor 去完成任務不怎麼看代碼,只是看右邊的對話框,所以他們把對話框放到主要的位置,做出了一個更加適合非程序員人羣使用的 Agent。

隨着模型能力的進步,Claude Code 更極致,用戶不能寫代碼,只能告訴 AI 你要做什麼,其他的 AI 去完成。所以 L3 或 Agent 意味着 AI 去作爲執行主角,而用戶要學會當 AI 的好老闆。

Q:這對很多人來說挺難,是門檻。AI做事不滿意,你讓它做幾次都不行。

戴雨森:以前我創業時也這麼想,所有事我都親自做。後來發現這不是好管理方式,我應該賦能下屬,讓他們知道我要什麼,讓他們有主觀能動性。

以後人類指揮 AI 可能也是這樣,這可能是人類歷史上第一次要培養一個工具。以前培養人很難,大部分人是被培養的,很少有人有能力或機會去培養一個下屬。但現在每個人可能都要學會如何給 AI 下命令,如何培養 AI 去更好完成工作。

Q:你提到 Manus、Genspark 這類通用 Agent 的用戶羣都比較廣泛。你們怎麼觀察垂直場景裡的 Agent?

戴雨森:通用是因爲當前模型能力偏通用,但肯定會逐漸涌現某些垂直場景。

我覺得一個好的產品,最後肯定還是要有清晰的定位,要在某些領域做到絕對的第一名,才能擁有長期價值。或者說我們目標不是追求通用,而是從通用開始,逐漸發展收斂到一些核心場景。

技術革命的早期發展階段,往往大家都在嘗試,也不知道新技術適合做什麼,最後看什麼效果最好。例如蒸汽機剛被髮明時,最開始是用於抽煤礦的水,後來發現用來驅動火車和紡織機更好。蒸汽機也是一個「通用技術」,但最後最大的價值可能來自幾個具體場景。

我覺得現在 coding、做 PPT 這類的 office work、deep research 三者毋庸置疑是已經涌現出來的重要方向。

Q:有個話題挺有意思。國內大家討論通用產品,覺得這是大公司的必爭之地。但跟國外投資人聊,他們反而對 Super App 的可能性更感興趣,關心怎麼打敗OpenAI和 Google。

戴雨森:如果你有機會挑戰大公司,那是好事,至少有資格參與奧運會,比不參與強。

很有意思的一件事是,Manus 出現後,有很多人說它沒壁壘,用開源框架一個週末就能搞出來。但現在過了這麼多個週末,還沒看到任何一個類似的應用能真正做好的。

我覺得在全球市場,大家對真正的創新還是尊重的,不會直接複製完全一模一樣的產品。可能會借鑑交互或呈現思路,比如 AI 在幹活的表現形式,但不會直接像素級複製。在全球化競爭裡,先發優勢會帶來很多口碑和傳播優勢,這也是對創新者的獎勵。

09每月 1000 美金的 AI 產品訂閱

Q:你算過現在一個月在AI產品訂閱上花多少錢嗎?

戴雨森:大概接近 1000 美金。Manus 是 200 美金,Genspark 是 200 美金,ChatGPT、Gemini、Grok 這些也都差不多各 200 美金。我買的基本上都是高級方案。

我一直有個理念,新產品就要多試試,很多時候花點錢試一試並不過分。很多AI產品的革命之處不能只看報道,得親身去用。當你能看到一個未來的時候,你會產生很多的靈感。

我們三月份就觀察到,Manus 上線後推理用量暴漲,Agent 產品的 token 用量相比 Chatbot 是顯著增長。當時二級市場很多人還在質疑英偉達,覺得哪怕全世界所有人都用 chatbot,推理需求也根本沒那麼大,用不了那麼多算力。

但其實這就像撥號上網時代,一開始所有人都在聊 QQ,不需要那麼多帶寬。但有了寬帶網之後,大家就要在線上看 4K 視頻了。模型能力越強,可以解鎖的場景越多,token 使用就越多。

Q:2023 年,黃仁勳在英偉達內部講話中說,他們的市值目標是 2 萬億美元。當時英偉達剛剛突破 1 萬億。我們還在討論他這口氣是不是太大。結果今年已經突破 4 萬億了。

戴雨森:他很快可能會到 5 萬億。因爲 token 向生產力的轉化趨勢纔剛剛開始。

這就像火車開動了,就不會突然又停下來了。我們現在還在不斷髮現 AI 新的使用場景。比如說一個工程師原來一天可以寫 100 行代碼,現在有了 Cursor、Claude Code,可能寫的代碼是原來的 10x,能解決更多以前沒想過要解決的問題。又比如有了 ChatGPT 和 Manus,你會問的問題也會變多。

很多以前不知道該問誰的問題,現在可以用AI來解決。給用戶帶來的生產力提升,導致用戶更願意付費。

Q:目前生產力場景的 token 消耗是非常高的?

戴雨森:生產力可以以 10 倍,100 倍的速度增長。和 AI 閒聊再怎麼聊,一天就那麼多時間,這是我們以前講的 attention is all you need。如果你要的是用戶注意力,它是有限的,並且是和抖音,Tiktok、小紅書一起去爭奪的注意力。

但在生產力場景,用戶需求的上限很高,可以從問一個問題變成問 100 個問題,需要的算力可以漲 100 倍。

Q:而且單位時間內 token 消耗的複雜度也在迅速提升,比如我要消費的內容、視覺信息可能也變得更復雜。

戴雨森:在未來你可以問 AI 之前沒想到的非常複雜的問題,我給你舉個很簡單的例子。比如美股二級市場的朋友,在財報季時一天可能要關注五六家公司發業績。凌晨四點起牀看財報數據、代入模型做對比、聽電話會議、分析 CEO 的展望,都是他們的日常。

原來他們不可能同時聽多個財報會,只能靠招更多人或挑重點去選擇。但現在有了 AI,雖然目前還不能完全跑通全流程,但 6-12 個月內就有可能讓一個分析師同時覆蓋 50 家股票的財報。

AI 可以幫他們看財報、聽電話會議記筆記、回答事前準備好的問題、總結 CEO 回答、寫報告。這些原來因爲「做不到」纔沒放到你的工作時間表裡的事情現在 AI 能完成了,需求就自然增長了。

就像飛機出現之前,沒有人會說「我今天要飛美國出差」。但飛機一旦存在,新的需求就出現了。AI 也一樣,它讓你開始做那些你原本不會想做的事。

Q:時間是有限的。但單位時間內娛樂內容的複雜度、感官刺激可能會大幅提升,這也是以前難以想象的。

戴雨森:對,確實難以想象。但我想說的是,生產力的價值是直接可衡量的。比如 AI 幫我賺 100 塊錢,我爲它付 1 塊或者10 塊。

而且我們觀察到一個很有意思的現象:當AI按 token 用量計費後,很多人是希望用得更多的。因爲它確實在幫你完成工作,比如幫你寫了更多代碼。

這本來就是你自己要做、要花時間花錢僱人做的事,現在 AI 幫你完成了,它就有價值。

10硅谷 Acqui-hire 搶人大戰

Q:關於最近這場「搶人大戰」你有沒有什麼看法?

戴雨森:確實最近有很多人被挖走,也有人接到電話但沒去。大量優秀人才被 disruptive(顛覆性)級別的薪資挖走。

這種挖角不管是對被挖團隊,還是 Meta 自己原有的團隊,都是非常大的衝擊。在硅谷幾乎所有頂尖公司都在發生類似動盪。被挖的人所在團隊軍心難免動搖,留下的人也開始質疑:是不是自己也該漲薪?

這種高薪挖人當然是人才價值的體現,但越是頂級人才,也越需要時間和環境來磨合,才能真正形成合力。歷史上失敗的例子也很多,所以對於這些組織來說,這既是機會,也是一場挑戰。

Q:你覺得搶人競爭算良心嗎?

戴雨森:我覺得這也是體現了創始人的精神,就是他願意不惜代價去爭取人才。如果花錢能解決的事,我就花錢辦。這反映了人才確實很重要。

Q:壓力主要是在硅谷嗎?不過從另一面看,這也給創業公司提供了不錯的退出機會。

戴雨森:但是這種退出可能不夠大。有的人覺得公司賣個幾億美元就挺好,有人則想做千億美元公司。創業公司也需要更多彈藥去和 Meta 這樣的大廠競爭。比如說 Cursor 之前融了很多錢,我們一度還覺得融這麼多錢做什麼,現在看到他們要面對的是更多錢補貼用戶用 token,招人也要更高成本,所以融資更多很合理。現在競爭無論是補貼還是人才都升級了。頂級人才也有很多選擇,對很多創業公司來說,加入戰局的門檻和水位都在提升。

Q:硅谷這種人才收購(Acqui-hire)很流行,主要是爲了繞過反壟斷限制,也反映了競爭多激烈。

戴雨森:大家都想加快節奏,因爲錢太多了。幾家巨頭賬上都有大量現金,這些錢投下去,如果能用錢換時間和競爭優勢,對他們來說就是簡單的事情。

11Benchmark 鈍化,突破智能的邊界

Q:最後這一部分,我想問一些你的感受。從 GPT-3 到現在,已經有兩年半時間了。你目前對什麼事情還是特別好奇?

戴雨森:我好奇始終還有很多。首先是如何衡量智能的邊界。

你想,ChatGPT 剛出來的時候,人類還能指出它的回答問題所在。但現在無論是它研究的內容還是文筆本身,普通人類越來越難發現它的缺陷了。當人類智能被逐漸接近的時候,你怎麼衡量一個或許比你更聰明、更深度思考、記憶力更強的存在?

關於如何衡量智能,我的好朋友姚順雨在他寫的文章《下半場》中提到,未來 AI 的 benchmark 會越來越重要。現在的 benchmark 已經鈍化,不能準確區分模型差異。比如說一個 benchmark 得 85 分或 90 分真的能反映模型的區別嗎?Kimi 的經驗也說明,內部制定好的 benchmark 很重要。模型訓練關鍵是如何衡量結果,而內部 benchmark 的水平質量往往決定了模型的質量。

所以我覺得如何衡量智能、如何探索智能邊界依然非常重要。現在我們還能勉強說用一用模型,能「Vibe Testing」感受到模型的能力好壞,但再過幾年,前五名的模型可能都比你聰明的時候,你怎麼去評估誰更好?

Q:所以怎麼去衡量智能的邊界?

戴雨森:第二個我想說的是,我一直反覆思考生產力這個邏輯。每個人擁有大量生產力之後,對於個人、組織、乃至世界的影響是什麼?

對個人來說,超級個體一個人能做的事情越來越多:從做小貓補光燈這樣的小 app,到開發遊戲,甚至到實現 Sam Altman 預言的「一人獨角獸公司」。當年 Instagram 被收購時只有 13 個人,在 AI 時代,13 個人到 3 個人是完全有可能的。

這意味着人和人之間差距會變得很大。當每個人都擁有無限聰明的助手,以及像 Manus 這種可以日夜無休幫你打工的「賽博牛馬」時,有人能很好地利用它創造巨大價值,有人可能沒有產生那麼大價值,所以成長速度差異會進一步拉大。

對組織來說,小組織可以變得很強大,而大組織則能通過先進技術管理更大、更復雜的業務。比如美團管理幾百萬騎手,業務非常複雜,如果沒有先進互聯網通信和管理技術,根本無法實現。加入 AI 後,大公司的管理人數、業務複雜度和深度都會再升一個臺階。

世界是由各種組織驅動的,組織能力邊界的提升對世界影響巨大。進一步來說,當整體生產力大幅提升,而人與人、組織與組織之間差距變大時,如何在效率和公平間尋求平衡?AI 最初是最聰明的人制作工具給頭部用戶用,但這些精英產生的價值如何反哺普通大衆?即便一個普通人不是特別努力學 AI,我們如何讓 AI 產品越來越易用,讓普通人也能從中獲益?

Q:AI還會帶來隱私暴露和虛假信息氾濫,讓真實界限變得模糊。

戴雨森:對,你很難區分什麼是真實的文章。我現在還能讀出 DeepSeek 的味道,但一年後可能分辨不出,或者說,可能有很多 AI 寫的文章我已經分辨不出來了,我能分辨出來的只是那些還僞裝得不夠好的。大家都知道 AI 會引用虛假內容,但關鍵什麼是虛假呢?真假的界限也越來越模糊了。

我一直在想,人類最大的限制是什麼?我這邊覺得是大腦的功率,大腦功率大約 20 瓦,人類智能的上限就是這麼多。而 AI 可以很快接近甚至突破這個上限。智能越多,我們用它做什麼,人與 AI 的角色分工如何,這些都是我們很快要面對和調整的問題。

有時候我覺得有點可怕,因爲大的變化已經到來,只是大家還在逐漸感受到它。比如對程序員影響特別直接,普通初級程序員如果不用 AI,未來兩年後找到工作會非常困難。但一年的時間人是很難做出改變的。而更多的職業可能也會在很短的時間內受到極大的衝擊。

12Talk is cheap,Show me the product

Q:你會對什麼事感到疲倦?

戴雨森:我覺得第一個疲倦的是過度營銷。過去幾年有一個趨勢,就是很多產品在過度營銷,各種「震驚體」,但好的產品比如說 Manus,幾乎沒花錢營銷,但大家誤以爲它花了很多錢。

之前 AI 的進步主要是模型的進步,普通用戶還無法在產品中體驗,因此研究員和媒體擁有很大的解釋權。但現在模型已經開始轉化成應用了。那時候我在即刻發了一條說:「Talk is cheap, show me your product.」

現在很多 AI 模型的核心能力最終都要轉化成產品,用戶能真正用得起來,AI 纔有生命力。很多講故事、炒作的公司,不如專注做好產品。我們看到現在發展好的 AI 公司大多做到了這一點,拿出真正對客戶有價值的產品。

Q:你今年內想驗證的是什麼問題?

戴雨森:一個是AIL3 級別的 Agent 應用能不能快速達到完成實際工作的程度。比如 Manus 我們都在用,用戶也在付費,但有時一個任務只能完成七八十分,還需人補充到 100 分。Claude Code 相比之前的 coding agent,逐漸能做到一次完成,不用修改就能上線。

未來幾個月到年底,我相信 Agent 的能力還會有很大提升。到那時,可能你給 AI 一條指令,它就能埋頭幹完,甚至一次就幹好了。

Q:我現在用AI感覺是得刻意多用它。因爲給它比較複雜的任務時,它完成得不完美。

戴雨森:這是普遍現象。好的 AI 產品一定是爲未來的模型設計的。Cursor 上線兩三年了,但直到 Sonnet 3.5 出來的時候纔開始火,等 3.7 出來後才爆發增長。

Manus 也是一樣,剛上線時很多任務其實也做得不好,但 6 個月、12 個月後,新一代模型會讓它表現更好。所以你要爲未來設計,而不是爲當下就能獲得的模型設計。

Q:這對普通用戶可能反直覺,但我理解,這是快速發展階段。普及到主流用戶時,大家仍追求開箱即用。

戴雨森:其實也不一定,比如我們之前發的《》,Youtube 的聯合創始人 Steve 說,YouTube 出來時是爲未來寬帶設計的。2005 年,那時候美國剛開始普及寬帶,因此一開始的體驗並不是那麼好。同樣短視頻平臺如抖音快手上線時,也是爲一兩年後的智能手機和 4G 普及設計的。AI也是這樣,你要永遠提前走一步,喬布斯曾經說過「要去冰球將會前往的地方」。

Q:所以你想驗證的是,到年底看產品能否高度自動化完成任務,不再需要人蔘與?

戴雨森:比如現在 Agent 完成任務的成功率可能是 20%,能不能到 70-80%?這會讓前沿用戶對工作的定義和 AI 使用方式發生巨大變化。

另外我好奇的是,隨着用戶使用 AI 產品的變多,記憶會帶來多大變化。AI 應用長期壁壘是什麼?我覺得很重要的是記憶和個性化。現在記憶個性化對結果影響有限,但長期來看,我們希望它像員工或助手,隨着使用時長增加,越來越瞭解你,變得不可替代。這是我們想看到的進步。

Q:這個進步不能光靠模型是嗎?記憶需要不斷互動,給AI個人層面上下文。

戴雨森:一方面是在線學習(online learning),模型在使用中學習。另一方面需要你給它更多數據、文件、上下文,應用設計非常重要。模型和應用要協同合作。

我覺得我們對未來創新要有更多期待和包容,對中國團隊的創新和發展能力要更有信心和支持。

13創業新浪潮的新觀察

Q:你們現在特別關注的團隊是什麼類型的人?還有哪些地方有新創始人在出現?

戴雨森:今年我們看到,想出來創業的人多了很多。一兩年前大家還在相信未來應用會落地,而現在已經看到有 Manus 這個例子。金玉在前,所以大家肯定會想,「那我也許也可以」,這一定是一個更多的過程。我們看到很多不管是研究員,還是大廠裡的年輕人,都蠢蠢欲動。

Q:你最近在看什麼比較好玩的書,或者有沒有作品想分享?

戴雨森:我想推薦《33 號遠征隊》,一家法國創業公司開發的遊戲。故事設定在一個虛擬世界,有一個神「繪母」,每年在天邊的一個石頭上寫下一個數字。這塊石頭叫 Monolith。

她從一百開始倒計時,每寫一個數字,對應年齡達到那個數字的人就會死去,全部消失。第一年是 100,第二年是 99,如此類推,一波一波的人死去。於是人類開始反抗,每年組織剩餘年齡差一歲的人組成遠征隊,想挑戰並打破這個魔咒,但一直沒有成功。今年繪母寫下了 33,33 歲的人將在明年此刻死去,於是第 33 號遠征隊出發了。

前幾天是 Manus 創始人肖弘的 33 歲生日,我就推薦他玩這個遊戲。這個遊戲講述了一個滿 33 歲的人如何出海挑戰天命的故事。遊戲團隊也是 33 個人,是一個創業公司開發的。創始人曾在育碧(Ubisoft)工作,他在那裡覺得無聊,於是出來做了這款遊戲。

《黑神話·悟空》是中國的大 IP,結合中國的文化積澱和先進技術製作的精品之作。《33 號遠征隊》也是一個法國浪漫主義設定,藝術與先進技術結合帶來的優秀作品。它的情節、畫面、音樂等都非常非常出色,是我今年非常喜歡玩的遊戲之一,有望衝擊年度遊戲。

轉載原創文章請添加微信:founderparker