“純”大模型公司不復存在、產品經理將比程序員更重要?林詠華、黃東旭、李建忠激辯大模型 | 萬有引力

作者 | 《萬有引力》

出品 | CSDN(ID:CSDNnews)

過去一年,AI 及大模型技術的發展令人目不暇接:業界擔憂 Scaling Law 遭遇瓶頸,開源模型蓬勃發展,推理能力迎來突破,多模態技術全面開花。然而,技術的演進也帶來了新的思考:大模型公司的未來將走向何方?模型訓練算力、數據質量哪個更重要?GenAI 應用 Killer App 何時到來?Agent 是否會迎來“千體大戰”?2025 將是具身智能元年?

1 月 8 日,CSDN 對話直播欄目《萬有引力》正式開播,在欄目主理人 CSDN &《新程序員》執行總編唐小引的主持下,北京智源人工智能研究院副院長兼總工程師林詠華、CSDN 高級副總裁李建忠、PingCAP 聯合創始人兼 CTO 黃東旭圍繞這些問題展開對話,對大模型技術發展進行了深度的總結及展望,本次對話中,三位嘉賓分享了多個引發熱議的觀點。

歡迎收聽 & 訂閱咱們的小宇宙新頻道~

同時和大家預告,1 月 15 日中午 12:00,《萬有引力》邀請到 Gru.ai CEO、CODING 創始人張海龍,Prompt Engineer、知名 AI 博主寶玉,阿里雲通義靈碼技術負責人陳鑫、智譜 AI CodeGeeX 團隊技術負責人鄭勤鍇,和大家一起深入聊聊程序員朋友們最關心的 AI Coding 的痛點及演進,歡迎點擊下方預約按鈕一起參與。

黃東旭

我不太相信 Scaling Law。現在這一波生成式 AI 的可解釋性,整個學術界其實沒有定論。

產品經理可能比程序員更重要。AI 已經大大降低了編程的門檻,如果你真的有好想法,完全可以自己去嘗試啓動。

AI 或者 RAG 的業務最終會變成一個數據業務,就是誰擁有了數據,誰存儲了數據,尤其是個人數據,誰就能賺大錢。

從左至右分別是:唐小引(主持)、林詠華、李建忠、黃東旭

李建忠

Agent 將使互聯網從信息互聯網轉變爲行動互聯網,Agent 將塑造智能時代的應用形態。

大模型不是操作系統,操作系統的護城河很深,而大模型的護城河相對較低。未來的大模型仍然需要依賴操作系統來與各種應用和服務交互。

林詠華

做人形機器人的公司應該有 80 家左右,甚至可能接近 100 家。我們希望有一天能夠打造出一個跨本體的具身智能大模型,能用於不同的機器人本體。

互聯網上中文內容的佔比,從 2013 年的 4% 多,到 2021 年已經下降到了 1.4%。這個比例下降的原因,並不是使用中文的人減少了,而是很多數據被封閉了。

以下是對話全文,經 CSDN 精編整理:

2024 年,大模型的“關鍵詞”

唐小引:如果總結 2024 年大模型這一年的進展,你們會想到哪些關鍵詞?哪些重要主題是你們認爲非常關鍵且值得與大家分享的?

黃東旭:2024 年,我覺得首先要強調的點是,AI 的發展似乎遇到了一個瓶頸。Scaling Law 是否仍然有效,我還不能下定論。但從 GPT-5 以及像 Claude 這樣的頭部大模型廠商的新模型進步速度來看,已經很難再看到像 ChatGPT-1 到 GPT-3、3.5 再到 GPT-4 那樣令人驚豔的飛躍了。因此,我認爲第一個關鍵詞是“短期天花板”。

第二個關鍵詞是“開源模型的蓬勃發展”。回想兩年前,ChatGPT-1 問世時,開源界一片恐慌,覺得無法追趕。但現在回頭看,開源模型與主流一線大模型的差距已經縮小,甚至可以說,使用開源模型或開源許可友好的模型,已經能夠做出很多真正有用的東西,而不僅僅侷限於研究性質,能夠產生實際的應用價值。

第三個點是,大家已經看到了這一波 AI 的天花板和下限。如果沒有特別大的技術突破,其上限和下限已經相對清晰。因此,接下來可能會進入一個相關技術蓬勃發展的階段,比如 RAG、Agent 等技術。如果要總結今年的趨勢,那就是“遍地開花”。

李建忠:如果要我總結關鍵詞,我想有三個。第一個關鍵詞是“推理”,尤其是推理的 Scaling Law。OpenAI從年中的 o1 到年底的 o3,國內也有許多跟進者,我認爲 2025 年會迎來大模型在推理側的發展,就像 2024 年多模態的蓬勃發展一樣,不再是單一廠商的天下,會有更多開源力量的加入。

推理的突破也破解了一些學者的質疑。相當一段時間以來,有學者認爲大模型可能還是一種基於統計的模型,尤其在預訓練系統中,更多表現出人類的 System 1 的語言能力,而 System 2 的思考能力、或者推理能力相對較弱。但下半年 OpenAI o1 展示了推理 Scaling Law 的發展,破除了大模型只會鸚鵡學舌式語言能力的質疑。正如維特根斯坦在關於人類語言與智能研究中所述,語言是人類智能的核心,他用“語言是思想的圖畫”或“語言是思想的邊界”來形容,語言本身就蘊含着推理這一智能的關鍵要素。總體而言,下半年推理側計算的發展,爲模型 2025 年實現超越人類專家級智能水平奠定了基礎。

第二個關鍵詞是“多模態”。早在 2023 年,大家主要關注語言模型,認爲 Transformer 架構更適合自然語言。但到了 2024 年初,隨着 Sora 的出現及後續廠商的創新,包括智源在統一表示方面的創新,證明了 Scaling Law 和 Transformer 架構不僅適用於語言,還適用於視覺等更多模態。我曾在 Sora 發佈後談過,如果說 GPT 打開了 AGI 理解人類的大門,而 Sora 則打開了 AGI 理解世界的大門,因爲它能夠看見並理解世界的物理實體。我認爲多模態在 2025 年,在對物理世界的探索方面,將大有可爲。包括李飛飛教授研究的空間智能等領域都非常值得期待。

第三個關鍵詞是“Agent”。Agent 被視爲智能時代的 App 形態。去年在全球產品經理大會上,我提出一個觀點:Agent 將使互聯網從信息互聯網轉變爲行動互聯網。過去,互聯網提供的主要是鏈接信息,人基於這些信息做決策和行動。但 Agent 憑藉大語言模型的推理能力、工具能力和執行行動的能力,將使未來很多互聯網行爲由 Agent 來完成,比如幫助我們購物、下單、定酒店等。去年榮耀以及國內諸如智譜等公司開發的 Agent 只是展示了雛形,如果再結合人機交互方面的創新,我相信 Agent 將真正塑造未來的應用形態,這會帶來廣闊想象空間。

黃東旭:我感覺這個時間不會太久,因爲在我看來,Agent 本質上就是完成一個具體任務。這些任務在程序中可以看作是一個個 API,比如發郵件、訂奶茶、訂機票等。難點在於 AI 需要對這些任務進行編排和理解,而最終的調用其實相對簡單。這裡面臨的挑戰並不在於基礎技術,而是在於這些最終向用戶提供服務的公司是否願意開放其 API 供其他 AI 使用。

李建忠:而且很有可能的是,Agent 會打破現在應用中獨立 App 的界限。未來我們面對的手機可能不再是一個個獨立的 App,而是通過 Agent 無縫集成這些功能。

黃東旭:我現在做了很多有趣的事情,比如我自己的一些小項目。以郵件和飛書爲例,我們使用飛書,所以我讓 AI 幫我閱讀和回覆飛書的聊天記錄。這裡面最難的部分不在於調用大模型來理解這些內容,而在於如何將消息流接入,如何通過 Gmail 的 API 讀取我的郵件,以及將這些信息存儲在哪裡。這些基礎的工作佔據了 90% 的工作量,而在大模型那一側,它只是需要一些 Prompt 而已。

唐小引:林老師,請分享一下您對 2024 年的關鍵詞總結。首先,Sam Altman 曾說 2024 年是多模態的一年,但您曾說過這一年也是大模型應用落地的一年。您總結 2024 有哪些關鍵詞和重要主題?

林詠華:其實關鍵詞和主題挺多的,但我先聚焦在三個主題上。首先,從全球開源大模型的發展來看,我們觀察到出現了兩極分化:一種是“越大越強”,即通過增加參數量來提升模型性能,以 Llama 3 的 405B 模型爲代表;另一種是“越小越精”,許多模型的參數量都在 100 億以下。我們曾在 11 月份對 Hugging Face 上過去一個月下載量超過 10 萬的模型進行了調研,發現像 405B 這樣大的模型,一個月的下載量居然接近 1000 萬次。而剩下的大量模型中,90% 以上是 100 億參數以下的小模型。

其次,2024 年確實是語言模型落地的一年,不斷在一些高階的能力上取得進步;但多模態模型的情況與 2023 年相似,還有許多進步的空間。智源在 12 月 19 日發佈了智源評測,我們對比了 12 月份和 5 月份的評測結果,兩次評測都涵蓋了全球當下最重要的 100 多個模型和 API。語言模型的數量有所減少,而多模態模型的數量明顯增加。這說明多模態模型在技術上還未收斂,沒有像語言模型那樣趨於穩定。

雖然多模態模型的 Demo 看起來不錯,但實際性能與實用仍有較大差距。這裡主要問題在於,目前打造多模態模型的方式很多是拼積木式的,即一個「語言塔」加一個「視覺塔」。語言塔隨着語言模型的發展不斷更新,比如可以輕易地使用 72B 的語言塔來訓練多模態模型。但視覺塔的更新卻相對滯後,目前仍以幾億參數的視覺塔爲主(如 SigCLIP),導致對圖像和視頻進行理解的準確性遠沒有達到使用要求。因此,我們期待 2025 年在多模態模型的視覺理解方面,大家能下更大功夫,不要只是一味追求模型的“聰明程度”。如果連基本的圖像和視頻理解都做不好,再聰明的模型也無濟於事。

黃東旭:在閉源模型方面,比如像 Claude、OpenAI 等的情況是怎樣的?

林詠華:我們進行過許多測試,也發現了一些類似的問題。因此,在這次的智源評測中,如果大家留意的話,會發現我們並沒有啓動視覺模型的視頻理解評測。原因在於,我們僅使用少量樣本進行測試時,發現許多模型都無法給出準確的答案,尤其是在一些細節方面。我們認爲目前沒有必要進行過於精細化的測試。

唐小引:背後的關鍵原因是什麼?

林詠華:很多時候,大家還是受到 2022、2023 年大語言模型熱潮的影響,那時大家都在強調模型的推理能力和解數學題的能力,從而將發展方向引向了這個方向。但對於多模態模型,我們需要明白,它不僅需要理解 Prompt,還要理解視覺輸入。我認爲大家在這方面的努力還不夠,所以這是多模態模型發展的一個關鍵問題。

第三個關鍵點是,大模型終於從數字域走向了物理世界。特別是在 2024 年 12 月,我注意到幾家頂尖 AI 公司都在發佈世界基礎模型,比如 Google 的 Genie2、李飛飛的世界模型等。這些模型通過與人的交互來生成視頻,這是非常棒的。還有 Meta 推出的模型,在物理空間中進行導航,可以生成導航視頻,這些都是世界模型的體現。

這些世界模型的出現對我們有什麼重要意義呢?一直以來,我們希望通過多模態模型打造具身智能。今年包括谷歌的 RT 系列(RT-1、RT-2、RT-X、RT-H)以及最近的 PaLI-X,都在嘗試用多模態模型直接理解視頻並輸出行動。大家已經開始在這條路上探索,並看到了一些曙光。但問題在於,訓練這樣的模型需要大量真實世界的交互數據。因此,這些世界模型的出現,讓我們在依賴真實世界數據採集之外,可能有了新的選擇。

激辯:相不相信 Scaling Law?相信什麼樣的 Scaling Law?

唐小引:Scaling Law 是否遇到了天花板是大家很關注的問題,是否有更好的方法來突破 Scaling Law 的限制?智源發佈的 2025 十大 AI 技術趨勢中,也提出了與之有異曲同工之妙的觀點。圍繞這個話題,大家可以深入探討一下。

黃東旭:我想發表一個暴論,就是我其實不太相信 Scaling Law。現在這一波生成式 AI 的可解釋性,整個學術界其實沒有定論。Scaling Law 只是大家發現的一條路徑,能讓模型具備一定的泛化能力。

而且,Scaling Law 這種堆算力的方法是最簡單、確定性最高的。在過去兩年,大家發現這條路好像能走得通,就一直往前走。但現在遇到了瓶頸,接下來如果再堆更多的算力、更多的數據,它會不會變得更好?不一定。因爲大家不清楚背後的原因。

所以我們可以重新思考一下,Scaling Law 到底是一個萬能的法則,還是隻是一個像計算機開機的 bootstrap,通電上來後到達了一個瓶頸,之後可能需要走其他路徑。

我經常舉的一個例子是,一個小朋友,平時也沒看這麼多書,但他平時通過視覺、聽覺等接受的信息可能與文本信息不一樣。

我們想想人類自己的學習方式,就會發現像剛纔提到的 System 1 和 System 2,在 System 2 我們可能不需要這種簡單粗暴的算力和 Scaling Law 的堆積,而是可以回到智能本身的一些更基礎的方面,包括推理等,可能會有一些突破。

其實從 o1 開始,我覺得 OpenAI 就在尋找,除了簡單粗暴地合成數據、堆更大量的模型之外,是否可以通過強化學習或者像思維鏈這種結合到現有模型裡的方法,這種一步一步往上走的方式,可能是未來的出路。所以,我不太相信 Scaling Law。

李建忠:我的觀點與東旭稍微有所不同。首先,我比較相信 Scaling Law,當然我們可以稍微拆解一下,有狹義的 Scaling Law 和廣義的 Scaling Law。

狹義上講,Scaling Law 指的是計算量和數據指數級增長帶來智能性能的線性增長的規律。這個所謂的“線性”,當下在速率上可能會有所放緩,或者與之前的速率存在差異,就像廣義摩爾定律和狹義摩爾定律的區別一樣。但從廣義的角度來看,隨着算力和數據的增加,智能是否會有更好的發展?我認爲這一點是肯定的。

去年確實有人質疑 Scaling Law,但其實質疑的並不是 Scaling Law 本身,而是它所依賴的條件,尤其是數據。以預訓練爲主導的互聯網公有領域數據是核心條件之一,但,這會導致模型的擴展發展放緩。當然,算力成本也是一個潛在因素。但是 OpenAI 下半年 o 系列模型的發展之後,大家會看到推理側的 Scaling Law 將爲我們帶來新的機會,它會是 Scaling Law 的一種延續。

除了剛纔東旭提到的機器合成數據之外,我認爲人機共生數據可能是機器合成數據之後的下一波 Scaling 機會。人機共生數據的典型例子是特斯拉的 FSD,車輛每天行駛時不斷收集和訓練數據。但說實話,在很多其他領域,我們還沒有達到像自動駕駛領域那樣的數據飛輪效應,即智能應用在運行過程中產生的數據很難實時進入訓練系統。

比如在軟件開發領域,現在爲什麼也遇到了一定的瓶頸?大模型可以勝任普通程序員的工作,但沒法替代東旭這樣的資深程序員。這其實是因爲很多過程數據沒有被訓練,目前的訓練數據大多是 GitHub 上已經完成的、被編譯好、執行好的結果數據,而人類在很多活動中產生了更多動態的、實時的過程數據,即人機共生的數據,還沒有進入到整個訓練系統,或者目前來講它的訓練成本可能比較高。

黃東旭:實際上,我現在對此稍微樂觀一些。在 ChatGPT 這類具有強大生成能力的代理模型出現之前,這些數據其實一直存在,只是大家不知道如何利用。比如我手機上的行爲數據,所有 App 都可以記錄我的點擊行爲,包括我們自己開發的應用,也會通過用戶在用戶旅程上的記錄來收集數據。但以前如果沒有相應的技術背景,普通公司是無法利用這些數據的。我覺得現在隨着代理模型的出現,利用這些數據的門檻降低了。接下來,包括今年,幾乎所有的 C 端 App 公司或 B 端工具公司,都會發現個人數據、交互數據,甚至是手機截屏的數據的重要性,雖然我現在可能還不能直接使用,但我一定會先存儲起來。

李建忠:非常贊同。最近 AI 眼鏡領域競爭非常激烈,其實眼鏡是一個收集數據的巨大工具。我認爲人機共生數據既能解決數據領域的 Scaling 問題,另外在推理側的算力方面,目前至少還沒有看到很明顯的障礙,我覺得這兩個條件應該還會繼續。

黃東旭:所以我說這兩年雖然數據不知道該怎麼用,但對於數據庫公司來說是巨大利好。我其實不太相信的是狹義上的 Scaling。但對於未來如何利用個人數據,或者剛纔提到的行爲數據,我非常相信其潛力。

李建忠:對,就是廣義上的 Scaling。比如 TCP/IP 協議,它實際上是互聯網的一種 Scaling,能夠把所有的網絡和設備無差別地連接起來,這實現了整個互聯網在連接層面的廣義 Scaling,也是一種指數級的連接,它也是一種互聯網領域的 Scaling。在智能領域,如果我們能把人機共生數據以較低成本、相對統一的方式表示出來,就像最早大語言模型對語言的統一表示,後來 Sora 的 patch,以及智源對多模態數據的統一表示等。當前對各種數據的統一表示,尤其是目前的行爲數據等各種各樣數據的統一表示,業界可能還沒有形成共識的做法。但如果這些基礎設施層面的建設都到位了,人機共生數據源源不斷地被投入再訓練,我認爲新一波智能的Scaling 就又會出現。

唐小引:所以是 Scaling 做加法嗎?

李建忠:是解決 Scaling 在算力和數據上的障礙。剛纔東旭以孩子爲例,我不太認同。因爲人的物理能量限制,一個人一生能接觸的知識是有限的。但是我們得相信,讀的書越多,掌握的知識肯定是越多的,這是毫無疑問的。大模型讀的書肯定比任何一個人一輩子讀的書都要多得多。AI 可能永遠追不上愛因斯坦這種創造力,但是在“卷”人類已經現存的世界知識方面,我覺得大模型還有巨大的機會。

林詠華:我認爲 Scaling Law 這個問題需要辨證地看待,不能單純地盲目追求。大家可能還記得,最早提出 Scaling Law 概念的是 2022 年的 OpenAI。在他們那篇文章中,列舉了許多極具價值的實驗。文章指出,在給定訓練算力的前提下,要麼增大模型的參數量,要麼保持參數量不變而增大數據量,這兩個維度都能提升模型的整體性能。

當時我看到這篇文章時,OpenAI 似乎更傾向於推崇參數量的增大。但我當時的想法是,如果能固定參數量,僅通過增加數據量就能達到良好的性能,那我們顯然應該選擇這條路,因爲這涉及到部署成本的問題。畢竟,參數量每增加一倍或十倍,成本就會相應地大幅上升。所以當我看到 Scaling Law 時,我的第一反應是我們應該儘可能多地收集數據,同時固定參數量。

唐小引:然而,後來業界發現預訓練模型似乎遇到了瓶頸,也就是所謂的 Scaling Law “撞牆”現象。

林詠華:我對此確實持有一些不同的看法。今天,我們先從語言數據說起,更不用說視覺數據了。實際上,大量的語言數據都存在於我們這些封閉的應用程序中,形成了一個個數據孤島。是的,我記得有家公司曾經做過一項調研,即便是海外的英語數據,我們今天通過互聯網搜索引擎能夠獲取到的數據,可能只有 Meta(Facebook)、Reddit 以及像 X(Twitter)這樣的平臺數據的五分之一。因此,實際上還是有很多數據被封閉在數據孤島之中。

黃東旭:我確實非常認同這一點。

李建忠:甚至很多數據都還沒有實現數字化。

林詠華:互聯網網頁的中文內容佔比,從 2013 年的 4% 多,到 2021 年已經下降到了 1% 多。這個比例下降的原因,並不是使用中文的人減少了,實際上全球使用中文的人口比例還略有上升,達到了 19% 多。

黃東旭:是因爲垃圾數據越來越多了嗎?

林詠華:是因爲很多數據被封閉了,無法被獲取。所以我相信,確實還有很多數據存在。

不過,的確還有一個非常重要的數據類型,那就是視頻數據。很多時候我在想,人類是如何學習的,並不是全部都靠閱讀書籍。我們從小到大,通過觀察這個世界,不斷地學習。我們可以通過智能眼鏡來不斷獲取這些數據,當然如何標註這些數據就成爲另一個話題。這其實是一個非常重要的學習過程。

關於 Scaling Law,值得今年曾經引起很多討論的 Scaling Law for Precision。這個來自幾個頂級研究團隊聯合開展的一項研究引起了包括 OpenAI 的在內衆多機構的關注。研究發現,就模型量化而言,目前主要使用 16 位精度,部分使用 8 位,甚至 4 位精度。當模型量化降至4位精度時,隨着訓練數據量增加,loss 並非持續下降,而是在某個臨界點後開始上升;模型參數量越小,這個現象越明顯。

這與傳統 Scaling Law 的認知相悖。按照 Scaling Law 理論,在固定參數和精度位數的情況下,訓練數據量越大,loss 應當越低,即便不再下降,也不應上升。這引發了關於 Scaling Law 失效的廣泛討論。

我認爲這個討論的核心在於模型的信息容量有限。以一個擁有 100 億參數的模型爲例,使用 4 位精度承載信息的容量,從直觀上來說,必然少於使用 16 Bit 精度時的信息容量。

這其實跟 Overtrain 的說法相關。當模型容量相對有限時,如果輸入過多訓練數據,模型可能會達到飽和狀態。此時會出現什麼問題?就是後續輸入的信息將無法被有效學習。考慮到模型的位數和參數量都是有限的,我們是否應該無限制地輸入數據?在這種情況下,更應該注重提供高質量的數據,使模型能夠學習到更有價值的信息。因此,今年圍繞 Scaling Law 的這些討論給了我很大的啓發。

大模型公司的護城河,怎麼復刻移動互聯網的浪潮?

唐小引:2024 年,國際和國內大模型技術發展得很激烈,但這之間還有許多不同,三位老師能否分享一下自己現在對前沿 AI 技術和全球 AI 市場的觀察?

黃東旭:從使用者的角度來看,目前人工智能領域出現了明顯的分化。一方面,像 OpenAI 和 Claude 這樣的團隊,他們懷揣着宏偉的理想,致力於推動人工智能向 AGI 的方向邁進,追求更廣泛、更深入的智能應用。另一方面,許多人開始關注如何將人工智能技術賦能於現有的各種場景,比如通過 AI 輔助更高效地購物、訂票、收發郵件等,提升日常生活和工作的便利性。在這方面,中國的發展相對領先,很多創新應用已經深入到生活的方方面面。

同時,我觀察到中美在人工智能領域的差距,尤其是在工程優化方面,並沒有想象中那麼大。中國開發者在工程優化上有着獨特的優勢,能夠針對具體問題進行高效、實用的優化,提升系統的性能和穩定性。例如,最近 DeepSeek 的火爆,很多海外朋友都在積極學習其中的優化技巧。而這些優化往往並非來自學術研究層面,而是源於系統工程師的實踐經驗,像我這樣的高性能程序的編寫者,一看就能理解其原理。

此外,在硅谷等海外地區,AI 領域的活動非常活躍,每週都有大量的 AI 聚會,吸引了衆多年輕人蔘與,包括大學生和剛畢業一兩年的職場新人。大家普遍認爲,如果不去從事基礎模型研究或 AGI 方向,那麼在 AI 領域,誰思維敏捷、熟練掌握 Python 等編程語言,就能快速將創意轉化爲產品,推向市場賺取收益或獲得投資。這與當年 iPhone 剛推出、應用商店興起時的情況頗爲相似,各種應用層出不窮,吸引了衆多關注。然而,專業的工程師尚未大規模進入這一領域,大家仍處於嘗試和探索的階段,但已經涌現出許多實用的應用。

例如,我現在每天都在使用的 Cursor,雖然它並非嚴格意義上的 AI 公司,但作爲一個 IDE,加入 AI 功能後,其用戶體驗相較於傳統 IDE 提升了好幾個數量級。還有在美國,一些我們之前不敢想象的應用也已經開始出現,比如以對話框形式存在的 Agent,能夠幫助用戶訂機票等。總的來說,美國在 AI 領域的創新氛圍非常濃厚,不斷有新的應用和場景被開發出來。

但是它的實現並不意味着這項技術已經非常完美。我覺得硅谷有一種文化,就是先將概念推廣出去,儘快讓產品上線,然後收集用戶的反饋進行優化。

相比之下,中國可能更傾向於先觀察國外的創新成果,然後再回來認真地進行本土化改進。這種現象挺有趣的。

李建忠:中國今年在應用層面有望涌現出一些引人注目的創新。比如李開復老師所在的零一萬物,最近在預訓練方面有所調整,轉而更多地投入應用層面。其實國內很多大廠也呈現這一趨勢,像字節、騰訊等,他們在應用方面的投入和推進速度,可能還高於模型技術方面。中國市場的特點是,一旦大家對某個方向有了比較明確的共識,應用層面的競爭就會非常激烈。門檻相對較低,而且自移動互聯網以來,中國龐大的用戶羣體在接納新鮮事物方面,在全球都算是比較領先的。

今年這個時間節點,讓我想起了移動互聯網的 2009 年初。2007 年 1 月 iPhone 發佈,同年 12 月 Android 問世。我們現在距離 ChatGPT 誕生,也差不多兩年時間。這兩年,雖然面臨諸多質疑,但模型的能力卻一再證明其頑強的生命力。

就像移動領域,2007 年大家剛看到 iPhone 時,並未覺得它有多了不起;2008 年時,很多人還認爲手機不可能取代 PC。然而到了 2009 年,隨着第一波移動應用如 WhatsApp 等的出現,雖然微信和抖音還未嶄露頭角,但移動互聯網的浪潮已初現端倪。

今年,整個行業包括成本的大幅降低,爲產業生態的形成提供了重要條件。像智源等衆多優秀的機構提供了便宜且好用的模型,甚至有些是免費的;還有許多創業公司提供免費的算力等資源。這些都爲應用生態的發展奠定了良好基礎。剛纔東旭提到機票的例子,國內的智譜、榮耀等公司也在做類似的事情,比如榮耀的“Agent 點咖啡”,體驗後發現真的能讓 AI 給我們點咖啡。雖然這些應用還缺乏操作系統層面以及應用服務接口的發展,比如攜程提供的機票接口、美團及各種外賣接口等。未來,如果有了這些接口的支持,大模型會有更讓人驚豔的表現,比如你對大模型說一句話,它就能在美團上直接爲你下單,無需像現在這樣逐一打開 App 各個導航面。實際上,它已經理解了你的需求,只要提供合適的 API 調用即可,現在只是缺少可供大模型直接調用的 API。

黃東旭:如今,很多工作流實際上非常簡單,並不需要依賴龐大的幾百億參數的模型。

李建忠:確實,這樣可以大幅簡化我們的許多交互。

林詠華:但這裡會不會存在一個問題?因爲確實需要通過操作系統或系統去調用不同應用的接口。這是否意味着那些控制了入口的公司會因此獲得優勢?因爲這並不是一個簡單的任務。

李建忠:Apple Intelligence 的 App Intent 功能就是在做這件事,爲模型提供應用接口。

黃東旭:所以我認爲,控制終端的公司將佔據優勢。未來,純粹的大模型公司可能不再存在,而是像現在這一波公司一樣,控制操作系統和入口。

李建忠:說到這兒,我想起去年我曾參與一個辯論。當時有些人認爲大模型是操作系統,而我並不認可這個觀點,因爲操作系統的護城河其實很深,而大模型的護城河目前看來相對較低。未來的大模型仍然需要依賴操作系統來與各種應用和服務交互。像美團這樣的服務廠商,他們的 API 與操作系統的交互層面的協同,將爲模型廠商釋放出巨大的機會。那時,我認爲會出現非常有趣且蓬勃的應用,甚至可能會重塑整個手機生態。因此,今年應用領域特別值得關注。

產品經理 vs 程序員:AI 時代誰更重要?

唐小引:大家原本就對大模型公司的未來感到擔憂,繼剛纔的討論之後,似乎更加焦慮了。

李建忠:有些大模型廠商會變得更強大,但有些可能會選擇不再捲入模型的競爭,轉而投身於應用層面的開發。最終,剩下的大模型廠商可能會成爲行業的主導者,數量相對較少。

唐小引:這是創業公司還是大廠的機會?

李建忠:我認爲創業公司和大廠都有機會。OpenAI 本身也是從創業公司起步的,另外,還存在端側模型和服務器端集羣模型的區別。

黃東旭:但從使用角度來看,比如我們現在自己也在做 RAG 應用,大模型對我來說就是一個 API,類似於 OpenAI 的 RESTful API 規範。我把它當作一個插件來使用,目前已經集成了二十多種大模型提供商,可以隨時切換。所以我一直覺得,再過兩年,大家可能不再會頻繁討論大模型本身了,它會變成一個隱形的存在。

李建忠:我最早曾提出過一個觀點:從技術的生態位角度來看,大模型其實更類似於數據庫。今天的數據庫依然存在,具有價值,並在 IT 基礎設施中扮演着重要角色,但它並不像操作系統一樣是一個統治性的、處於頂端的存在。

唐小引:這個話題最近大家很關注。旭哥你作爲一個創業老兵,能否從創業的角度分享一下?當前對於大模型創業,很多人存在一些困惑。

黃東旭:我覺得首先,現在可能不要再去嘗試從零開始訓練大模型這種創業了。除非你一開始就能融到幾億美金,而且算力也是一大問題。所以,單純以模型本身爲創業方向可能並不是一個好機會。

其次,關於創業,無論是中國還是美國,雖然美國的風險投資看起來更活躍一些,但對於創業者來說,現在的門檻並不在於你有多少程序員,或者工程難度有多大,而在於你是否真的有一個好的創意或想法,能夠快速地解決一些問題。

舉個簡單的例子,編程這件事情,原來有很多痛點在傳統技術棧上比較難以解決,比如代碼補全。代碼補全看似是一件很簡單的事情,但如果能結合 AI,將用戶體驗提升十倍,這其實就是一個很好的創業機會。

我的第二個建議是,即使你看到了像 Cursor 這樣的產品,也不代表就沒有機會了。Windsurf 現在也發展得很快,增長迅速。所以,競爭的關鍵不在於你對 AI 的理解有多深,而在於對現有工作流程的理解有多深,知道哪個環節非常痛苦,但通過 AI 的能力可以迅速改善。

現在 AI 就像一個放大器,任何東西加上 AI,馬上就能登上 Hacker News 首頁,推廣速度非常快。因此,會有很多機會主義者開始嘗試這個領域,這可能是一個短期的“財富密碼”。但我覺得,經過兩三年的發展,可能會像移動互聯網或 iPhone 應用市場剛出來時一樣,最早出現了一些非常奇怪的應用,比如《憤怒的小鳥》,或者是那個“大鑽石”的 App,一點開就賣 99 美元,但其實什麼功能都沒有,很多人只是因爲新鮮感而購買。

現在 AI 領域也有很多這樣的“Killer App”原型,因爲 AI 的光環放大效應,會有很多機會出現。所以,在今天,產品經理可能比程序員更重要。

林詠華:在這一波基於大模型的 AI 創業浪潮中,成功的人會不會和移動互聯網應用成功的人很相似呢?

黃東旭:你看現在在美國這些非常受歡迎的 AI 創業公司的創始人,尤其是那些做應用的,他們其實都不是科學家,而是像 YC(Y Combinator)裡的一些中途輟學的年輕人。這些年輕人思維活躍,想法新穎,我覺得現在這一波創業者的背景基本都是這樣。

但問題在於,如果你深入探究他們的工程實現,有時會發現其實質量並不高,甚至有些糟糕。因爲 AI 已經大大降低了編程的門檻,正如 Sam Altman 去年所說,現在“一人公司”是完全可行的。如果真有好的想法,完全可以自己去嘗試啓動。但正如我之前所說,這可能是一種短期的投機行爲,不過現在確實有很多資金在涌入這個領域。

唐小引:這場對話之前,我自己嘗試用 AI 給《萬有引力》製作了一張海報,但我發現與專業的人類設計師相比,還是存在很大的差距。

黃東旭:這就取決於你的預期是什麼了。比如,如果你的目標是做出 100 分的作品,目前 AI 確實很難達到那個水平。但如果你要設計一個 60 分的東西,AI 可以幫你批量生產,這正是 AI 目前的優勢之一。

同樣,在編程方面,如果我是一個經驗豐富的程序員,我知道可能有 90% 的代碼並不需要太多思考。AI 對我最大的幫助在於,我不需要花費 90% 的時間去重複編寫這些冗餘的代碼,從而可以更專注於其他事情。設計和繪畫也是如此,以前 90% 的工作流程都是一些重複和冗餘的事情,現在 AI 幫我完成了這些,我就可以更專注於最重要的部分。所以,我認爲 AI 是一個個人能力的放大器,但這個放大器的效果取決於你自身的能力。如果自身能力較低,即使放大 10 倍也還是較低;但如果自身能力較強,放大後的效果就會非常顯著。

唐小引:剛纔旭哥提出了一個觀點,認爲在人工智能時代,產品經理的重要性甚至超過了程序員,建忠老師有着怎樣的思考?

李建忠:這個話題確實可以從多個角度來探討。首先,創業可以從幾個維度來分析。我們需要明確 AI 到底改變了什麼。就像當年智能手機的出現,催生了一批創業公司,它們的成功很大程度上得益於移動設備的獨特功能。例如,位置服務催生了美團外賣和滴滴出行,攝像頭功能則孕育了抖音和美圖秀秀等公司。移動支付的普及也造就了許多企業。

那麼,AI 究竟改變了什麼?我認爲它在三個層次上帶來了革命性的變化。上,我曾提到過這一點。

首先是計算範式的變化,這是自圖靈和馮·諾依曼以來計算架構的最大變革。顯然,英偉達等公司是這一範式變化的最大受益者。

第二個變化是開發範式的變化,即大模型改變了軟件開發的方式,無論是經驗豐富的程序員還是創業者,都能從這一範式的變化中獲得巨大的紅利。比如東旭剛纔提到的 Cursor 等工具,它們正在爲程序員帶來便利。

第三個變化是應用層面的交互範式。自然語言交互給應用層帶來的變化可能像 PC 設備的 GUI 和移動設備的觸控交互一樣,帶來一場革命。例如,結合大模型的 Agent 等技術,已經在交互範式上展現出一些潛力。去年蘋果在 WWDC 上展示的 Apple Intelligence,以及榮耀和智譜等公司在交互方面的探索,都讓我們看到了一些曙光。

當然,目前基礎設施、操作系統生態和服務 API 接口等生態建設還不夠完善。一旦這些條件成熟,我相信在未來兩到三年內,可能會出現像美團、抖音和滴滴這樣的快速崛起的企業。創業者需要在這三個層次的變化中選擇自己的賽道。我將這稱爲縱軸,即 Y 軸。另一個維度是橫軸,即 X 軸,也就是需求洞察。

美團王興曾有一個經典的分享,即所謂的“四縱三橫”,指的是互聯網領域或數字化領域中人類最大的幾個需求:社交、電商、娛樂和信息。這四個領域是主導性的,因爲它們是人類的剛需,也是最容易標準化的需求。當然,人類還有很多其他需求,如教育、醫療等。創業者需要選擇自己的領域,這時產品經理在需求洞察方面具有明顯優勢,能夠發現該領域存在的痛點,以及上一個時代無法解決的問題。

前段時間我與硅谷產品經理大師 Marty Cagan 進行了一次深入的交談,正好提到了這個話題。他說“需求洞察固然重要,但如果沒有技術的支撐,也是不夠的。你需要了解 AI 的能力範圍和技術的成熟度。”

例如,如今大家都羨慕抖音,但如果在2009年去做抖音,可能就會失敗,因爲那時正處於 3G 到 4G 的過渡期,技術成本高,視頻成本高,攝像頭也不夠清晰。那時許多做視頻的公司都失敗了。爲什麼抖音在 2016 年做視頻時能夠一飛沖天?這與技術的成熟度以及技術基礎設施的完善密切相關。因此,產品經理需要具備需求洞察力,但同時也要有技術的配合和工程師的洞見,需要清楚什麼是可行的,什麼是成本低廉的,什麼是能夠交付給大衆的。我認爲,當這兩者結合在一起時,就有可能誕生出許多偉大的應用公司。

黃東旭:全棧工程師要上陣了。

“數據質量>算力”?

唐小引:2024 年底引發全球關注的 DeepSeek V3 有一個標誌性的特點,那就是以較低的算力實現了與 GPT-4o 相當的性能。這讓大家關注的焦點從以往的算力轉移到了數據質量上,因爲數據質量能夠直接影響模型的質量。請幾位老師分別從各自的角度分享一下對這件事的看法。

林詠華:數據對模型質量的影響是相當顯著的。正如前面提到的 Scaling Law for Precision,當我們把大量好壞不一的數據都用於訓練模型時,實際上是在浪費模型的信息容量。對於 DeepSeek V3 來說,我認爲其計算優化相對比較直接。

首先,它本身採用了 MoE 架構,因此自然能夠大幅降低訓練所需的資源。其次,它採用了 FP8 等低比特進行訓練,但令人稱讚的是它公開了混合精度控制的方法。此外,這幾天大家也在討論一個話題,因爲DeepSeek 在數據方面實際上利用了 R1 來進行一些與蒸餾相關的學習,所以有人認爲如果要公平地看待,應該將 DeepSeek R1 模型所需的算力也加以考慮。回到這裡,我想說的是,天上不會掉餡餅。要訓練出一個優秀的模型,能夠使用更少的算力訓練出更好的模型,背後肯定有很強的邏輯和原因。正如剛纔所說的,有幾個重要的因素決定了它爲什麼能夠比其他模型少用五分之一或六分之一的算力就訓練出來。

黃東旭:其實我對 DeepSeek 並不感到意外,這非常符合中國團隊的風格。我們自己的經驗也表明,在系統工程和性能優化方面,我們並不比海外同行差。雖然我不是從事大模型研究的,但從我所看到的優化方向來看,比如流水線等技術,站在系統工程師的角度,我認爲這些都是很自然的優化。如果非要讓我評論這部分優化,我認爲在過去的機器學習社區中,訓練基礎設施還有很多可以改進的空間。大家可能一開始只是想讓它工作,認爲買硬件就能解決問題,先提高數據質量和算力規模,因爲買硬件是最簡單的。站在 OpenAI 的角度,它根本不需要省錢,但中國團隊可能不一樣。

首先,買卡本身就有困難,其次我們不是巨頭,沒有無限的資金,所以我們就會專注於如何優化工程上的這些事情。我認爲這種情況必然會發生,而且現在仍然有很大的空間。DeepSeek V3 絕對不會是最後一個,可能會有人在此基礎上繼續優化,直到最後。我認爲 NVIDIA 自己也可能在不斷優化,你看現在像 5090 這樣的產品,成本也在降低。所以,過去我們看到的這些成本問題,只是因爲這個行業現在競爭太激烈,進步太快了。買硬件或者直接複製已有的東西是最快的,但隨着精細化程度的提高,我相信成本還會持續下降,降到可能現在都無法想象的地步。

李建忠:我認爲數據的重要性無論是在人類學習還是機器學習中都是毋庸置疑的。高質量的數據無疑會帶來更好的學習成果。然而,目前我們採用的是一種廉價且統一的規模化方法來快速學習相關領域的數據,這主要是爲了從中篩選和標註出高質量的數據。實際上,這在某種程度上是有難度的,甚至可以說是不經濟的。不過,如果我們對比一下其他領域,比如剛纔提到的 DeepSeek 的例子,再看看編程領域,東旭剛纔也提到,目前編程領域在某種程度上表現得要比自然語言領域更好一些。

黃東旭:因爲它的範圍較小,確定性較高。

李建忠:我想說的是,它的數據訓練質量實際上比自然語言要高,因爲大量的開源數據,如 GitHub 等,都經過了編譯和驗證,它不像自然語言那樣存在許多問題。甚至去年有些學者的研究表明,一些幻覺現象實際上與互聯網公共領域中的髒數據和數據混亂性有一定的關係,至少某些類型的幻覺是這樣。包括 RAG 在內的一些方法,也是從數據層面來彌補模型訓練中的不足。因此,我認爲從長遠來看,數據質量是非常重要的。甚至可以說,如果有成本較低的方法能夠讓我們收集到高質量的數據,那麼即使數據量只是其他數據集的十分之一,但只要數據質量足夠高,性能也不會差。當然,關於 DeepSeek 也有很多說法,比如知識蒸餾等方法。但無論如何,至少證明了在小模型上使用一些高質量數據以及其系統工程能力的加持下,模型性能與數據質量之間存在極高的正相關關係。

黃東旭:其實順着這個話題,我正好也有一個小觀點,就是真正優質的數據,比如對我有用的數據是我的個人數據,但我絕對不會將我的個人數據公開或用於訓練公共大模型,所以這就是爲什麼我認爲未來不會出現一個通用模型,瞭解所有人並且非常厲害。這也是爲什麼我一直特別相信 RAG,RAG 不僅僅現在是作爲補充,而是一個非常必然的存在,因爲你肯定需要一個基礎模型,再加上你的個人數據,但這些個人數據我絕對不想公開出去。

李建忠:包括像 AI4Science,2024 年有兩個諾貝爾獎都授予了與 AI 相關的人物。

AI4Science 之所以發展迅速,令科學界震驚,與科學界數據的高質量密切相關。我認爲未來的垂直模型未必需要非常龐大,只要該領域的數據質量足夠高,它在該領域的進步速度可能會超過通用模型。

RAG 技術是“權宜之計”還是最終方案?

唐小引:2024 年,基本上做模型開發的都會用到 RAG,它成了大家的必選方案。建忠老師曾形容它是解決大模型落地“最後一公里”的關鍵。那麼,對於整個模型技術的發展來說,RAG 是權宜之計還是最終方案?

黃東旭:我覺得,起初 RAG 可能只是一個權宜之計,因爲那時的上下文窗口不夠大,大家就想通過數據補充來讓回答更加相關。但現在你會發現,現在的 RAG 已經不是簡單的原始版本,而是疊加了各種技巧,比如我的私人數據、各種相關的檢索,然後進行重排、二次檢索等等,RAG 本身的流程已經變得很複雜了。

我們今天討論的 RAG 已經與去年年初的 RAG 大不相同,現在大家發現即使現在的上下文窗口已經足夠大了,RAG 也不再僅僅是補充上下文窗口不足的問題,而是利用它來實現個性化體驗,正如我剛纔所說,有些東西我不想讓大模型來訓練,而是讓大模型爲我提供個性化的體驗,這就是爲什麼我認爲現在 RAG 是一個必經之路。

而且,我對大模型本身的要求已經不高了,只要是一個正常的大模型,能夠正常交流,具備一定的理解能力,能夠理解我提供的數據,大多數任務就能完成,比如函數調用,或者是一些代理的編排調度等。

我覺得AI 或者 RAG 的業務最終會變成一個數據業務,就是誰擁有了數據,誰存儲了數據,尤其是個人數據,誰就能賺大錢。比如像 Databricks,其實現在已經有不少收入來自於 RAG 或者 AI 的部分,但它並不是 AI 領域的大玩家,而是數據領域的大玩家,它擁有所有這些企業的數據。數據一直是有引力的,它會把應用往數據方面靠攏,大模型也是如此。

唐小引:所以最終,做 AI 的生意變成了做數據的生意。

黃東旭:AI 做出了模型,數據庫在賺錢。

李建忠:從那位黃教主(黃仁勳)的生意變成了這位黃教主(黃東旭)的生意。

唐小引:建忠老師,你有哪些觀點可以跟大家分享?

李建忠:我也想談談狹義的 RAG 和廣義的 RAG。狹義的 RAG 就是我們現在比較成熟的,或者以知識庫外掛的形式存在的,我認爲這種狹義的 RAG 可能是一個權宜之計。但正如東旭所說,數據對模型永遠是重要的。廣義的 RAG,其架構和實現技術可能會演變。因爲 RAG 的出現,某種程度上是由當前大模型技術架構演進的特點所決定的,大模型使用數據的方式就有好幾種,比如預訓練、微調、RAG 等。

但未來,如果我們的模型訓練能夠更多地進入實時訓練階段,比如,我們實時產生的共生數據、環境數據能夠隨時進入再訓練系統,當然這需要很多基礎設施的支撐,比如算力層的支撐,使得我們能夠快速地在端側模型、本地模型實現這種再訓練,我認爲這種實時的數據,廣義來講也可能是一種 RAG,它也是一種數據進入模型系統的方式,但它可能和今天狹義上的 RAG 已經不一樣了。

黃東旭:它可能更貼近模型本身了。

李建忠:總結來說,傳統那種拿一大堆數據塞給模型訓練完之後,後期只能用 RAG 來補充的模式,可能隨着模型架構的演進,Transformer 架構的演進可能會發生變化。在那種情況下,我認爲廣義上的 RAG 應該是會永存的,因爲數據永遠是機器學習最重要的一部分。

2024 是不是“大模型落地元年”?

唐小引:2024 年在大模型上有許多個“元年”的稱呼,接下來我們進入快問快答,各位老師可以投票並相應地分享自己的觀點。首先,大家稱 2024 年是大模型落地元年,這句話算實現了嗎?

黃東旭:不算。

李建忠:我猶豫了一下,我覺得從計算範式和開發範式來看,算,但到應用範式還不算,我覺得 2025 年應該會是大模型應用落地的元年。

黃東旭:我的理由也是一樣。

林詠華:我認爲對於語言模型來說,2023 年可以被視爲其元年。畢竟,我們已經看到許多語言模型被應用於各種場景,包括客服等。然而,對於多模態模型,我認爲它還沒有達到那個階段。

唐小引:那麼,2024 年被稱爲多模態的一年,基本上是這樣嗎?2024 年是否已經完全實現了多模態的目標?

林詠華:我認爲 2025 年多模態仍將是一個重點。目前,多模態模型在許多方面仍然存在明顯的不足,就像 2023 年上半年我們看到的語言模型那樣,很容易就能發現一些問題。因此,我認爲 2025 年仍需要在技術上沉下心來進一步打磨和提升。

李建忠:我對此部分甚至持稍微悲觀的態度,我認爲多模態可能還需要兩到三年的長足發展,才能真正成熟。我認爲標誌性的事件是出現能夠取代抖音、視頻號等平臺的新一代AI驅動視頻,實現與人類的智能交互,而不僅僅是簡單的生成。只有當這樣的應用出現,才能標誌着多模態真正進入智能時代。

唐小引:聽了您的分析,兩年內能實現嗎?

李建忠:我覺得比較困難。首先落地需要經歷一個從零到一的過程。

黃東旭:那我就更悲觀一些,我覺得兩三年內,多模態大模型的 AI 基礎設施能實現就很不錯了。首先是成本問題,其次是存儲和訓練。我覺得要開發多模態模型,不能沿用現有的基於語言模型的基礎設施。

李建忠:對於多模態,如果類比推算一下,2024 年就像 2017 年 GPT-1 出現的時間點。現在 2024 年的語言模型成熟度,相對於 2017 年已經過了 7 年。

唐小引:真的爲時尚早。

黃東旭:正如我之前提到的,數據的存儲是首要任務,如果大家現在擁有流量和入口,那麼首先要考慮的就是能採集到哪種模態的數據就採集哪種。如果採集不到,就開始合成,先將數據存儲起來。

李建忠:當然,如果我們稍微聚焦一些,比如在某些垂直領域,如果是專注於純視覺,未必需要整個多模態。比如自動駕駛就是一個垂直領域,或者具身智能在垂直領域中的應用,也許其視覺能力會迅速發展,因爲所需的數據訓練量並不大,但在垂直領域的能力建設卻可能很快達到應用水平。

多模態進展不足,移動互聯網時代“不同模態發展路徑”值得借鑑

唐小引:那我們更進一步地細化一下,2024 年多模態已經實現了哪些成果,在 2025 年又有望實現哪些目標?

林詠華:我認爲多模態領域需要對不同類型的多模態進行定義。一種是生成式多模態,如文生視頻、文生圖等真實模態;另一種是視覺-語言模型(VLM),它對語言、圖像和視頻進行理解,並進行文字輸出或其他形式的輸出。

目前來看,生成式多模態,尤其是閉源模型,在最近的發展中表現強勁。我們曾在 2024 年 5 月和 12 月進行過生成式多模態的評測,並且是請中國傳媒大學來評的。發現在年底的閉源 API 評測中,確實取得了明顯的進步,已經接近落地應用的需求。下一步的關鍵在於我們如何打造產品來應用這些技術。

不過,我剛纔提到,目前多模態領域在理解方面還存在差距,但在這一過程中,也有一些可以嘗試的領域。例如OCR(文字識別),在多模態大模型中表現優於傳統小模型。以前在小模型中,我們做 OCR 理解時,面對不同的表格,需要設計不同的模板,這很繁瑣,也難以用小模型來識別不同表格併產生不同的結果。但在多模態大模型中,這一領域表現確實不錯。雖然準確率還不是完全完美,但已經明顯優於小模型。因此,在商業流程中用到的許多表格等,都可以嘗試應用多模態大模型來處理。所以,我認爲還是有一些看到希望的地方。

黃東旭:實際上,音頻也可以算作一種模態。比如 OpenAI 的 ChatGPT Advanced Work Mode,雖然價格較高,但我的體驗已經非常接近實時交互了,因此我認爲它已經算是落地應用了。如果成本能夠降低,延遲進一步減小,它的應用空間和前景將非常廣闊。

李建忠:我認爲 2024 年多模態領域在某種程度上完成了統一,即通過 Scaling 的方式統一訓練,形成了統一的架構。大家在架構上達成了相對的共識,Transformer 架構仍然適用於多模態領域。但在此過程中,數據積累以及在應用方面的結合,如與語言、語音的結合,以及對各種模態混合模式的理解和生成能力等方面,仍需要進一步的發展和進步。

回顧互聯網以及移動互聯網的發展歷程,我們可以發現一些有趣的規律。互聯網和移動互聯網的早期都是以文本爲主,比如手機出現後,微博等以文本爲主的平臺迅速崛起。

然而,經過 3 到 5 年的演變,圖片類的內容開始快速崛起。雖然中國沒有 Instagram 這樣的平臺,但微信朋友圈在某種程度上承擔了類似的角色。隨後,抖音等視頻平臺的出現,基本上遵循了從文本到圖片再到視頻的發展路徑。這與人類接受信息的方式密切相關。因此,我認爲智能領域的發展大體上也會遵循這一規律,即先在文本上成熟,然後是圖片、視覺,最終發展爲混合模態。這一過程與成本、視頻編碼的容量以及訓練難度和算力等因素都有關係。但一旦爆發,其價值將遠超文本時代,就像抖音的價值遠大於微博一樣。

黃東旭:這個領域再加上機器人和具身智能等技術的融合,哇,前景真是令人期待。

推理元年,Agent 爲什麼沒有落地?

唐小引:2024 年 OpenAI 的 o1 模型推出了更強的推理能力,關於推理能力,大家認爲 2024 年我們取得了哪些進展,以及到 2025 年,甚至未來兩年,推理能力會朝哪些方向發展?

李建忠:我認爲推理能力的發展確實像一道曙光,但大家也不要期望過高,畢竟它的發展過程中肯定會有曲折。比如 OpenAI 目前將其思維鏈的數據保密,當然也存在各種破解手段,但這些數據究竟以何種方式結構化組織,思維鏈到底多長才是有效的,這些都是問題。比如像愛因斯坦這樣的科學家,他的思維鏈有多長?我們的推理能力能否模仿到那個水平?如果想要在某個單點上超越人類專家,比如博士生的研究,目前有些已經能做到,但從普遍性來看,我認爲還有巨大的差距,需要長期的訓練和思維鏈的發現,以及數據機制的完善。

但在一些簡單的應用方面,比如出差訂機票時,不需要在天氣、地圖和商旅應用之間來回切換多個應用,這種推理能力會非常成熟,能夠給普通人的生活帶來便利。以前再簡單的問題都需要人工介入,現在則不需要了,我對這部分的期待值很高。但對於更嚴肅的領域,比如涉及人類系統級的工程,例如建築設計、軟件工程,我認爲還是需要人類專家來介入、驗證和矯正。所以,我認爲推理能力在簡單應用方面會給人類生活帶來巨大變革,而在複雜領域則需要人類專家的參與。

黃東旭:像助理型的應用。

唐小引:推理能力的元年應該算是 2024 年還是 2025 年?

李建忠:從語言的定義來看,應該是 2024 年,因爲它已經出現了。

唐小引:其實推理能力的提升確實爲 Agent 應用開闢了更多可能性。大家之前一直在討論,2024 年被認爲是 Agent 的元年,但現在又出現了另一種觀點,認爲 2025 年纔是 Agent 真正落地的元年。那麼,究竟應該將哪一年定義爲元年呢?

李建忠:現在這種 Buzz Word 太多了。

黃東旭:從實際開發者的角度來看,我們不妨回顧一下 2024 年初的情況。那時,模型本身連穩定輸出一個 JSON 格式的能力都可能不具備,又怎能稱之爲元年呢?

李建忠:當時的模型連倒數 1 到 100 都會出錯。

黃東旭:所以我認爲至少要等到年底,大概能夠穩定輸出 JSON 模式,閉源和開源的問題纔算基本解決。有了這些能力之後,我們才能着手構建這種函數調用平臺,進而嘗試像 GPT-4 或 Claude 那樣,穩定地調用外部功能。我覺得 2024 年不能算作 Agent 元年,因爲在一些複雜任務的拆解方面,仍然存在諸多問題。

我自己也在做類似的工作,嘗試了各種方法,將任務拆解成兩三步,調用一些具體的能力,這還是可行的。但一旦任務變得較爲複雜,或者完成任務的路徑有很多時,就會發現需要採取各種手段進行微調,並且需要大量的工程引導,才能讓大模型輸出你想要的結果。

而且,這些結果還涉及到一些問題,比如如何調試,如何讓其持續生成可復現的結果,目前還沒有什麼最佳實踐,大家都在探索。所以,就像我說的,基礎能力已經具備,但還有無數的工程工作需要完成。或許 2025 年能成爲 Agent 元年吧。

Agent 的“千體大戰”

唐小引:2023 年和 2024 年,我們經歷了所謂的“百模大戰”。那麼 2025 年會不會迎來“Agent 的千體大戰”?另外,Agent 會是通向 AGI 應用的突破口嗎?

李建忠:我首先認爲 Agent 當然是 AGI 應用的突破口,它是智能時代的 App 形態。但是說到千體大戰,我覺得這個說法可能還有些保守,實際上可能會出現更多的 Agent。不過,正如東旭剛纔的觀點,2024 年還不能算作 Agent 的元年。雖然 2024 年也出現了一些 Agent,並且它們的表現帶來了一些小驚喜,但無論如何,很多 Agent 仍然基於相對簡單的編排,有些甚至只是之前 RPA(機器人流程自動化)的延續,即規則化的延續。它們並沒有真正達到我們所說的 AGI 層面的 Agent,具備強大的推理、判斷以及行動、執行工具等能力。正如剛纔討論推理時所提到的,我認爲這是非常重要的基礎。

黃東旭:我想補充兩點,我認爲有兩個非常重要的里程碑。首先,作爲從事 Agent 編排應用開發的人,我需要能夠方便地進行調試。其次,我需要能夠穩定地產生結果,從而實現迭代。如果這兩點還沒有準備就緒,那麼談論開發出多麼強大的 Agent 就爲時尚早。所以,在工具還不完備的情況下,討論所謂的“元年”是沒有意義的。

李建忠:例如,目前思維鏈的調試問題仍在探索中,推理過程的復現也是一個難題。我認爲,如果推理領域能夠再深入發展一年,或許能夠將 Agent 的能力提升到大衆可以廣泛應用的水平,從而達到所謂的“元年”。

大模型開源和閉源之間,還差最後幾公里?

唐小引:開源大模型在過去一年裡發展迅速,如今開源大模型的性能與閉源大模型相比,是逐漸接近還是有差距?

林詠華:這個問題比較容易回答。如果參考我們 2024 年 12 月 19 日發佈的榜單,其中涵蓋了語言模型的開源與閉源情況,以及多模態 VLM 的開源與閉源情況。在文生視頻和文生圖領域,基本上都是閉源模型佔據優勢,開源模型很難上榜。不過,在語言模型方面,開源模型得益於兩家公司的貢獻,分別是阿里和 Meta。從榜單中可以看到,在語言模型的前五名中,包括主觀評測等,這兩家公司的開源模型與我們的一線閉源模型,如豆包、o1 等,基本上處於同一梯隊。

尤其是在阿里方面,其開源模型與閉源模型,性能基本相當,可以說是相當良心的開源模型團隊。在多模態領域,情況也類似。例如阿里推出的 Qwen VL 模型,在多模態模型的測試中,與閉源模型的表現也基本處於同一梯隊。所以,我認爲開源模型之所以能夠取得這樣的成績,得益於一些公司持續的堅持打磨和開源工作。但在文生圖和文生視頻領域,基本上還是閉源模型佔據主導地位。

唐小引:從您的角度來看,2024 年開源模型取得了哪些成就?2025 年又將實現哪些進展?

林詠華:2024 年,開源大模型在兩個方面取得了顯著進展。首先,以語言模型爲例,開源大模型的性能已經接近閉源模型,極大地推動了多個應用場景的落地。

其次,開源大模型在技術創新方面也取得了突破。例如,智源打造的 Emu 多模態原生大模型採用了自迴歸的 token 方式,與現有的開源多模態模型不同。由於其開源,後續的研究者可以在其基礎上繼續進行技術迭代。

因此,開源大模型在 2024 年對產業創新和落地都起到了重要作用。展望 2025 年,我們期待國內外堅持開源大模型的企業能夠繼續推出更多優秀的成果。大模型的研發成本高昂,如果沒有持續的迭代和分享,許多創新很難由一家公司獨立完成。

唐小引:我們能否實現大模型的徹底開源?包括代碼、訓練數據等各個方面。

林詠華:可以實現。例如,Linux 基金會在去年 11 月份發佈了 Model Open Source Framework(MOF),它定義了三種開源等級,其中最高級別是“Open Science”。這一級別要求不僅開源模型的權重和代碼,還要開源訓練數據、測試代碼和測試數據,即所有內容都要開源。去年 11 月、12 月,我們率先發布了一個遵循這一標準的模型,當時還沒有其他模型達到這樣的開源水平。此後,我們也看到國內外的一些團隊正在申請 MOF 的最高等級。我們認爲這種開源等級的衡量標準非常好,因爲一旦有了等級標準,大家就會去追求更高的開源水平,從而促進開源工作的更加徹底。

李建忠:給林院長想了一句廣告詞,智源等於“智能的完全開源”。

具身智能的“元年”在什麼時候?

唐小引:2024 年下半年,我們能夠看到具身智能之風逐漸興起。智源近日發佈的 2025 年 AI 技術趨勢,把 2025 年定義爲具身智能元年。林老師能否講講爲什麼?建忠老師和旭哥對此贊同嗎?

林詠華:坦白說,我剛纔一直在聽大家討論多個“元年”,我覺得首先大家需要對“元年”有一個明確的定義。

如果按照剛纔兩位老師所說的定義,我覺得肯定達不到,因爲當然還是需要可落地、穩定的。我覺得具身智能元年對智源來說,因爲畢竟智源還是從創新的角度出發,所以我們爲什麼定義它是元年呢?是因爲首先我們會看到從 2024 年年底的這一波——

黃東旭:——Prototype(原型)出現了。

林詠華:是的,這些具身基礎大模型的出現,讓我們看到 2025 年將會有更多團隊能夠實現更優秀的具身基礎大模型,使其能夠適應更多不同的實體。這是第一個方面。第二個方面是,隨着大家對具身數據重要性的認識日益加深,我們注意到 2024 年年底,包括國外和國內的一些團隊發佈了具身開源數據集。沒有這些具身開源數據集,就無法構建更好的模型。我們發現這一共識已經開始形成。因此,2025 年,包括智源以及 CSDN 等,希望能夠推動更多具身數據的共建和開源。所以,從創新的角度來看,我們認爲這兩點非常重要。

李建忠:我比較看好具身智能的發展。原因在於,如果說 Agent 是數字領域智能的應用形態,那麼在物理世界,也就是原子領域,具身智能就是其應用形態。以自動駕駛爲例,其數據非常規整,即道路數據,且其智能目的相對簡單。在具身智能的許多人類場景中,如果不談特別泛化的能力,比如讓具身智能做保安、幫我疊被子、炒菜或者拿快遞,在這些相對狹窄的場景中,可能會出現非常有趣且成本低廉的應用。

這是中國得天獨厚的優勢。從這個角度來看,我反而對具身智能的未來更加樂觀。雖然它的應用範圍可能相對有限,但其價值將很快顯現出來。當然,在自動駕駛和無人機這兩個已被證明的領域中,具身智能的價值已經得到了體現。然而,當我們放眼更廣泛的具身智能領域時,我認爲已經出現了很好的發展前景。我相信今年將會迎來重大的發展.

黃東旭:如果按照我剛纔的標準,今年應該是行業達成共識的一年。雖然這一點是公認的,但我認爲距離實際落地還有許多工程上的挑戰。第一批先行者可能會面臨很多困難,所以我對這一點有些悲觀。最近這兩年開始從事具身智能的公司,可能起步得有點早。如果你現在是大一學生,等你研究生畢業時,具身智能可能會成爲一個可以找到工作的方向。但目前來看,因爲過去的歷史一直是人類主導的,達成共識的時間通常是最長的。但好處是現在已經達成了共識。剩下的工作,站在工程師的角度來看,我總是比較謹慎。大家可能討論的是創新,而我更關注代碼的複雜性,所以還需要更多的時間。

唐小引:這讓我想起一句話,說 CEO 負責吹牛,而 CTO 負責實現。

黃東旭:好在我們的 CEO 也是一位程序員。

未來的里程碑就在具身智能?

唐小引:當我們展望 2025 年及未來兩年,三位老師認爲會有哪些重要的里程碑?可以列舉出你們心中的前三名,並且可以談談爲什麼會有這樣的思考。

黃東旭:我肯定會從我正在做的事情的角度出發。AI 數據基礎設施這個行業將會趨於收斂,因爲在過去兩年中,這個行業熱度比較高,出現了各種各樣的向量數據庫,以及一些不太像樣或者可能是來蹭熱點的公司。但我認爲今年將會發生一些變化,技術棧和工具鏈將會趨於收斂。

第二點是,關於個人數據和行爲數據的定義以及標準化,將會開始慢慢形成行業標準。我對大模型本身的進步持有悲觀態度,但我覺得越來越多的注意力將會集中在這些“無聊但至關重要”的工作上。這是我今年希望能夠看到的里程碑,或者說趨勢。也就是說,不要追逐那些熱門的東西,而是去關注那些是否可調試、是否標準化、是否能夠幫助工程師更好地構建應用的基礎設施。我希望這個能夠實現,當然這不是一個預測,而是一個願望。

總之,我其實只想提出一點,那就是工具必須先準備好,而且這裡面的重點是數據,這是我們老本行。

李建忠:首先,我想談的第一點是,是否有類似移動端的《憤怒的小鳥》這樣的全民爆款應用,也就是 Killer App 的出現?當然,有些同學可能會認爲 ChatGPT 或者其它某些應用也算是Killer App,但我認爲它們還不算,它們更像是 iPhone 本身。當它結合了人的需求以及智能,也就是具備了手機目前不具備的能力,智能爲它提供了這種能力的時候,就會隨之誕生應用。比如《憤怒的小鳥》和《切水果》這些遊戲沒法在 PC 上玩得那麼痛快,但在移動端卻能瞬間感受到它的魅力。現在智能領域需要這種原生應用出現,並且不是效率類的,而是消費類的。

黃東旭:確實,它可能不會立即面向 C 端消費者,反而會先在一些個人生活助理或高管助理等細分領域應用。我現在特別期待我的助理能變成一個數字助理——這個領域相對比較狹窄,但能夠確定產生實際效果。

李建忠:關於第二點,如果我從推理的角度來看,類似於去年很多開源的多模態大模型那樣,推理領域是否會有更多的開源大模型涌現,推動整個行業捲起來,把推理技術推向一個非常成熟的階段,同時把成本降到最低,包括對算力的更有效利用,包括對 CPU、GPU、NPU 等不同架構的高效協同,我覺得在推理領域的開源發展是非常值得期待的。我看到很多公司已經在研究這一塊,雖然目前還沒有大規模的開源成果出現,我對此充滿期待。

唐小引:前面提到的第一個應用,到 2025 年能實現嗎?

李建忠:我對此抱有期待,認爲應該能夠實現,儘管它看起來似乎相對簡單。

唐小引:第二個推理應該是肯定會出現的吧?

李建忠:第二個推理的開源化是肯定會出現的。至於第三個,我依然看好具身智能的發展。因爲它的領域相對細分,而中國在這一領域的競爭力尤爲突出。最近,像 DeepSeek 和宇樹這樣的企業,就充分展現了中國在人工智能模型構建和製造業方面的強大能力,我覺得在具身智能上可能會有更大的突破。

黃東旭:在具身智能的具體應用場景中,可能會有一些場景率先取得突破。

李建忠:再出現一個像大疆那樣在全球範圍內廣受歡迎的企業,我覺得是有可能的。

林詠華:我就只總結一道里程碑吧。關於具身智能,實際上目前在中國,做人形機器人的公司應該有 80 家左右,甚至可能接近 100 家,大家的硬件等都不盡相同,小到靈巧手上的觸點排布、數量都不一樣。雖然網上有很多 demo 視頻,但坦白說,很多簡單的任務都難以保證其可重複的成功率。

不過,我們已經看到了一些希望。首先,我們希望有一天能夠打造出一個跨本體的具身智能大模型。之所以要跨本體,是因爲這麼多機器人的攝像頭位置、胳膊、手等都不一樣。有了這個跨本體、跨不同領域甚至跨不同行業場景的基座大模型後,我們就可以像今天大模型的微調一樣,在它進入某個產業領域或垂直領域時,只需收集少量數據,針對它要用的這一塊,無論型號還是其他,少量地進行微調,就能達到不錯的效果。當然,這肯定要依賴於一個非常強大的基座大模型。

黃東旭:就像 Llama 3 那樣的模型。

林詠華:這就是我所期待的,從模型層面來看。但從算力層面來說,其實我也期待着,雖然現在大家都在談論雲端協同,但我們有很多場景是不允許雲端協同的。因此,我期待能有推理加速和硬件創新,讓這些大模型能夠直接在端側運行,以避免因斷網等問題帶來的困擾。這也是爲什麼,包括智源在內的機構在過去做了很多優化工作,主要集中在訓練側,包括跨不同芯片的優化。而在 2025 年,我們會把很多重點放在推理側,尤其是跨不同端側芯片的優化上。這主要是因爲具身智能在端側的芯片選擇上,會有各種各樣的類型。

快就是好嗎?代碼的架構、擴展性還需要嗎?AI 幫助我們快速寫完代碼,但就是因爲太快,導致開發者根本就沒有時間去思考,讓生成的代碼變成一次性的代碼——用完即走。代碼應該要怎麼寫,要如何進行方法、模塊的劃分,這些都是需要時間去思考的。如何在這快與慢中去找到平衡點?

如果你和我一樣,有以上諸多的困惑,不妨一起來聽 2025 年 1 月 15 日(星期三)中午 12:00-13:30 CSDN《萬有引力》的年度特別討論:《2025 年,AI Coding 將如何演進?》