智源林詠華:大模型的競爭,差距核心在數據 | AGI 技術 50 人
【編者按】在中,我們有幸與北京智源人工智能研究院副院長林詠華深入對話,探索中美在 AI 大模型技術領域的差距與挑戰。林詠華,這位技術領域的傑出女性,從兒時對遊戲的別樣熱愛到成爲 IBM 中國研究院首位女性院長,再到智源的總工程師,她的成長曆程本身就是一部生動的科技探索史。本文不僅揭示了數據在大模型發展中的核心地位,還深入討論了多模態大模型的突破、開源與創新的平衡,以及 AI 技術的未來趨勢。林詠華以其獨特的視角和深刻的見解,爲我們呈現了一個充滿挑戰與機遇的 AI 世界。
作者 | 唐小引、鄭麗媛
出品丨AI 科技大本營(ID:rgznai100)
2022 年底,ChatGPT 的出現驟然攪亂了科技圈。短短几個月的時間,國內多位技術大牛陸續宣佈出山創業,全力押注 AI 大模型,由此開啓了人才搶奪大戰。中國大模型創業界裡有多位關鍵人物,如唐傑、劉知遠、黃民烈、楊植麟等人,都有一個共同點——來自智源的「悟道大模型」項目。
在 2022 年初,原 IBM 中國研究院院長、加入智源人工智能研究院擔任總工程師的林詠華,恰好經歷了這個巨大的浪潮。回想起那陣光景,她說:“能被稱作「大模型的黃埔軍校」,我們還是挺驕傲的。”
時間來到經歷過百模大戰的 2024 年,時維春節尾聲,Google 的 Gemini 1.5 Pro 和 OpenAI 的 Sora 先後發佈,世界被 Sora 席捲,風頭完全蓋過了 Gemini 1.5 Pro,而林詠華則同時注意到了它們,“震撼很大”,讓她不由得想如何再加快速度和步伐。“美國在大模型上發展的速度實在太快了。當然中國在大模型技術方面在不斷追逐和往前走,但人家也在不斷拉開跟我們的差距。”
於是,智源也在不斷調整戰略。一方面不斷加快圍繞多模態大模型的自主突破的步伐,另一方面通過打造數據、評測、AI 系統等開源開放的公共技術基座,幫助整個產業加快大模型的創新。
林詠華,生於廣東,與傳統印象中“成功技術女性”的形象可能有所不同,林詠華對底層技術的啓蒙,最初源於想要快速通關遊戲的渴望,學着黑進系統改代碼、改遊戲運行時的內存。後來,高考那年遠離廣東,報考了千里之外的西安交通大學,畢業後直接進入 IBM 研究院,從研究員一路當上了 IBM 中國研究院成立以來的首位女性院長。與現在很多 AI 技術人不一樣,林詠華的專業是信息與通信工程——主要進行時空二維的數字信號的研究,也會使用到結構簡單的神經網絡技術。加入 IBM 後,她一直從事系統領域的研究。2014 年深度學習興起,她很自然地就把多年的系統研究背景和深度學習結合,不斷在 AI 系統領域深耕。
在以上各種機緣巧合下,造就瞭如今的林詠華。不論是幼時的電腦遊戲,還是後來在 IBM 研究院和智源從事的 AI,林詠華對底層技術的熱愛,始終沒有改變——唯一改變的,可能是當初那個在黑白顯示器前翻閱《電腦報》、探索遊戲背後機制的少女,如今有了更大的夢想:想要托起中國 AI 的技術基座,給予全力向前衝的創新者們最大的底氣與支撐。
本期《AGI 技術 50 人》,我們在五道口智源大廈這座標誌性的橙房子裡,與林詠華進行了一次面對面的深入對話,一起聊她那充滿機緣與波折的技術人生,和在大模型波譎雲詭求突破的當下,智源行進的路線以及對於 AGI 發展的深入思考。
爲了玩遊戲,意外啓蒙對底層技術的熱愛
《新程序員》:之前聽您提到過,您母親買了臺 286 的兼容機對您影響很大,那是您第一次接觸編程嗎?
林詠華:不是,我最早接觸編程應該是小學五六年級的時候,在少年宮。那時我每週只能在有限的時間裡,在少年宮裡用 Apple II 學 LOGO 語言,就是那個小海龜,蠻有趣的。後來還在中華學習機上學習了 C 語言編程。
《新程序員》:那 286 是?
林詠華:286 是到我初二時,母親給我買的。那時學校裡並沒有電腦課,我就一期不落地買那個很厚一沓的《電腦報》來學,從頭翻到尾。主要當時 286 有兩個問題,一是內存不夠,只有 640K 的基礎內存和 384K 的擴展內存,二是電腦屏幕是黑白的。所以我就看《電腦報》,學着怎麼去虛擬一些更多內存出來、怎麼裝一些軟件、怎麼讓一臺黑白電腦去仿一些真彩。
《新程序員》:基本上只通過《電腦報》,還是說也有買一些其他的技術類書籍?
林詠華:我記憶中是《電腦報》多一些。因爲當時年齡小,沒想過要系統性地選哪一個語言,書籍類的沒太多印象,實際上我都有些忘記那些編程是怎麼學的了(笑)。至於《電腦報》,我也不是爲了學編程去看的,當時主要是想玩遊戲,但機子實在太低配,所以纔去研究怎麼 hack 能把彩色遊戲玩起來,讓需要更大內存的遊戲能夠跑起來。
後來能玩遊戲之後,我又沒耐心把遊戲玩完,就學着去改內存,經常把血量改得很高、錢改得很多之類的,像《大航海時代》我就靠不斷地 hack 全部玩通關了。但這也導致了我很快就對遊戲失去興趣了。
《新程序員》:可能更多是享受改遊戲的過程。
林詠華:對,我其實更享受改遊戲的樂趣。這也培養了我進入 IBM 之後,一直做的都是 AI 系統,這種很底層的操作系統和技術。我後來對這些東西的喜好,其實都源於最初的自己。
《新程序員》:所以說你最開始的編程啓蒙,很大程度上來自於母親的支持?
林詠華:是的。當時的 286 兼容機,要 3000 塊人民幣,這是母親半年的工資。我們家那個時候還是挺困難的,一家四口擠在一個不到 20 平米的小房子,平時都得省吃儉用。但媽媽對我和姐姐的培養十分用心,在那個絕大多數人都不知道電腦爲何物的年代,願意爲了培養我的興趣,給我買這樣一個“奢侈品”。爲了進一步讓我能“學以致用”,母親還在我高中時買了一臺能直接打印 A3 紙的愛普生打印機。你要知道當時才 1995 年,那麼大一臺打印機得幾千塊錢。
那時電腦剛開始普及,我媽媽要去一家酒店當財務主管,就想着能不能用電腦來幫她記賬、發工資等等。她對電腦一點都不懂,也不知道這是否可行,很異想天開地問我能不能幫她做一套這樣的軟件,自動生成財務報表、自動生成工資單。我感興趣嘗試做出這樣的工具。於是就一邊準備着高考,一邊自學用 FoxBASE(一個數據庫管理系統)開發了一套財務管理軟件,幫她記賬和發工資。買那臺愛普生打印機,也是爲了能打印當時那種長長的工資條。那是我人生中第一次系統性地實現一套軟件。
這段中學的經歷,讓我比同齡人都更早擁有編程的能力,也培養了我一生的興趣,就是編程。我真的很喜歡編程,哪怕到了現在,一旦有空,我都會去尋找一些新的開源項目去嘗試、給自己一些編程實現新想法的機會,我很享受這個過程,甚至會把它作爲一段忙碌過後對自己的“犒賞”。
大模型之戰,中美差距主要在於“數據”
《新程序員》:最近主要在忙什麼?
林詠華:從更長遠的角度來看,我們在考慮怎樣幫助整個產業去做更多技術上的突破,幫助大模型產業在中國更快、更穩、更好地落地。在這一過程中,勢必將面臨算力、數據、算法和評測等方面的挑戰,對此我們都進行了深入的梳理。
目前美國在大模型上發展速度很快。當然中國在大模型技術方面也在不斷追逐和往前走,但人家也在不斷拉開跟我們的差距。在這之中,我最大的感想是要如何繼續保持一個充足的信心和幹勁。儘管人家做得很快,但我們也要想着讓自己的步伐更快,去繼續拉近跟他們的距離。否則的話,中美之間的技術差距就會有可能會越來越大。
《新程序員》:之前你也提到過關於國內步伐以及與美國的差距,也考慮到了很多問題,有什麼解決方案嗎?
林詠華:其實每個技術或產品出來,我們都會思考,三駕馬車裡哪一架馬車又明顯拉開差距了。三駕馬車,主要是算力、算法和數據,我覺得每一次的衝擊都不一樣。
以 Sora 爲例,我看到更大的差距是在數據上。首先,從大家的分析以及一些反向工程的討論來看,Sora 對算力要求高,但並沒有到高不可攀的程度,它所需要的算力整體在一個合理範圍內。其次是算法,包括智源在內的各種不同團隊都在分析 Sora 使用的算法,而我們並不覺得它跟大家拉開了一個等級。智源本身也一直在做多模態大模型,我們在去年年底發佈的 Emu2 多模態模型中,也已經實現了文生視頻,而且是把視頻理解、圖片理解、文生圖、文生視頻多種能力實現在同一個模型中。因此,在算法方面可以說是中美齊頭並進。
然而,這次的 Sora 我們可以看到一個很明顯的數據差距。不論是大家看到的高質量的視頻生成,還是長達一分鐘、前後一致的視頻輸出,歸根結底本質就是海量的高質量視頻數據。我們有沒有海量的、如此高質量的、一定長度的視頻,可以用於模型去學習?不得不說,這是差距比較大的一個部分。
當然很多人會想到,咱們國內有很多短視頻平臺,互聯網平臺上也有大量的短視頻,不能用嗎?我覺得,想要訓練一個具備初步模擬世界能力的大模型,並不能全靠這類短視頻的。Sora 能有今天這個效果,能生成這樣高質量的視頻,其實就是一個大量數據的驗證、收集和試錯的過程。
《新程序員》:關於數據我們之前聽過兩個聲音。一個是像您提到的整個上下文的長度,楊植麟將其形容爲“登月的第一步”;另一個是,他們也將數據驅動作爲其核心競爭力的一部分,但他說長期來看數據可能沒辦法去形成一個很好的壁壘。對此您的看法是?
林詠華:總體來說,Sora 的出現驗證了一件事:如果我們擁有同一水平的算法能力,通過大量的高質量數據,是可以把模型能力推到這樣一個臺階上。所以短期內,我相信大家會通過開源或自研,開始去復現 Sora 的做法,並對此充滿期待。但長期的話,我們還是需要有更多的評判。
第一,這些視頻還限制在幾十秒到一分鐘,如果我把這個長度再拉昇一個量級,那麼它的技術路線是否會完全不一樣?這是一個問號。
第二,雖然現在大家認爲 Sora 能模擬世界,但這種模擬真的很初步。我們在每個視頻都能發現它有 Bug,所以實際上它並不是真正理解了物理世界。從邏輯準確性上,如果我們要求它的準確性達到 80%或 90%甚至 95%,需要用到的方法可能就要有很大改進了,還可能要牽扯到很多派生技術。
《新程序員》:這些年在國內 AI 圈子裡,涌現出了很多優秀人才,他們都在夜以繼日地奮鬥。但在整個大模型領域方面,我們仍始終處在一個追趕的狀態,要如何破局?
林詠華:大模型方面的很多科研創新,都需要重資的投入,做一次完整的實驗可能動輒要耗費上千萬。這就看我們敢不敢把最激進、沒被驗證過的東西拿去實驗,因爲有可能最後幾千萬就打水漂了。這也是爲什麼相對於那些資源雄厚的企業,我們的步子邁得比較小。
對於 OpenAI 這樣的機構而言,他們進行一次實驗的代價可能很小,但對國內的許多科研機構來說就是一項巨大的投入。因此,這決定了我們不得不去保守地採用一些別人驗證過的方法,然後在此基礎上進行適度的改進。如果試錯的成本很低,比如只要 1 萬塊錢,那我們完全可以去試一些前人從未想過的天馬行空。
《新程序員》:說到人才,在這兩年大模型之間,應該有不少人才從智源出去了吧?
林詠華:確實,這兩年外面大模型風起雲涌。像面壁劉知遠、月之暗面楊植麟等很多創始人,最初都來自於我們 2021 年做悟道大模型培養出來的一批學者。我們也挺自豪的,能爲國內的大模型團隊輸送了那麼多關鍵的技術領導者。
《新程序員》:微軟亞洲研究院之前也被大家稱作「黃埔軍校」,沈向洋還在 20 週年的時候說他已經釋然了。那麼智源對於人才流失,有糾結過嗎?
林詠華:因爲很多事情發生在 2022 年、2023 年,沒有給予我們太多糾結的時間。現在能被稱作「大模型的黃埔軍校」,我們還是挺驕傲的吧。「黃埔軍校」這個稱呼是兩面的,一面是說你培養的人才不錯,另一面是說你的人才流失。但從智源本身來看,對比人才流失情況和新人才的加入情況,實際上並沒有對我們造成明顯影響,反而還加劇了我們人才的集聚和增長。
智源正探索多模態大模型的突破和落地
《新程序員》:關於大模型,之前業界普遍比較追求更大的算力和更大的數據集,但你一直鮮明地提出,不要光追求大規模的參數量,更要追求質量。具體原因是什麼?
林詠華:大家做大模型都追求大,自然有它值得追求的地方,只是我更看重它的質量。我覺得只有當模型質量達到一定水平且通過了相關測試,它纔有機會真正被應用於產業,形成一個循環迭代的過程,從而才能真正走得遠。
目前大模型在實際應用中,存在幻覺或時效性等諸多問題,而企業不會採用質量無法滿足需求的技術。但有些問題不能僅靠大模型本身來解決,例如幻覺問題一般是統計概率的輸出,無法百分之百準確。因此,我們需要配套一些相關技術,讓大模型能更好地應對這些挑戰。
通常情況下,解決這些問題的方法有兩種。一種是通過增加模型參數量來提高準確率,另一種是利用其他技術來解決剩餘的差距。這兩種方法沒有絕對的對錯,而我個人傾向於第二種方法,因爲即使將模型參數量增加到很大,最終也只能在一定程度上提高準確率,同時各種成本也會成倍增加。
尤其是現在的多模態模型,它不像以前的語言模型,我們只要關注語言這一個模態就行了。在多模態應用中,還需要關注每個模態的質量以及模態之間的配對質量,對數據質量提出了雙倍甚至三倍的要求,這也就導致了當前多模態模型的質量尚未達到產業應用的標準。
《新程序員》:這是您當前最關心的、要去解決的問題?
林詠華:很多人說,去年是整個產業研發大模型的元年,而我認爲今年是大模型落地的元年。不過在這個過程中,要考慮語言模型怎樣去提升它的質量、配套不同的技術,還要降低它的落地成本,這意味着要通過一些框架進行優化,來減少它在部署時候的成本。
對於智源,我們肯定要先人一步去考慮很多事情,會格外關注多模態模型的落地,到底該怎麼落地,需要怎樣的技術去對它進行配套等等。
AGI 真正到來之前,確定未來的發展方向
《新程序員》:在 AI 技術方面,有什麼是當前大家沒有關注到、但可能會在未來產生重要影響的?
林詠華:從去年開始發生了很多變化,我們能感受到很多企業或團隊從狂熱者變得趨於理性。他們不再拿着大模型這個錘子找釘子,不再一味追求大模型能力的可能性,而是更明白自己到底想要什麼。這對於語言模型來說,是比較重要的一個變化。
至於未來,我們已經從語言模型的階段發展到了多模態模型,下一步的發展方向是如何將多模態模型應用到真實的物理世界中。作爲一名長期從事 AI 工作的人,我一直期待着能利用大模型來進行復雜的視頻場景分析。而爲什麼說多模態模型很重要,就是因爲它能夠去理解視頻。
當然現階段來說,Sora、Gemini 等對視頻的分析仍侷限於描述或識別畫面中的內容,但我認爲未來大模型將能分析更多結構化的信息,做到 video to action,這將是一個巨大的突破。
《新程序員》:也就是說,今年是多模態的關鍵一年,之前 Sam Altman 也說過這會是核心關鍵。那麼接着後面的 2025 年甚至未來幾年,又會有什麼方向嗎?
林詠華:我覺得多模態大模型還有許多未能解決的問題,包括如何能大幅提升模型理解圖片和視頻中的細節的準確率、如何更可控地生成長視頻內容。這些關鍵問題在現有的模型架構上,或許還需要創新纔能有明顯突破,我猜想的時間是得到明年了。
另一個脫離不了的重要問題是,如何提高大模型的推理效率。按照大模型當前的處理能力和處理時延,會限制它在許多場景中的應用。相比起工業場景,機器人領域所需要的時延相對沒有那麼嚴格。但即便如此,如果將一個如此龐大的大模型應用到機器人的腦袋中,它的處理速度可能還是無法滿足機器人所需的實時交互。這個問題十分重要,我們可能需要將模型處理時間提速上百倍甚至千倍。一旦能夠實現這一目標,將會帶來巨大的經濟效應。
《新程序員》:今年以來大模型的開源有許多爭議性的問題,比如套殼,身在局中的你,覺得有哪些誤區是非常致命、需要避免的?
林詠華:首先我覺得,大模型絕對要站在前人的基礎肩膀上繼續往前走。這也是如今大模型能快速發展的原因之一,如果每家企業都從頭訓練自己的模型,這將是大量的資源消耗和重複造輪子。所以,基於別人開源的模型做進一步迭代,應該是被鼓勵而不是指責。當然,既然站在別人的肩膀上往前走,那就清清楚楚地定義就好了。
比如像 Yi 開源大模型,他們在框架設計和算法上借鑑了前人的成果,但是重新訓練了模型,從我的角度來看,這並不算是套殼。他們爲此還投入了大量算力和重新打造了訓練數據。
在我看來,自主創新並不是去一味苛求從底到上全部自主實現,因爲你總會碰到某些算法或算子是別人研發的。在符合開源協議的情況下,基於開源項目繼續前行是值得鼓勵的。這樣做不僅能加快產業發展的步伐,還能避免重複造輪子和資源浪費。因此,我們不僅要鼓勵開源,還要鼓勵使用開源項目,這樣生態系統才能良性循環。
《新程序員》:DeepMind CEO Demis Hassabis 曾說,Google 之前模型閉源是因爲擔心惡意行爲者使用的風險和可能性,後來 Gemma 開源是因爲它是輕量級的小模型,沒有大風險。對於這個說法,你怎麼看?
林詠華:去年關於這個問題的討論就很多,而我認爲這符合一定的邏輯性。舉個例子,假設我開源了一個 20 億參數的模型,又開源了一個千億參數的模型。即使這兩個模型在開源時的智力水平上相同,但它們的二次學習能力完全不同,其中千億參數的模型具有更強的二次學習能力。
因此有些人會擔心,如果有人惡意讓這些模型學習一些不好或有目的的數據,千億參數的模型會學得更好。這種擔心具有一定邏輯性,並非無稽之談,但也沒有絕對的對錯,因爲所有的技術都有可能被惡意使用——如果因爲某種技術可能被惡意使用或造成危害而拒絕開源,那麼幾乎所有技術都不能開源。
《新程序員》:你覺得 AGI 實現的核心標誌是什麼,以及我們距離 AGI 還有多遠?
林詠華:說實話,我並沒有認真想過。我對 AGI 一個粗淺的想法是,它能去做任何我們想象不到的事情——既然想象不到,所以我也沒有特別考慮過這個問題。相比之下,我更願意思考大模型能如何更快迭代到真實的物理世界或產業裡去、處理效率如何更高、可能需要付出的技術或機會在哪裡等等。
科技領域的女性發展
《新程序員》:你這些年來尤爲關心女性本身,也經常在非本職的業餘時間去參加相關的女性活動,可以聊聊你的一些實際經歷嗎?
林詠華:其實在我的成長過程中的確遇到過一些事情,讓我感覺到,有時候同樣的一個機會,女性想要得到會更不容易。
舉個例子,我在大四的時候是年級第二名,有了保研資格,接着我就要去找導師。我選了一個學術很好的嚴師,查了他辦公電話後打了過去,這位老師知道我的來意後,給我的第一句話就是他一般優先招男同學。幸運的是,他還提到,“如果你想來,正好我這邊需要完成一個事情,你可以過來先試一試。”
我知道,這位老師可能對女生的動手編程能力沒有信心,但這又是做出優秀科研成果所必須的能力。所以我前後花了近兩個月的時間,期間還臨時自學了 C++,按照要求完成了老師給的一個文件處理相關的任務,最終成功被錄用了。
在過去這麼多年的職場發展,我經常會想起這件事情。在我看來,在很多同等的條件下,並不是女性不夠優秀,而是給到她們的機會就會本來就會少很多。這也是觸動我後來舉辦 IEEE Women in Engineering 等女性活動的主要原因。
《新程序員》:截至目前,已經是女性奮鬥百年的歷程了,有可能再奮鬥個百年大家就能實現將此作爲一件平常事來對待了。
林詠華:希望如此。說起來有一陣子我對智源還挺自豪的,當時智源內部 AI 系統、AI 大模型評測、語言大模型團隊的負責人都是女性。這讓我有一種感覺,只要你願意給予一個同樣的機會,很多時候女性做得一點都不比男性差。
寫代碼是多年保持技術敏感性的法寶
《新程序員》:有一個今年 AI 圈裡挺流行的問題,你典型的一天是怎麼度過的?
林詠華:7 點把孩子送到上學,7:15 開車到公司,然後工作到 9 點,這是我的黃金時間,期間我會盡量多處理一些當天要完成的事情。9 點開始我就要開很多的會,基本就一直到晚上 6 點,之後就是我自己的時間。
我一天最享受的時候,就是趁着不開會也不用趕 PPT 的間隙,去寫一些代碼、看一些論文。有時在網上看到有些相關的技術開源了,我都會特別高興地去下載和嘗試。我會把這個作爲對我自己的一個獎賞,因爲我特別喜歡寫代碼。
《新程序員》:那你上一次寫代碼是在什麼時候?
林詠華:我在假期期間寫了一個 Agent。我覺得 Agent 不是純粹由語言模型來扮演的,而是需要跟它有一個很好的平衡,否則會對整個安全系統產生很多問題,所以當時就弄了一個 Agent。最近,我在嘗試由 Saining Xie 團隊開源的 Cambrian-1 多模態大模型。這個模型很有特點,是在 vision encoder 這一層,嘗試使用多個能力各有特點的 encoder 進行融合,從而提升多模態大模型的視覺表徵能力。但這個模型當初是在 TPU 上面訓練,沒有開源基於 CUDA 的版本。我正在進行移植,嘗試在英偉達的 GPU 上實現訓練。
至於平時的話,由於我的時間很難保證,總是會被拉到各種會上,所以很多時候我寫代碼或者嘗試一些新東西,是爲了保持高度的技術敏感性,這對在高科技領域做好技術管理和技術判斷十分重要,這也是我多年形成的技術習慣了。
坦白說,我們汲取最新技術信息的途徑,首先是科技媒體的報道,第二是看論文,第三是代碼。而我覺得最終還是需要接觸代碼的,只有完整試過這個東西,你才能知道這篇文章缺了什麼或說錯了什麼。
《新程序員》:我們這代程序員可能受從小寫代碼的影響較多,很早就開始去接觸編程了。但現在 AI 發展下,編程幾乎成爲一個工具,對於 10 後來說,他們的編程啓蒙應該是一種怎樣的形態?
林詠華:以我觀察的我女兒爲例,現在對他們來說,並不需要完整地去學完一門語言才能開始去做某些事,而是看他們自己想做些什麼事情,然後哪裡不會就學,實在不行就問 GPT。
我也經常問我自己,像他們這一代還需不需要很完整地去學編程。我的答案是——邊走邊看。很多時候我都先鼓勵他們有自己的想法,確定想做一個什麼東西出來、爲什麼要做這個,我覺得這比怎麼做出來可能更重要。
大模型刷新一切,讓我們有着諸多的迷茫,AI 這股熱潮究竟會推着我們走向何方?面對時不時一夜變天,焦慮感油然而生,開發者怎麼能夠更快、更系統地擁抱大模型?《新程序員 007》以「大模型時代,開發者的成長指南」爲核心,希望撥開層層迷霧,讓開發者定下心地看到及擁抱未來。
讀過本書的開發者這樣感慨道:“讓我驚喜的是,中國還有這種高質量、貼近開發者的雜誌,我感到非常激動。最吸引我的是裡面有很多人對 AI 的看法和經驗和一些採訪的內容,這些內容既真實又有價值。”
能學習到新知識、產生共鳴,解答久困於心的困惑,這是《新程序員》的核心價值。歡迎掃描下方二維碼訂閱紙書和電子書。