李國傑院士“七問”DeepSeek
近日,DeepSeek的橫空出世,在全球科技領域激起千層浪,引發了從學界到業界的廣泛熱議與深度思考。《科技導報》2025年第3期刊發李國傑院士的《DeepSeek引發的AI發展路徑思考》一文,深入剖析了DeepSeek背後所蘊含的AI發展路徑相關問題,見解深入、專業、富於啓發,特此全文呈現給廣大讀者。
李國傑院士
01
爲什麼DeepSeek
會引起全球性的科技震撼
DeepSeek的橫空出世是人工智能(AI)發展史上新的標誌性事件。7天之內DeepSeek的用戶增長超過1億,創造了用戶增長速度新的世界紀錄。與此同時,芯片巨頭公司英偉達(NVIDIA)的股價單日暴跌17%,市值縮水5890億美元,創下美國上市公司單日最大損失紀錄。DeepSeek的崛起,打破了“高算力和高投入是發展人工智能唯一途徑”和“集成電路製程優勢=人工智能技術霸權”的迷信,引領人工智能行業進入以算法和模型架構優化爲主,同時高度重視數據質量與規模、理性提高算力的新時期。同時,DeepSeek的崛起也標誌着中國科技公司從“追趕者”變爲“規則改寫者”,在全球最關注的人工智能領域,以顛覆性的創新開始挑戰西方在AI領域的霸權。
全球人工智能龍頭企業紛紛擁抱DeepSeek,凸顯其不可抗拒的影響力。微軟最早宣佈將DeepSeek R1模型添加到其雲平臺Azure AI Foundry,開發者可用於構建基於雲的應用程序和服務。亞馬遜雲科技(AWS)、英偉達、超威半導體(AMD)等公司相繼宣佈在其AI服務平臺上部署DeepSeek V3和R1模型。不管某些國家政府如何抵制,少數媒體如何惡意中傷,上億用戶和衆多大公司根據DeepSeek的性價比和親身體驗做出選擇,主動融入DeepSeek生態。DeepSeek推出的高效率、低成本的推理模型和開源商業模式,將引領人工智能行業新潮流。
DeepSeek的V3和R1模型廣受歡迎,首先是因爲其在模型算法和系統軟件層次都有重大創新。DeepSeek-V3的模型參數量高達6710億,但由於採用了自主研發的混合專家模型(MoE)架構,每一層有256個細分領域的路由專家和1個共享專家,每次調用只激活約370億個參數,顯著降低了訓練計算成本。DeepSeek改進的多頭潛在注意力機制(MLA),減少了鍵值緩存開銷,把顯存佔用降到了其他大模型的5%~13%,極大提升了模型運行效率。DeepSeek-R1模型摒棄了傳統的監督微調(SFT),開創性地提出羣組相對策略優化(GRPO),直接通過強化學習從基礎模型中激發推理能力,大幅降低了數據標註成本,簡化了訓練流程。DeepSeek揭示了一個真相,即推理模型的開發比想象中更爲簡單,各行各業都可以做。DeepSeek的這些發明並非首次提出來的原始創新,但DeepSeek通過艱苦的努力把技術做到極致,在前人公開成果基礎上,登上新的技術高峰。
第3波人工智能興起後,美國政府、AI龍頭企業和投資界形成一個基本信念:發展人工智能需要高算力,而目前實現人工智能計算性能最高的芯片就是英偉達的GPU。因此,美國認爲只要控制GPU的銷售,就能在人工智能領域獨霸全球。特朗普在就職典禮第2天就簽署法案,啓動星際之門計劃,投資5000億美元,打造人工智能的基礎設施。可見,美國政府是把夯實人工智能的算力基礎當成維持其全球領導地位的關鍵。以英偉達爲代表的美國AI龍頭企業,有真老虎的一面,也有紙老虎的另一面。初生牛犢不怕虎的年輕的中國科技工作者,在紙老虎上戳了一個洞,讓世人看清了原來這隻老虎也沒有那麼可怕。DeepSeek震撼全球就是揭示真相的威力。
02
“規模法則(Scaling Law)”
是否已遇天花板
2020年1月,OpenAI發表論文《神經語言模型的規模法則》(Scaling Laws for Neural Language Models),提出規模法則:“通過增加模型規模、數據量和計算資源,可以顯著提升模型性能。”在AI領域,規模法則被一些人認爲是“公理”,俗稱“大力出奇跡”,OpenAI等龍頭企業和美國的AI投資界把它當成制勝法寶。
但規模法則不是像牛頓定律一樣經過無數次驗證的科學定律,而是OpenAI等公司近幾年研製大模型的經驗歸納。從科學研究的角度看,屬於一種對技術發展趨勢的猜想;從投資的角度看,屬於對某種技術路線的押注。人工智能是對未來技術的探索。技術路線存在多種可能,人工智能本身也存在多元化的目標,探索的道路上有很多高山需要去攀登,攀登一座高山的路徑也不止一條。把一種信仰或猜想當成科學公理,不是科學的態度。近幾年大模型訓練的實際效果表明,要獲得大模型性能的線性增長,必須在模型規模、數據量和算力投入上高指數性的增長,幾個月就翻一倍。從GPT-3到GPT-4,參數規模增加約10倍,用於訓練的GPU數量增加了近24倍,總計算量增加了近70倍。任何投入的高指數性增加都不可能是長久的,民航大飛機的速度提高、集成電路的主頻提高等都是到適當的時候就停止了,大模型也應該不會破例。
鼓吹“Scaling Law”的人,常以強化學習之父理查德·薩頓(Richard S.Sutton)的文章“苦澀的教訓”作爲追求高算力的依據:“研究人員曾一次又一次試圖通過精巧的工程設計來提升性能,但最終都敗給了簡單粗暴的‘加大算力’方案,歷史證明,通用方法總是在AI領域勝出。”但是,薩頓本人這兩年對“Scaling Law”做了深刻反思。他指出,雖然Scaling Law在提升模型性能方面確實有效,但它並不是解決所有問題的萬能鑰匙。AI系統不僅需要具備強大的計算能力,還需要具備持續學習、適應環境、理解複雜情境等能力,這些能力往往難以通過簡單地增加算力來實現。
但現在就說規模法則已經走到盡頭,也沒有根據。與人腦的神經連接複雜性相比,現在的人工神經網絡至少還有上百倍的差距。繼續擴大神經網絡的規模和增加訓練的數據量,是否還能取得與投入相稱的回報,要看今後的實際效果。但GPT-5遲遲不能問世,可能說明規模擴張的效果已經不太明顯。圖靈獎得主楊立昆(Yann LeCun)和OpenAI前首席科學家伊利亞·蘇茨克維(IlyaSutskever)等直言,規模法則已觸及天花板。
DeepSeek的出現,逼迫AI界嚴肅地思考這一技術發展路線問題:是繼續投入巨資追求高算力,還是另闢蹊徑,在算法優化上下更多功夫?DeepSeek的問世標誌着人工智能訓練模式從“大力出奇跡”的外延式發展階段,轉向集約化系統優化的內涵式發展階段。DeepSeek的成功並沒有否定算力在人工智能發展中的重要作用。實際上,由於用於推理的設備比訓練設備多得多,推理所需要的算力將來會成爲主要需求。但綠色發展是必須遵循的大原則,降低人工智能所需要的能耗一定是科技界的重要目標。
03
發展“通用人工智能”(AGI)
應選擇什麼道路
“通用人工智能”是一個模糊的沒有形成廣泛共識的術語。OpenAI公司追求的通用人工智能(artificial general intelligence,AGI)是其中的一種,指的是AI在多個領域以人類水平處理複雜問題的能力。人工智能界有一個莫拉維克悖論:“複雜的問題是易解的,簡單的問題反而是難解的。”從這個角度看,能解複雜問題的人工智能不一定就是通用人工智能。許多人認爲,能夠應對設計者預料之外的情況,才叫“通用”。因此,人工智能學術界更關注智能系統持續學習,自我改進的能力。人工智能的通用性不僅表現在對語言的處理上,還包括像人一樣基於常識和日常經驗與外部客觀世界互動的能力。
人工智能是對人類智能某一個方面的再現和超越。在科學技術領域,所謂“通用”一定是相對的,有一定的條件或範圍。我們要認識人工智能的侷限性,不能盲目追求能夠解決所有問題的人工智能。重點還是要根據實際需求,將相對通用的人工智能技術落地到各個行業,讓一定範圍內的人工智能技術見到實效。實現通用智能是一個漸進過程,不會因某項技術的發明就突然到來。人工智能的通用性已經比前兩波有明顯的提高,但在某些應用中通過圖靈測試只是階段性成果,目前的技術離真正的通用智能還有較大差距。
究竟如何才能實現通用人工智能,現在還沒有結論。DeepSeek和OpenAI都以發展“通用人工智能”爲目標,但走的路徑不一樣。OpenAI公司相信Scaling Law正在儘量擴大模型規模,希望先做出通用的基礎模型,再“蒸餾”出各行業可使用的行業垂直模型,走的是“由通到專”的路。除降低通用大模型的訓練成本外,如何在保持泛化能力的同時,提高在特定領域或任務上的性能和效率,仍是需要解決的問題。與之相反,DeepSeek走的是“由專到通”的人工智能發展之路,試圖在模型算法和工程優化方面進行系統級創新,爲在受限資源下探索通用人工智能開闢新的道路。所謂“混合專家模型”就是集小智爲大智,集專智爲通智。“小而精”的模型將人工智能的重點發展方向從面向企業的to B引向更貼近消費者的to C,從廣泛覆蓋的“橫向通吃”引向深入鑽研的“縱向做精”,讓更多的中小企業參與,可能會創造更大市場空間。但整合多個專用模型爲通用模型也需要解決諸多技術和工程問題,如模型間的接口、數據格式的統一、訓練時的負載平衡等。
通用與專用的競爭是技術發展的普遍現象,集成電路領域就有“通用”與“專用”10年交替演化的“牧本週期”。“由通到專”和“由專到通”的人工智能,究竟哪條路能走通,還要等歷史下結論。也許最後的結果是通專融合,專用多模型的“垂直做精”與通用大模型的“橫向擴展”形成互補,共同構建起智能時代的產業新生態。
04
發展人工智能
應該追求高算力還是高算效(高能效)
科技界公認圖靈是人工智能的奠基人,因爲他提出了可以用計算來模擬人類智能的科學假說。他的論文暗示,計算等價於智能。迄今爲止,人工智能取得的成果幾乎都離不開計算,大模型的出現將算力的作用擡高到前所未有的高度。我們需要認真地想一想,高算力是不是人工智能的本質要求?
發展人工智能的初始動機是模擬人腦,自然界進化了數百萬年的人腦是一個計算效率和能效極高的計算裝置,功耗只有20W左右。人腦的極低功耗是因爲採取了分佈式的模擬計算。目前計算機的高能耗是因爲採用軟硬件分離的數字計算。深度學習的奠基人辛頓(Hinton)教授最近提出“凡人計算”的新研究方向,採用與人腦一樣的存算一體模擬計算方式,顛覆了硬件與軟件分離的傳統計算模式。這類研究追求的是計算的高算效和高能效,從長遠來講,是發展人工智能的正確方向。
DeepSeek發佈以後,斯坦福大學華裔科學家李飛飛指導的團隊,以阿里通義千問(Qwen)模型爲基礎,通過“蒸餾”谷歌的AI推理模型Gemini 2.0 Flash Thinking Experimental,並結合SFT技術,使用16個英偉達H100 GPU進行了26min的訓練,以不到50美元的雲計算費用成功訓練出s1模型,其性能超過了Open AI的o1-preview模型。這種低訓練成本的模型的通用性可能不如大公司的模型,但令人吃驚的低成本可在某些應用上做到與高端模型相媲美的性能,顯示出人工智能的低成本化還有巨大的提升空間。
低成本是技術普及的基本要求,蒸汽機、電力和計算機的普及都是其成本降低到大衆可以接受時才做到的,人工智能肯定也會走這條路。目前,盲目地追求高算力導致人工智能的成本居高不下,阻礙了人工智能技術的大規模普及。DeepSeek不僅是技術突破者,更是規則重構者,開闢了一條低成本發展人工智能的可行之路。DeepSeek的崛起說明AI不再侷限於簡單堆砌算力,而是進入了以追求高算效和高能效爲主的新階段。
05
“開源”爲什麼有這麼大的威力
過去幾年,開源大模型的性能始終與龍頭企業的閉源大模型有一代以上的差距,這一次DeepSeek的性能追上了閉源模型,大大增強了開源社區的信心。圖靈獎得主楊立昆認爲,“對DeepSeek崛起的正確解讀,應是開源模型正在超越閉源模型”。這一評價十分中肯,因爲改變AI發展模式比單項技術的突破更重要。
雖然OpenAI爲代表的生成式人工智能紅紅火火,但多數企業不敢將本公司的數據交給私有AI平臺生成自己的垂直模型,因爲害怕提交的數據泄露自己的技術機密。人工智能之所以在各個行業難以落地,這可能是一個根本性的原因。DeepSeek的徹底開源模式破解了這一難題,現在全世界的企業和用戶都可以將DeepSeek提供的小而精的模型下載到本地,即使斷網也可以“蒸餾”出高效率的垂直模型,真正實現了技術的民主化。
長期以來,美國的AI龍頭公司誇大開源AI的安全風險,力圖通過監管抑制開源AI。事實上,開源模型對於全球AI供應鏈至關重要,發展中國家尤其需要開源AI技術。若美國繼續在這一領域設置障礙,中國就有望在開源AI全球供應鏈中佔據核心地位,從而使更多企業轉向中國企業而非美國企業的技術方案。
真正的AI競爭,不僅僅是技術和模型的競爭,更是生態系統、商業模式,以及價值觀的競爭。開源模型讓每個開發者都能輕鬆調用強大AI工具,不再受大公司的約束,AI的進化速度將會明顯提升。DeepSeek的開源戰略將向歷史證明:在這場AI競賽中,誰擁抱開源,誰就能贏得未來。
06
中國是否已具有
在人工智能上引領全球的實力
有人說ChatGPT是0到1的突破,而DeepSeek只是1到N的擴展,這種看法不符合人工智能發展的歷史軌跡。人工智能是一個沒有嚴格定義的研究領域,沒有智能和不智能的0到1界限,只有智能化水平不斷提高的發展過程。長期以來,中國人工智能領域的高技術企業大多重視應用創新和商業模式創新,追求的目標是快速盈利,很少參與核心技術創新。隨着經濟的發展和技術的積累,中國的企業已經開始具備原創的能力。DeepSeek的一鳴驚人可能是一個分水嶺,標誌着中國AI產業開始從“技術跟跑”向“技術並跑和領跑”邁進。
應當承認,中國在人工智能的基礎研究和核心技術上與美國仍然有差距。儘管在人工智能領域,中國的論文發表總數和專利授權數量超過美國,但是引用最多的源頭性論文大多出自美國,美國也是頂尖AI模型的主要來源國。斯坦福大學發佈的《2024年人工智能指數報告》顯示,2023年,美國有61個較著名的AI模型,中國只有15個。近幾年中國在AI領域快速追趕,進步速度喜人。根據《日本經濟新聞》對2020—2024年神經信息處理系統大會(NIPS)等3個機器學習頂級會議的統計,在3萬多篇發表的論文中,中國作者有8491人(美國14766人),過去4年中國作者增長了8倍。
人工智能不同於資本密集型和經驗積累型的集成電路產業,不僅要“燒錢”,更要“燒腦”,本質上是拼人的智力的新興產業。因此人工智能產業具有明顯的不對稱性,一個具有100多個聰明頭腦的小企業就可以挑戰市值上萬億的龍頭企業。DeepSeek只是中國具有潛力的人工智能企業之一。近日,《麻省理工科技評論》刊發了一篇題爲《關注DeepSeek之外的4家中國人工智能初創公司》的報道,指出階躍星辰(Stepfun)、面壁智能(Model Best)、智譜AI(Zhipu)、無問芯穹(Infinigence AI)4家企業同樣展現出不遜於DeepSeek的技術實力與全球競爭力。DeepSeek脫穎而出以後,人們盛傳“杭州6小龍”的故事(深度求索、宇樹科技、遊戲科學、雲深處、羣核科技、強腦科技6家初創AI公司)。迄今爲止,中國共有52家人工智能領域的獨角獸企業,約佔全球人工智能獨角獸企業的18%。這說明在AI領域,中國已經有一批創新型小企業進入世界前列,開始展現引領全球的實力。
DeepSeek的成功說明,在人工智能的發展中,算法優化和系統級工程優化不可或缺,優秀工程師發揮着至關重要作用。良好的工程教育體系,龐大的工程師隊伍是中國的一大優勢,我們要充分發揮這一優勢。進入並跑狀態以後,就不要過於在意與美國相差幾個月,可以你做你的、我做我的,比誰能發現正確的研究方向。年輕一代正在成爲科研的主力,我們要有信心在人工智能的研究和應用上走在美國前面。
07
中國實現人工智能自立自強
要如何發力
實現人工智能自立自強,不僅要靠國家的頂層規劃和充分的資金支持,更要做好人才的使用培養和產業生態的構建,克服重重困難的前提是要有自信心。DeepSeek成功的前提是其創始人樑文鋒的自信。他在接受採訪時說:“中國的AI不能永遠做跟隨者,必須有人走在前沿。OpenAI並非神一般的存在,他們不可能永遠領先。”80後、90後的中國年輕人已經開始平視美西方國家,具有“敢爲天下先”的勇氣和自信,他們是中國科技自立自強的希望。
DeepSeek的人才聘用模式打破了傳統,樑文鋒選擇了一條與衆不同的用人策略。他拒絕經驗豐富的人才,而選擇初出茅廬的年輕人。招聘時工作經驗超過8年者,直接拒聘;超過5年,需要特別出色才能入選。DeepSeek團隊成員幾乎全是國內頂尖高校的應屆畢業生或博士實習生。真正的創新往往來自那些沒有包袱的人,DeepSeek重用極致熱情、富有好奇心的年輕人,而不是習慣用經驗找答案的人,這種用人理念爲公司帶來了令人驚奇的創新動力,也對傳統的中國教育模式和人才聘用模式提出了警示。
要實現人工智能自立自強,最困難的是構建自主可控的產業生態。英偉達公司的“護城河”不是GPU芯片本身,而是統一計算設備架構(compute unified device architecture,CUDA)軟件生態。DeepSeek衝擊了CUDA生態,但沒有完全繞過CUDA,其生態壁壘仍然存在。從長遠來講,需要開發一套比CUDA更優秀的自主可控的AI軟件工具系統,重構AI軟件生態。實現這個目標需要周密的規劃和長期努力,相關部門應該下決心組織全國的開發力量,充分調動上下游企業的積極性,完成這件大事。
資金投入不是決定AI成敗的唯一因素,但最近幾年中國投資市場規模急劇萎縮值得警醒。CB Insights數據顯示,2023年,美國的AI投資達到672億美元,是中國AI投資的8.7倍。這一年美國的AI投資實現了22.1%的增長,而中國AI私人投資下降了44.2%。其中,在生成式AI私人投資上,2023年美國總投資額達到224.6億美元,中國僅爲6.5億美元。風險投資和私募基金對於支撐科創產業極爲重要,他們爲創新起到了資金池和擔保的作用。中美科創市場曾經並駕齊驅,但到2023年,中國科創投資額僅相當於美國的8%。儘管美國投資界追捧“大算力”,存在一定的泡沫,但正常的金融支持是發展AI的必要條件。政府和資本界要合力構建一個健康的科創金融生態,爲創新提供必備的動力,這樣纔會有更多DeepSeek出現。
產業生態的形成也要靠市場牽引。國家要通過政策引導,鼓勵在PC、手機和物端設備上推廣AI應用,增強國產GPU、CPU和國產軟件的市場佔有率。要高度重視芯片設計和大模型的開源戰略,爭取中國在全球人工智能的開源系統中起到主導作用。我們需要在有限算力條件下,通過算法和軟件的協同創新,充分發揮硬件的極致性能,挖掘所有可能的優化空間。國內的人工智能模型與美國的水平十分接近,我們要做好算力資源與人工智能平臺的優化適配,力爭中國的人工智能科研和應用走在世界前列。
作者簡介
李國傑,中國科學院計算技術研究所,研究員,中國工程院院士,研究方向爲計算機體系結構、並行算法、人工智能、大數據、計算機網絡、信息技術發展戰略等。
論文全文發表於《科技導報》2025年第3期,原標題爲《DeepSeek引發的AI發展路徑思考》。
>End
本文轉載自“科技導報”,原標題《李國傑院士“七問”DeepSeek》。
爲分享前沿資訊及有價值的觀點,太空與網絡微信公衆號轉載此文,並經過編輯。
未按照規範轉載及引用者,我們保留追究相應責任的權利
部分圖片難以找到原始出處,故文中未加以標註,如若侵犯了您的權益,請第一時間聯繫我們。
HISTORY/往期推薦
充滿激情的新時代,
充滿挑戰的新疆域,
與踔厲奮發的引領者,
卓爾不羣的企業家,
一起開拓,
一起體驗,
一起感悟,
共同打造更真品質,
共同實現更高價值,
共同見證商業航天更大的跨越!
——《太空與網絡》,觀察,記錄,傳播,引領。
·《衛星與網絡》編輯委員會
高級顧問:王國玉、劉程、童旭東、相振華、王志義、楊烈
·《衛星與網絡》創始人:劉雨菲
·《衛星與網絡》副社長:王俊峰
·微信公衆號(ID:satnetdy)團隊
編輯:豔玲、哈玫,周泳、邱莉、黃榕、娜娜
主筆記者:李剛、魏興、張雪松、霍劍、樂瑜、稻子、趙棟
策劃部:楊豔、若㼆、李真子
視覺總監:董濘
專業攝影:馮小京、宋偉
設計部:顧錳、潘希峎、楊小明
行政部:姜河、林紫
業務部:王錦熙、瑾怡
原創文章轉載授權、轉載文章侵權、投稿等事宜,請加微信:15910858067
商務合作;展覽展廳設計、企業VI/CI及室內設計、企業文化建設及品牌推廣;企業口碑傳播及整體營銷傳播等,請加微信:13811260603
雜誌訂閱,請加微信:wangxiaoyu9960
·衛星與網絡各分部:
成都分部負責人:沈淮
長沙分部負責人:賓鴻浦
西安分部負責人:郭朝暉
青島分部負責人:江偉
·衛星與網絡總部負責人:農燕
·會議活動部負責人:喬顥益、許克新、董今福
· 投融資及戰略層面合作:劉雨菲
·本平臺簽約設計公司:一畫開天(北京)文化創意設計有限公司
· 航天加(深圳)股權投資基金管理負責人:楊豔