7天暴漲58%!DeepSeek爲何震撼全球?李國傑再論第三波人工智能浪潮
中國基金報記者 尹振茂
2025年1月27日至2月12日,Wind DeepSeek指數(1月26日發佈)7個交易日暴漲58.29%,DeepSeek概念股並行科技同期暴漲234.73%。
DeepSeek指數和相關個股股價狂飆的背後,是AI(人工智能)大模型公司DeepSeek的橫空出世,不僅震撼了美國,引發美國AI芯片巨頭英偉達股價單日暴跌17%,同時也震撼了全球。
2023年4月,在美國OpenAI推出ChatGPT3.5大模型引發人工智能熱之後,中國基金報記者曾專訪了中國工程院院士、前中國科學院計算技術研究所所長、時任中科曙光董事長李國傑(參閱)。
李國傑當時指出,因爲廣泛的滲透性,人工智能將成爲21世紀起決定性作用的技術,未來幾年一定會出現新的標誌性事件。
近日,中國基金報記者再次專訪中國工程院院士李國傑,請他詳細闡釋了DeepSeek爲什麼會震撼全球。
在此次專訪中,李國傑表示,DeepSeek的橫空出世,是世界第三波人工智能浪潮中新的標誌性事件,可以和2023年初OpenAI發佈ChatGPT3.5相媲美。DeepSeek推出的V3和R1模型既是技術上的重大突破,也是發展模式上的顛覆性創新。
DeepSeek帶來的最大“震撼”,是闖出了一條發展人工智能的新路,中國從“追趕者”變爲“規則改寫者”,第一次在覈心技術領域以顛覆性創新而非規模優勢挑戰西方霸權。
在李國傑看來,DeepSeek的崛起動搖了硅谷與華爾街的基本信念,其對美國AI巨頭的衝擊不是短期的,而是中長期的。這種衝擊堪比1957年蘇聯衛星上天的“斯普特尼克時刻”,迫使美國重新審視其技術霸權的基礎。
李國傑指出,DeepSeek不僅是技術突破者,更是規則重構者。DeepSeek的崛起說明AI不再是簡單堆砌算力的暴力遊戲,而是進入了以算法和模型架構優化爲主,同時高度重視數據質量與規模、理性提高算力的新時期。DeepSeek的開源戰略將向歷史證明:在這場AI競賽中,誰擁抱開源,誰就能贏得未來。
李國傑認爲,中國人工智能企業正在重構全球AI供應鏈版圖。就整個人工智能領域而言,在有些研究方向上中國還在跟跑,但在推理模型等許多方向上,中國和美國已經處於你追我趕的並跑狀態。在人工智能賽道上,中國不止DeepSeek一家,而是有一批創新型科技企業進入全球第一梯隊。
不過,李國傑也強調,DeepSeek的成功並沒有否定算力在人工智能發展中的關鍵作用。實際上,由於用於推理的設備比訓練設備多得多,推理所需要的算力將來會成爲主要需求。不論是算力、數據還是算法,中國與美國仍然有差距。要打贏這場事關國運的科技戰,還要做長期的艱苦努力。
以下是此次專訪全文:
世界人工智能發展史上
新的標誌性事件
中國基金報:DeepSeek的橫空出世,是否可以和2023年初OpenAI的ChatGPT3.5類比?是否是世界人工智能發展史上新的標誌性事件?如果是的話,其標誌性意義是源於技術上的突破,還是發展模式上的創新?
李國傑:DeepSeek的橫空出世是世界人工智能發展史上新的標誌性事件,可以和2023年初OpenAI發佈ChatGPT3.5相媲美。DeepSeek推出的V3和R1模型既是技術上的重大突破,也是發展模式上的顛覆性創新。
有人說ChatGPT是“0到1”的突破,而DeepSeek只是“1到N”的擴展,這種看法不符合人工智能發展的歷史軌跡。人工智能不同於物理學等基礎理論研究,物理學中的牛頓定律和愛因斯坦發現的相對論是“0到1”的突破。但人工智能是一個沒有嚴格定義的研究領域,沒有智能和不智能的“0”和“1”的界限,只有智能化水平不斷提高的發展過程。
從1943年提出神經元計算模型以來,人工智能經歷了漫長的探索過程。基於神經網絡模型的第三波人工智能浪潮已經出現好幾次里程碑式的重大事件。
2012年在上,Hinton等人研製的AlexNet卷積神經網絡取得了顯著成功,這可以看作第三波人工智能浪潮的起點。
2016年DeepMind研製的AlphaGo圍棋程序戰勝世界冠軍李世石和柯潔,引起了全世界的關注。
2017年Google的7名人員提出Transformer模型,提出自注意力機制,成爲深度學習的主流模型。
2018年DeepMind發佈了AlphaFold,在蛋白質結構預測中展示出驚人的預測能力,開闢了AI for science的新方向。
2023年OpenAI發佈ChatGPT3.5,引領了以大語言模型(LLM)爲標誌的生成式人工智能新浪潮。
DeepSeek的橫空出世與上述重大事件一樣,都是第三波人工智能浪潮的里程碑事件。
爲什麼說DeepSeek發佈V3和R1模型是與OpenAI發佈ChatGPT 3.5一樣的里程碑事件?
從DeepSeek發佈後用戶和大企業的狂熱接納情形,可以看出其巨大影響力。ChatGPT發佈後兩個月用戶就達到1億,全球爲之驚歎。2025年1月20日,DeepSeek-R1發佈上線,在沒有任何廣告投放情況下,7天之內用戶增長超過1億,創造了用戶增長速度新的世界紀錄。DeepSeek在蘋果應用商店的下載量佔據了157個國家/地區的第一名位置(包括美國),在相同時間段超過ChatGPT首次發佈時的下載量。
GitHub是全球最大的代碼託管網站,GitHub的星(Star)數(即GitHub平臺項目頁面上的Star按鈕被用戶主動點擊的次數),代表項目受歡迎的程度和社區的認可度。目前,DeepSeek的GitHub星數已超越了OpenAI。
全球人工智能的龍頭企業紛紛擁抱DeepSeek,也凸顯了其不可抗拒的影響力。微軟最早宣佈將DeepSeek-R1模型添加到雲平臺Azure AI Foundry,開發者可用於構建基於雲的應用程序和服務。接着,AWS(亞馬遜雲科技)、英偉達、AMD等公司相繼宣佈在其AI服務平臺上部署DeepSeek-R1模型。
不管相關勢力如何抵制,少數媒體如何惡意中傷,公司和用戶都是根據DeepSeek的實際效果和親身體驗做出選擇,DeepSeek推出的高效率、低成本的推理模型和開源的商業模式,必將引領人工智能行業新潮流。
DeepSeek的V3和R1模型廣受歡迎,是因爲在模型算法和系統軟件層次都有重大創新。
首先是算法層次的創新,DeepSeek採用了新的混合專家架構(MoE),每一層有256個路由專家和1個共享專家。在每次前向傳播過程中,只激活一小部分專家來進行計算。雖然DeepSeek-V3是一個671B參數的大模型,但模型的任何函數調用和傳遞只使用約37B參數,使其訓練成本大爲降低。
在算法層面,DeepSeek還有一個降低成本的重大創新,即低秩注意力機制(也稱爲多頭潛在注意力機制)。這一發明對巨大的注意力機制矩陣進行了壓縮,減少參與運算的參數數量,把顯存佔用降到了其他大模型的5%~13%,極大提升了模型運行效率。
DeepSeek更重要的創新是在推理層面。OpenAI發佈的o1推理模型是閉源的,其他的企業都搞不清楚OpenAI是如何基於預訓練模型構建推理模型的。通過開源方式,DeepSeek把實現低成本推理的奧秘告訴全世界,爲發展推理模型開闢了一條新路。DeepSeek揭示了一個事實,即推理模型的開發比想象中更爲簡單,各行各業都可以做。
傳統的強化學習需要大量標註數據,成本很高。DeepSeek另闢蹊徑,採用全自動的強化學習取代監督微調和基於人類反饋的強化學習(RLHF),用機器直接推測的方式來預測分數,顯著提高了強化學習的效率。
與DeepMind和OpenAI一樣,DeepSeek的貢獻主要還是工程創新和優化,在人工智能的基礎理論上並沒有重大突破。但這些創新大大降低了推理成本,打破了對高算力的迷信,對人工智能產業的發展有重大意義。
DeepSeek的科技震撼波及全球
中國基金報:2月3日,中國醫學科學院學部委員、生物學家饒毅發表了題爲《鴉片戰爭以來,中國對人類最大的科技震撼:DeepSeek》的文章,認爲“1840年至今的185年來,在科學和技術相關的方面,中國出現的對人類最大的震撼是DeepSeek”。饒毅教授對DeepSeek的評價是否過於誇張?
李國傑:饒毅教授稱“DeepSeek是鴉片戰爭以來中國對全世界最大的科技震撼”,我認爲,這一評價有一定的道理,並非誇張。中國在航天、高鐵等領域都取得過震驚世界的科技成就,大疆無人機、宇樹機器人在全球的市場佔有率高達60%以上,但這些成就並沒有引起全球性的科技震撼。
DeepSeek掀起這麼大的衝擊波,是美國政府和一些龍頭企業妄圖以人工智能獨霸全球夢想破滅造成的。特朗普上臺第二天就簽署法案,啓動星際之門計劃,要投資5000億美元,打造人工智能的基礎設施。可見,美國政府把人工智能當成美國稱霸世界的頭等大事。
DeepSeek帶來的最大“震撼”,是從中國杭州殺出一匹黑馬,闖出一條發展人工智能的新路,中國從“追趕者”變爲“規則改寫者”,第一次在覈心技術領域以顛覆性創新而非規模優勢挑戰西方霸權。
DeepSeek在模型算法和工程優化方面所進行的系統級創新,爲在受限資源下探索通用人工智能開闢了新的道路。傳統大模型遵循的是一條“由通到專”的人工智能發展思路,與之相反,DeepSeek追求的是“由專到通”的人工智能發展路徑,通過引領人工智能技術生態的形成,邁向全社會分享的通用人工智能之路。
雖然以OpenAI爲代表的生成式人工智能紅紅火火,但多數企業不敢將自己的數據交給私有AI平臺生成自己的垂直模型,因爲害怕提交的數據會泄露自己的技術機密。人工智能之所以在各個行業難以落地,這可能是一個根本性的原因。
DeepSeek的出現化解了這一難題。歐洲、印度等國人工智能的發展一直落後於美國和中國,現在可以將DeepSeek提供的小而精的模型下載到本地,即使斷網也可以“蒸餾”出高效率的垂直模型,這讓他們看到了希望。也就是說,DeepSeek的科技震撼,不僅僅是對美國,也是對全球的震撼。
人工智能不同於資本密集型和經驗積累型的集成電路產業,不僅要“燒錢”,更要“燒腦”,本質上是比拼人的智力的新興產業。因此,人工智能產業具有明顯的不對稱性,一個具有100多個聰明頭腦的小企業就可以挑戰市值上萬億美元的龍頭企業。
DeepSeek給全球的震撼具有顛覆性,但DeepSeek只是中國具有潛力的人工智能企業之一。
近日,《麻省理工科技評論》刊發了一篇題爲《關注DeepSeek之外的四家中國人工智能初創公司》的報道,指出階躍星辰(Stepfun)、面壁智能(Model Best)、智譜AI、無問芯穹(Infinigence AI)四家企業同樣展現出不遜於DeepSeek的技術實力與全球競爭力。
中國人工智能企業的崛起,正在重構全球AI供應鏈版圖;開源模型將基礎模型層轉化爲普惠資源,正在爲應用開發者開啓創新之門;算法革命正在大幅度降低訓練成本,打破了單一依賴算力堆砌的迷信。
DeepSeek的成功
似乎預示着“小力也可出奇跡”
中國基金報:DeepSeek的巨大影響是否預示規模法則(Scaling Law)已經走到盡頭?“大力出奇跡”的技術路線是否還能延續?算力究竟在人工智能的發展中起什麼作用?
李國傑:2020年1月,OpenAI發表論文《神經語言模型的規模法則》(Scaling Laws for Neural Language Models),提出規模法則:“通過增加模型規模、數據量和計算資源,可以顯著提升模型性能。”
在AI領域,規模法則被認爲是“公理”,俗稱“大力出奇跡”,OpenAI等龍頭企業和美國的AI投資界把它當成制勝法寶。
但是,規模法則不是像牛頓定律一樣經過無數次驗證的科學定律,而是OpenAI等公司近幾年研製大模型的經驗歸納。從科學研究的角度看,屬於一種對技術發展趨勢的猜想;從投資的角度看,屬於對某種技術路線的押注。人工智能是對未來技術的探索,技術路線存在多種可能。人工智能本身也存在多元化的目標,探索的道路上有很多高山需要去攀登,攀登一座高山的路徑也不止一條。把一種信仰或猜想當成科學公理,不是科學的態度。
鼓吹規模法則的人,常常以強化學習之父(Richard S. Sutton)的文章“苦澀的教訓”作爲追求高算力的依據:“研究人員曾一次又一次試圖通過精巧的工程設計來提升性能,但最終都敗給了簡單粗暴的‘加大算力’方案,歷史證明,通用方法總是在AI領域勝出。”
但是,薩頓本人這兩年對規模法則做了深刻的反思。他指出,雖然規模法則在提升模型性能方面確實有效,但它並不是解決所有問題的萬能鑰匙。AI系統不僅需要具備強大的計算能力,還需要具備持續學習、適應環境、理解複雜情境等能力,這些能力往往難以通過簡單地增加算力來實現。
但現在就說規模法則已經走到盡頭,也沒有根據。與人腦的神經連接複雜性相比,現在的人工神經網絡至少還有上百倍的差距。繼續擴大神經網絡的規模和增加訓練的數據量,是否能取得與投入相稱的回報,還要看今後的實際效果。
但GPT-5遲遲不能問世,可能說明規模擴張的效果已經不太明顯。圖靈獎得主楊立昆(Yann LeCun)和OpenAI前首席科學家伊利亞·蘇茨克維(Ilya Sutskever)等人直言,規模法則已觸及天花板。
DeepSeek的出現,逼迫AI界嚴肅地思考這一技術發展路線問題:是繼續燒錢豪賭,還是另闢蹊徑,在算法優化上下更多功夫?
DeepSeek的成功似乎預示着“小力也可出奇跡”,或者說“算法和模型架構優化也可以出奇跡”。隨着時間的推移,AI擴展方法也在發生變化:最初是模型規模,後來是數據集大小和數據質量,現在是推理時間和合成數據。
DeepSeek推出的V3是預訓練模型,R1是推理模型,對全球衝擊比較大的主要是R1模型,某種意義上是把人工智能的關注重點轉移到推理計算上。所謂規模法則也可以表現爲在探索推理時間的擴展行爲,即模型在推理階段(而非訓練階段)通過增加計算資源來提升性能。
DeepSeek的成功並沒有否定算力在人工智能發展中的關鍵作用。實際上,由於用於推理的設備比訓練設備多得多,所以推理所需要的算力將來會成爲主要需求。通過算法優化提高模型的效率十分重要,走節省算力的綠色發展之路是我們的基本選擇,但算力肯定是解決人工智能問題的必要條件,也不可忽視。
DeepSeek將對美國AI巨頭
產生中長期衝擊
中國基金報:爲什麼DeepSeek對英偉達的股價會產生這麼大的衝擊?這種衝擊是短期還是中長期的,背後的深層邏輯是什麼?
李國傑:第三波人工智能浪潮興起以來,美國政府和投資界形成的基本信念是:發展人工智能需要高算力,而目前實現人工智能計算性能最高的芯片就是英偉達的GPU。因此,只要控制GPU,美國就能在人工智能領域獨霸全球。
DeepSeek的崛起動搖了硅谷與華爾街的基本信念。由於市場對高端GPU芯片需求下降的擔憂,英偉達股價單日暴跌17%,市值縮水約6000億美元,創下美國上市公司單日最大損失紀錄。
這種衝擊堪比1957年蘇聯衛星上天的“斯普特尼克時刻”,迫使美國重新審視其技術霸權的基礎。
但DeepSeek是否會真正降低對算力的需求,現在還不能下結論。
1865年,經濟學家傑文斯提出了一個關於技術進步的悖論:“當技術進步提高了效率,資源消耗不僅沒有減少,反而激增。”福特的流水線讓汽車製造更快、更便宜,但最終帶來的卻是全球石油消耗的暴漲。有時,單個產品越便宜,反而會刺激整體採購量增加。人類對智能產品的需求肯定會持續增加,即便單個產品算力成本下降,整個社會的算力消耗可能還會增加。
DeepSeek對“高投入、高算力”的研發路徑會產生一定衝擊,有些正在部署的智能計算中心猶豫觀望,部分AI上游算力市場可能會受到一定負面影響,美股科技巨頭的超額估值可能會下調。
但另一方面,DeepSeek模型的低成本優勢有利於AI下游應用場景的快速落地,有助於加速相關產業的智能化進程,爲機器人、自動駕駛汽車、智慧城市、智能辦公、消費電子等下游板塊帶來利好。
DeepSeek將AI的應用引向C端市場,更多企業和普通用戶都會成爲AI的消費者,計算資源的需求也會隨之水漲船高。
DeepSeek對美國AI巨頭的衝擊不是短期的,隨着博弈的進一步發展,一定會對其產生中長期的影響。因爲AI應用對高端GPU需求降低,讓更多的芯片和整機企業參與競爭,人工智能新增的市場最後花落誰家,現在還很難斷定。中國企業更有希望在AI市場上佔有一席之地。DeepSeek明顯提振了國內企業自立自強的信心,民族自信心的增強將爲A股市場注入新的活力。
DeepSeek的崛起說明
AI不再是簡單堆砌算力的暴力遊戲
中國基金報:對於DeepSeek的橫空出世,有人認爲是國運級別的創新,也有人認爲不過是一場新的鬧劇,將曇花一現。對此,你怎麼看?DeepSeek在何種程度上影響了全球人工智能的發展,其代表的AI大模型是否將成爲市場主流?如果不是的話,何種類型的AI大模型將成爲市場主流?
李國傑:DeepSeek崛起的背後是中美兩國的科技博弈,絕不是一場曇花一現的鬧劇。但將一家小公司提上政治高度,推到大國博弈的前線,背上“國運級別創新”的沉重十字架,對初創公司的發展沒有好處。
DeepSeek對全球人工智能發展有里程碑式的意義,其主要的價值是打破了“高算力和高投入是發展人工智能唯一途徑”和“集成電路製程優勢=人工智能技術霸權”的迷信,增強了人工智能業界走開源道路的信心。用開源將AI入場券“平民化”,促進AI在各個國家、衆多行業的應用和創新。
DeepSeek不僅是技術突破者,更是規則重構者,對中國實現科技突圍具有重要的啓示作用。DeepSeek的崛起說明,AI不再是簡單堆砌算力的暴力,而是進入了以算法和模型架構優化爲主,同時高度重視數據質量與規模、理性提高算力的新時期。
由於美國政府的封鎖,目前我國無法獲取最先進的芯片製程工藝,可能會落後國外兩代以上。DeepSeek給我們的啓示是,我們需要在有限算力條件下,通過算法和軟件的協同創新,充分發揮硬件的極致性能,挖掘所有可能的優化空間。DeepSeek R1發佈以後,華爲、海光、龍芯等芯片設計公司迅速和DeepSeek R1綁定,推出在各個行業實用的推理平臺,DeepSeek也接入了國家超算互聯網。我國的算力資源巨大,國內的人工智能模型與美國的水平十分接近,幾乎並駕齊驅,只要做好算力資源與人工智能平臺的優化適配,我國的人工智能科研和應用一定會走在世界前列。
DeepSeek是一家成立不到兩年的小公司,全球人工智能的賽道上有很多公司在你追我趕。一家公司一時的技術領先,並不是“護城河”,關鍵是看發展的速度快不快。
總體來看,人工智能還處在發展初期,現在就斷定哪一種人工智能大模型是市場主流,還爲時過早。只要我國有一批創新企業像DeepSeek那樣,堅持做引領性的科研而不是跟隨,中國對形成人工智能的主流模型一定會做出與國力相稱的貢獻。
AI界“晶體管”式的重大發明
目前還沒有看到苗頭
中國基金報:2023年4月,你在接受我們專訪時曾表示,中國要走低成本的人工智能發展之路,人工智能界需要“晶體管”式的重大發明,才能使大模型走上良性發展之路。那麼,DeepSeek是否已經探索出了一條低成本的人工智能發展之路?人工智能界的“晶體管”式的重大發明是否已經可以看到希望的曙光?
李國傑:低成本是技術普及的基本要求,蒸汽機、電力和計算機的普及都是其成本降低到大衆可以接受時才做到的,人工智能肯定也會走這條路。
目前,人工智能產業的成本還很高,主要表現在算力資源、數據獲取與處理、算法研發的人才門檻和人工智能系統部署維護的複雜性等。爲了降低人工智能的成本,企業界和科技界已經做了大量的努力,包括優化算力體系、高效模型架構、建設開源生態等。這幾年,人工智能成本已經有了數量級的下降,但人工智能要做到大規模普及,還需要更大幅度降低成本。
近日,華裔科學家李飛飛團隊的研究人員,以阿里通義千問(Qwen)模型爲基礎,通過蒸餾谷歌的AI推理模型Gemini 2.0 Flash Thinking Experimental,並結合監督微調(SFT)技術,使用16個英偉達H100 GPU進行了26分鐘的訓練,以不到50美元的雲計算費用成功訓練出s1模型,其性能超過了Open AI的o1-preview模型。這種創新的訓練方法以令人吃驚的低成本,做到了與高端模型相媲美的性能,顯示出人工智能的低成本化還有巨大的提升空間,爲人工智能領域帶來新的發展思路。
我們在爲推理模型的低成本化歡欣鼓舞時,應注意到一個事實,那就是目前推理模型的低成本是以預訓練模型(基礎模型)的高成本爲前提。我們真正追求的不是人工智能某些步驟的低成本,而是整體的低成本,但要實現這個目標還要走很長的路。
電子計算機剛問世的時候採用真空電子管,難以實現低成本。1947年發明了晶體管,1958年發明了集成電路。在摩爾定律的推動下,集成電路的集成度飛速提高。現在最高性能的GPU包含2080億個晶體管,相當於1美元可以買到500多萬個晶體管,單個晶體管的成本已下降了上千萬倍。晶體管成本的急速下降爲人類的信息化做出了不可磨滅的貢獻。
所以,我曾經說過,人工智能界需要“晶體管”式的重大發明,才能使大模型走上良性發展之路。DeepSeek爲探索低成本的人工智能發展之路做出了重要貢獻,但人工智能界的“晶體管”式的重大發明目前還沒有看到苗頭。偉大的發現從來不出自計劃,說不定哪一天會突然冒出來。我相信,只要堅持做原創性的基礎研究,人工智能界類似晶體管的重大發明一定會出現。
在推理模型等方向上
中美已處於並跑狀態
中國基金報:有人認爲,DeepSeek之所以受關注,更多是開源和閉源路線之爭。對此,你怎麼看?此外,怎麼看目前全球AI大模型發展的競爭格局?中國是在繼續跟跑,還是已經到了“並跑”狀態?
李國傑:DeepSeek推出的V3和R1模型,雖然有重大的技術突破,但還是基於Transformer結構的改進,核心技術上並沒有和國外拉開距離。過去這幾年,開源大模型的性能始終與龍頭企業的閉源大模型有一代以上的差距,這一次DeepSeek的性能追上了閉源模型,大大增強了開源社區的信心,這是了不起的成就。
圖靈獎得主楊立昆認爲“對DeepSeek崛起的正確解讀,應是開源模型正在超越閉源模型”。這一評價十分中肯,因爲改變AI發展模式比單項技術的突破更重要。
長期以來,美國的AI龍頭公司誇大開源AI的安全風險,力圖通過監管抑制開源AI。事實上,開源模型對於全球AI供應鏈至關重要,發展中國家尤其需要開源AI技術。若美國繼續在這一領域設置障礙,中國就有望在開源AI全球供應鏈中佔據核心地位,從而使更多企業轉向中國企業而非美國企業的技術方案。
DeepSeek發佈以後,OpenAI的CEO Altman承認,OpenAI過去在開源方面一直站在“歷史錯誤的一邊”。他表示:“需要想出一個不同的開源策略。”2025年1月31日,OpenAI宣佈,免費向用戶開放推理模型o3-Mini,但其核心技術還是封閉的,仍然強調開源“不是我們當前的最高優先事項”。這表明,OpenAI短期內不會在開源方面有實質性的轉變。
真正的AI競爭,不僅僅是技術和模型的競爭,更是生態系統、商業模式,以及價值觀的競爭。開源模型讓AI民主化,每個開發者都能輕鬆調用強大AI工具,不再受大公司的約束,AI的進化速度將會明顯提升。DeepSeek的開源戰略將向歷史證明:在這場AI競賽中,誰擁抱開源,誰就能贏得未來。
OpenAI剛發佈ChatGPT的時候,雖然中國馬上掀起“百模大戰”,但大模型的實際水平存在代際差距。經過這幾年的市場競爭和優勝劣汰,中美的差距明顯縮小。我國有好幾家優秀的人工智能公司冒了出來,大模型的性能與國外先進水平差不多,都屬於世界第一梯隊。
因此,就整個人工智能領域而言,在有些研究方向上中國還在跟跑,但在推理模型等許多方向上,中國和美國已經處於你追我趕的並跑狀態。人工智能是探索未知領域的研究,並沒有確定的研究方向。進入並跑狀態以後,就不要過於在意與美國相差幾個月,可以你做你的、我做我的,比誰能發現正確的研究方向。中國的人工智能人才總量比美國多,現在發表的論文數、引用數和授權專利數都遠遠超過美國。但是頂尖的AI人才還是美國多,我們在人工智能的研究實力上與美國還有一些差距。總的來講,要打贏這一場事關國運的科技戰,還要做長期的艱苦努力,但年輕一代正在成爲科研的主力,我們要有信心在人工智能的研究和應用上走在美國前面。
科技發展的新型舉國體制
需要考慮軍民領域的區別
中國基金報:DeepSeek的崛起對業界有何啓發?爲什麼DeepSeek沒有在上海或國內人工智能發展的高地北京誕生?
李國傑:最近幾年,不論是國防戰線還是民用領域,中國的科技突破出現類似噴泉的態勢,轟動全球的科研成果不斷冒出來。這些成果的出現不是偶然的,而是中國的科技和經濟發展經過多年積累必然要走上的一個新臺階。載人航天工程、第六代戰鬥機、052D型導彈驅逐艦等與國防有關的重大成果,與DeepSeek、宇樹機器人等創新型人工智能產品的出現,似乎有着不同的發展途徑,建立科技發展的新型舉國體制需要考慮兩者的區別。
在市場化程度高、技術迭代快的領域(如AI、生物科技等),通過市場競爭贏者勝出的機制可能比集中規劃的建制化研究更有效。未來的科技政策既要支持國家隊在戰略安全領域衝鋒陷陣,同時要大力支持民間力量在充分競爭中自下而上地突破技術封鎖。人工智能領域的探索性很強,目前這一領域在全球起引領作用的不是美國和西歐的國家實驗室,而是DeepMind和OpenAI這樣的創新型企業。在中國,DeepSeek這一類創業公司也起到了引領作用。
DeepSeek的成功與其創始人樑文峰的人才管理路線有很大關係。樑文峰選擇了一條與衆不同的用人策略。他們拒絕經驗豐富的人才,而選擇初出茅廬的年輕人。
DeepSeek有一條不成文的用人規則:招聘時工作經驗超過8年者,直接拒聘;超過5年,需要特別出色才能入選。DeepSeek團隊成員幾乎全是國內頂尖高校的應屆畢業生或博士實習生。
DeepSeek相信,真正的創新往往來自那些沒有包袱的人,有極致熱情的人,而不是習慣用經驗找答案的人。這種用人理念爲公司帶來了令人驚喜的創新動力。“90後”和“00後”的中國年輕人是在相對充裕的物質條件下成長起來的,他們更多是爲了興趣和熱愛而努力,已經開始平視美西方國家,具有“敢爲天下先”的勇氣和自信。他們是中國科技自立自強的希望。
作爲DeepSeek的誕生地,杭州市政府出臺了一系列鼓勵創新創業的政策。同時,杭州擁有完善的產業鏈配套和豐富的人才資源,爲其發展提供了良好的創業環境。DeepSeek出名以後,民間流傳起關於“杭州六小龍”的故事,深度求索、宇樹科技、遊戲科學、雲深處、羣核科技、強腦科技六家初創公司有一些共同的特點:都由年輕科技人才創辦,都屬於人工智能領域,都屬於民營小微企業。這些具有世界影響的公司都出自杭州,肯定不是偶然的,希望杭州的經驗能在其他城市大力推廣。
但是,我國在人工智能領域被全世界關注的公司不僅僅出自杭州。上面提到的階躍星辰、面壁智能、智譜AI都是在北京註冊的公司,無問芯穹來自上海。當這些公司和以後可能冒出來的AI公司都成爲世界級的大公司時,中國無疑將成爲人工智能的世界強國。
編輯:杜妍
校對:紀元
製作:鹿米
審覈:陳墨 許聞
版權聲明
《中國基金報》對本平臺所刊載的原創內容享有著作權,未經授權禁止轉載,否則將追究法律責任。