華爲晶片不夠力?DeepSeek-R2難產
英媒報導,DeepSeek-R2原定5月推出,但因爲捨棄輝達改用華爲升騰晶片,導致研發進度大幅落後。圖爲華爲AI晶片。(中新社)
大陸AI新創企業DeepSeek傳出將要發佈DeepSeek-R2大模型的同時,英國《金融時報》則披露,DeepSeek-R2原定要在今年5月推出,但因爲捨棄輝達改用華爲升騰晶片,不只導致研發進度大幅落後,也讓執行長樑文鋒大爲不滿。
DeepSeek-R1今年初橫空出世,震撼矽谷乃至全球;DeepSeek原打算乘勝追擊,於今年5月推出DeepSeek-R2,但始終處於「只聞樓梯響」,也引發不少臆測。根據最新消息,DeepSeek-R2有望在8月15日至30日期間發佈。
各界引頸期盼DeepSeek-R2之際,英國《金融時報》則引述知情人士說法指出,DeepSeek-R2之所以延遲發佈,主要是因在研發初期採用華爲晶片,導致進展不順遂,這也凸顯北京在替代美國技術方面的侷限。
知情人士直言,不同於DeepSeek-R1使用輝達晶片,DeepSeek在大陸官方鼓勵與支持下,DeepSeek-R2一度改採華爲升騰晶片來訓練,但在訓練過程中持續遭遇技術問題,也讓DeepSeek決定重啓輝達晶片,僅在推論(inference)階段運用華爲晶片。
據瞭解,華爲也曾派遣工程團隊進駐DeepSeek,希望協助利用升騰晶片開發R2模型;即便如此,DeepSeek依舊無法運用升騰晶片完成一次成功的訓練運行。但DeepSeek仍與華爲合作,力求讓該模型在推論階段能相容於升騰晶片。
有業界人士分析,中國晶片相比輝達產品,仍存在穩定性問題、晶片間連線速度較慢、軟體水準較差等劣勢。
另一位熟悉內情的人士坦言,上述問題是導致DeepSeek-R2無法如期在5月發佈的主因。樑文鋒對研發進度落後,也相當不滿,希望投入更多時間打造能鞏固公司AI領先地位的高階模型。
此外,外媒日前報導,大陸官方約談騰訊等企業,說明爲何使用輝達晶片。澎湃新聞報導,騰訊13日召開業績交流會時,管理層人員表明,已經擁有足夠晶片來進行基礎模型的訓練,同時在推論晶片的供應渠道也具備多種選擇。