月之暗面因DeepSeek調整工作重心?內部人士:強化學習或許會是個方向
來源:新浪科技
新浪科技訊 2月15日下午消息,據媒體報道,月之暗面內部已經將“持續拿到SOTA結果”確定爲當下最重要的工作目標。2025年,月之暗面圍繞模型能力的關鍵方向除了繼續強化多模態部分外,還會繼續強化長文本推理能力。
報道分析稱,DeepSeek爆火後,DeepSeek與月之暗面存在的路線差異,讓外界面臨重新審視月之暗面技術模式、用戶增長模式的情況。其中,月之暗面閉源,堅持預訓練(需要大量卡和算力資源),且不把蒸餾技術作爲關鍵,在C端市場通過大量投流實現拉新;而DeepSeek則是開源,雖然也採取預訓練,但把蒸餾技術作爲關鍵手段大幅度節省成本,在C端市場並未投流。
而今,DeepSeek採用區別與月之暗面的路線,也取得了現階段更爲出色的效果。業內人士認爲,月之暗面如果想守住生態位,“需要做一些改變或者嘗試,比如開源,比如調整引流策略等。”不過目前,月之暗面尚未明確是否“接入”DeepSeek,對於接下來是否“開源”,公司也未置評媒體問詢。
對於月之暗面是否會因DeepSeek而調整工作重心一事,新浪科技向月之暗面方面求證,截止發稿公司暫無迴應。不過有內部人士透露稱,“RL(強化學習)大概率會是一個(工作重點)方向”。
作爲此次DeepSeek出圈後最受關注的熱門技術話題,DeepSeek通過大規模強化學習技術得到比肩OpenAI o1能力的DeepSeek-R1-Zero,令業界倍感興奮。新浪科技瞭解到,去年11月份月之暗面宣佈推出新一代數學推理模型k0-math之際,Kimi探索版便通過運用強化學習技術創新了搜索體驗,在意圖增強、信源分析和鏈式思考三大推理能力上實現突破。彼時,月之暗面Kimi創始人楊植麟便對強化學習這一技術路線帶來的模型能力提升給予了高度評價。
而在近日OpenAI發佈關於推理模型在競技編程中應用的研究論文報告《Competitive Programming with Large Reasoning Models》中,論文也特別提到,“中國的DeepSeek-R1和Kimi k1.5通過獨立研究顯示,利用思維鏈學習(COT)方法,可顯著提升模型在數學解題與編程挑戰中的綜合表現。其中k1.5便是DeepSeek和Kimi在1月20日同時發佈的新型推理模型。”