比 ChatGPT 更便宜、好用的 AI 模型 阿里巴巴的通義千問怎麼辦到的?

阿里巴巴29日凌晨,正式開源旗下通義千問系列最新力作「Qwen3 系列模型」,並開源8個版本,並聲稱新版模型參數量僅DeepSeek-R1的三分之一,成本大幅下降,同時可與美國Google和OpenAI提供的最佳模型(例如OpenAI-o1等模型)相比,在某些情況下甚至優於競爭對手。新浪科技

阿里巴巴29日凌晨,正式開源旗下通義千問系列最新力作「Qwen3 系列模型」,並開源8個版本,幾乎覆蓋所有場景。上線短短2小時就在軟體開發平臺GitHub上累積超過1.7萬顆星,迅速登上全球開源模型排行榜冠軍,引發全球關注。

通義千問聲稱,新版模型參數量僅DeepSeek-R1的三分之一,成本大幅下降,同時可與美國Google和OpenAI提供的最佳模型(例如OpenAI-o1等模型)相比,在某些情況下甚至優於競爭對手。通義千問怎麼辦到的?強在哪?

「晚點LatePost」微信公衆號報導,阿里雲CTO、通義實驗室負責人周靖人表示,大模型發展和雲體系的支持不可分割。無論訓練還是推理,大模型的每一次突破,表面看是模型能力演進,背後其實是整個雲計算和數據、工程平臺的全面配合和升級。

阿里雲CTO、通義實驗室負責人周靖人。澎湃新聞

Qwen3是「混合推理模型」,「快思考」與「慢思考」集合進同一個模型,對簡單需求可低算力「秒回」答案,適用於對速度要求高於深度的簡單問題。而對複雜問題可多步驟「深度思考」,節省算力消耗,混合推理模型今後是大模型發展的重要趨勢。

周靖人表示,在模型能力上,大家現在討論最多的是推理模型。「我們在繼續探索讓模型能更像人那樣去思考,未來甚至能自我反思、自我糾錯等。多模態也是通向AGI的重要途徑。人的大腦也是有的部分處理文字,有的部分處理視覺、聲音。我們要讓大模型能理解並貫通各個模態。」

Qwen3 大降部署成本 稱性能媲美DeepSeek等頂級AI

香港信報指出,新版Qwen3包括2個採用混合專家(MoE)模型和6個Dense模型,參數量從6億個到2,350億個。與DeepSeek-R1、OpenAI o1及o3-mini、馬斯克的Grok 3和谷歌Gemini 2.5 Pro等其他頂級模型比較,旗艦模型Qwen3-235B-A22B在編碼、數學、通用能力等基準評估中,取得具競爭力的結果。

小型MoE模型Qwen3-30B-A3B的活化參數量是QwQ-32B的10%,表現更勝一籌,甚至像Qwen3-4B這樣的小模型,也能匹敵Qwen2.5-72B-Instruct的表現。而6個Dense模型也已開源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0許可下開源。

至於性能方面,Qwen3預訓練資料量達36T,並在後訓練階段進行多輪強化學習,在推理、指令遵循、工具調用、多語言能力等方面均有增強。在效能提升的同時,Qwen3部署成本下降,僅需4張H20即可部署Qwen3滿血版。

不開源反而風險更大 開源技術至少會追上閉源

新版Qwen3系列模型採用寬鬆的Apache2.0協定開源,首次支持119種語言,全球開發者、研究機構和企業均可免費在魔搭社羣、HuggingFace等平臺下載模式並商用,也可以透過阿里雲百鍊調用Qwen3的API服務。

周靖人表示,阿里的願景是「讓天下沒有難做的生意」;雲的初心是讓企業能在雲上高效實現技術和業務創新;開源大模型是希望企業能更容易地把大模型用到業務裡。「從技術發展規律看,不開源反而風險更大,因爲開源技術至少會追上閉源,甚至往往發展得更快、更強,Android、Spark都是例子。」

阿里通義千問大模型演進大事記

通義千問表示,Qwen3模型推理能力大幅提升,在數學、程式碼和邏輯推理等評測中,達到同規模業界SOTA水準。

周靖人指出,在AI時代,客戶要的不是單一的模型或雲的能力,而是強模型 + 低成本 + 高彈性的綜合體驗。「反映到技術上,過去訓練和推理是分開考慮的,但現在訓練時就要考慮推理效率,推理時也要想模型好不好訓、能不能收斂。這是一個硬幣的兩面,要整體協同優化。」

DeepSeek-R1發佈後 阿里雲向模型的推理能力傾斜

阿里雲CTO、通義實驗室負責人周靖人指出,完整的MaaS(Mobility as a Service,模型即服務)也不會只有一個模型,而是相容多種模型,所以阿里雲一開始就支持DeepSeek。雲的邏輯是對不同模型都做好性能優化,把選擇權留給客戶。中新社

2024年第4季,業內已意識到模型的推理能力很重要,等到DeepSeek火爆後,推理能力已成不可或缺的關鍵能力。DeepSeek-R1發佈後,阿里雲基礎模型團隊把策略中心進一步向模型的推理能力傾斜。

周靖人認爲,DeepSeek的系統優化的確非常出色,但這是一種理想化的計算方式。不用把它當成雲的邏輯,「因爲真正提供雲服務時,不能在系統繁忙時段選擇性地服務客戶,或降低繁忙時段的服務品質。」

周靖人指出,完整的MaaS(Mobility as a Service,模型即服務)也不會只有一個模型,而是相容多種模型,所以阿里雲一開始就支持DeepSeek。雲的邏輯是對不同模型都做好性能優化,把選擇權留給客戶。