阿里Qwen3發佈,梅花創投吳世春:給人“脫胎換骨”的感覺
近一個月來,業內傳的沸沸揚揚的Qwen3正式發佈。
4月29日凌晨,阿里巴巴宣佈開源新一代通義千問模型Qwen3(簡稱千問3)。千問3是國內首個"混合推理模型",將"快思考"與"慢思考"集成進同一個模型。
千問3採用混合專家(MoE)架構,總參數量235B,激活僅需22B。千問3預訓練數據量達36T tokens,並在後訓練階段經過多輪強化學習,將非思考模式無縫整合到思考模型中。在推理、指令遵循、工具調用、多語言能力等方面,千問3均大幅增強。
性能大幅提升的同時,千問3的部署成本還大幅下降,據阿里透露,僅需4張H20即可部署千問3滿血版,顯存佔用僅爲性能相近模型的三分之一。千問3還提供了豐富的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型。
據瞭解,千問3系列模型依舊採用寬鬆的Apache2.0協議開源,並首次支持119多種語言,全球開發者、研究機構和企業均可免費在魔搭社區、HuggingFace等平臺下載模型並商用,也可以通過阿里雲百鍊調用千問3的API服務。
同時,千問3原生支持MCP協議,並具備function calling能力,或爲即將到來的智能體Agent和大模型應用爆發提供更好的支持。值得注意的是,此前爆火的智能體產品Manus背後的公司與阿里通義千問團隊已達成戰略合作,雙方將基於通義千問系列開源模型,在國產模型和算力平臺上實現Manus的全部功能。
梅花天使創始合夥人吳世春表示:"千問3的發佈,給人一種脫胎換股的感覺,像是進入了加速進化的過程。"在大模型的這輪競賽中,他認爲在進入技術收斂期後,產品應用和生態建設將是比拼關鍵,廠商之間的技術差距將會變成規模差距。
何爲"混合推理"?
簡單來說,"混合推理"是把推理模型和非推理模型集成到同一個模型裡,這需要極其精細、創新的設計及訓練。
在今年2月25日,Anthropic發佈了新一代旗艦模型Claude 3.7 Sonnet,彼時被稱作爲市面上首款混合推理模型。Anthropic聯合創始人兼首席科學官Jared Kaplan將其比作人類大腦的運行方式:有的問題需要深度思考,有的問題需要快速作答。但Anthropic希望將這兩種能力整合在同一個模型中,而不是完全分開。
曾參與共同創立Instagram的Anthropic產品主管Mike Krieger對媒體表示,這種混合方法能簡化聊天機器人的使用流程,讓用戶無需思考究竟哪種功能最適合。
4月17日谷歌發佈公告,宣佈在 Google AI Studio 和 Vertex AI 中,以 Gemini API 的方式推出 Gemini 2.5 Flash Preview 預覽AI模型。據IT之家此前報道,Gemini 2.5 Flash是一個混合推理模型,具備"動態且可控"的計算能力,開發者能夠根據查詢請求的複雜程度靈活調整處理時間。
據阿里雲官方介紹,千問3是國內首個混合推理模型。具體而言,在"推理模式"下,模型會執行更多中間步驟,如分解問題、逐步推導、驗證答案等,給出更深思熟慮的答案;而在"非推理模式"下,模型則可快速遵循指令生成答案。
也就是說,同一個模型,可以完成"快思考"和"慢思考",這類似於人類在回答簡單問題時,憑經驗或直覺快速作答,面對複雜難題時再深思熟慮,仔細思考給出答案。
另外,千問3還可API設置"思考預算",即預期最大thinking tokens數量,進行不同程度的思考,讓模型在性能和成本間取得更好的平衡,以滿足開發者和機構的多樣需求。比如,4B模型面向手機端,8B可在電腦和汽車端側部署應用等。
阿里雲 CTO、通義實驗室負責人周靖人在和《晚點》對話中提到,設計和訓練混合推理模型的難度,是遠超單純的推理模型的。具體而言,訓練混合推理模型,有複雜的機制,相當於模型要學習兩種不同的輸出分佈,要做到兩個模式融合且基本不影響任何一種模式下的效果,很考驗訓練過程的訓練策略。
目前,混合推理的大模型路線,正成爲頭部大模型公司爭相突破的前沿技術領域。天使投資人、資深人工智能專家郭濤表示,阿里千問3的發佈標誌着大模型技術進入"效率革命"時代,其通過混合專家架構(MoE)與雙模式推理設計,在性能與成本間實現顛覆性平衡。
技術差距將變成規模差距
在開源上,阿里通義始終不留餘力。2023年至今,阿里通義團隊已開源200多款模型,包含大語言模型千問Qwen及視覺生成模型萬相Wan等兩大基模系列,開源囊括文本生成模型、視覺理解/生成模型、語音理解/生成模型、文生圖及視頻模型等全模態,覆蓋0.5B、0.6、1.5B、3B、4B、7B、14B、30B、32B、72B、110B、235B等全尺寸參數。
通義模型也多次登頂HuggingFace、Github榜單,目前,通義千問Qwen衍生模型數量已突破10萬。通義千問Qwen在全球下載量超過3億,在HuggingFace社區2024年全球模型下載量中千問Qwen佔比超30%,穩居第一。
中國人民大學國際貨幣研究所研究員、獨立國際策略研究員陳佳表示,千問3融合了阿里此前的模型技術積累,未來潛力非常強大,"考慮到蘋果AI中文引擎與阿里的合作,以及阿里在雲計算架構和算力服務方面的傳統優勢,阿里系大模型這次的‘突襲’可能會很成功,謹慎看好。"
在資源投入上,阿里巴巴集團CEO吳泳銘2月24日宣佈,未來三年,阿里將投入超過3800億元,用於建設雲和AI硬件基礎設施,總額超過去十年總和。吳泳銘表示:"AI爆發遠超預期,國內科技產業方興未艾,潛力巨大。阿里巴巴將不遺餘力加速雲和AI硬件基礎設施建設,助推全行業生態發展。"
另據媒體報道阿里雲近日在全球頂尖高校招募AI技術儲備人才,爲近年來規模最大的AI人才校園招聘。據瞭解,此次校招面向清華大學、北京大學、浙江大學、麻省理工大學、斯坦福大學等全球頂尖高校,招募大語言模型、多模態理解與生成、模型應用、AI Infra等領域技術人才。
4月29日,也有消息稱騰訊對其混元大模型研發體系進行了全面重組,主要圍繞算力、算法和數據三大核心板塊刷新團隊部署,加碼研發投入。
今年春節以來,DeepSeek憑藉着"低價+開源",像一條鮎魚一樣攪動着大模型市場。大模型價格仍在持續,對此吳世春認爲對價格敏感性的客戶,價格戰會把用戶積累起來,客戶累計越多,數據越多越好,模型就會進入飛輪效應。
"當客戶越來越多,(模型)越來越好用,差距就會從最早期的技術差距變成規模差距。"吳世春判斷,技術收斂期預計要到明年到來,彼時大模型行業將會呈現"3+1"的格局,即阿里、騰訊、字節和DeepSeek。
郭濤認爲,千問3發佈也將使大模型競爭進入"三維立體戰"時代。技術維度,其MoE架構與推理優化或引領行業變革,促使行業從單純堆參數轉向架構創新與硬件協同,提升算力利用率。商業維度,阿里"開源生態引流+企業服務變現"模式吸引衆多ISV加入,重構大模型商業格局,中小廠商面臨生態位被擠壓的局面,行業集中度進一步提升。戰略維度,阿里"軟硬一體+行業深耕"路徑爲雲廠商提供參考,加速大模型走向產業縱深,推動全球企業級大模型市場規模增長。