Qwen3深夜正式開源,小尺寸也能大力出奇跡。

小道消息一直在說,昨天深夜或者今天凌晨,阿里會發Qwen3。

然後我特意早早的睡了一兩小時,凌晨1點起牀,就爲了等Qwen3發。

結果這一等,就是好幾個小時。。。

不過,功夫不負有心人。

凌晨5點,我眼睛都睜不開的時候,終於等到了。

Qwen你賠我睡眠。。。

把報告看完,我總結一下,覺得最大的亮點有6個:

1. 模型能力登頂全球,這個沒啥可說的,就是No.1。

2. 第一個開源的混合推理模型。

3. 8個不同尺寸的模型,幾乎覆蓋了所有場景。

4. 成本很低, 旗艦模型235B參數部署成本只要DeepSeek R1的三分之一。

5. 支持MCP協議。

6. 居然還支持了119種語言。

一起說吧。

這次發了8個模型,Qwen3-0.6B、1.7B、4B、8B、14B、32B,這6個都是Dense稠密模型。

還有兩個重量級MoE模型,Qwen3-30B-A3B,和旗艦版的Qwen3-235B-A22B。

這次Qwen採用了新的命名方式,Qwen3-0.6B、1.7B、32B這種沒啥可說的,大家都理解。

兩個MoE模型,把激活的參數寫在後面, Qwen3-235B-A22B的意思就是235B的參數,但是在推理時只激活22B。

Qwen3-30B-A3B就是總參數量爲30B,激活參數3B,這個還蠻有意思的。

而且,所有的模型,都是混合推理模型。

大概的意思就是,你既可以把它當不會長思考沒有思維鏈的普通模型用,也可以直接開啓推理模式,變成一個推理模型。

可以簡單的理解爲,把DeepSeek V3和R1直接揉在了一起。

就像我們其實都知道,DeepSeek這個深度思考,你打開的時候,是R1模型,但是你關掉,其實用的是v3來給你回答。

但是Qwen3,是一體的。

是一個模型,只不過支持了兩種模式,這個不管對於開發者還是使用者,都方便很多。

整體上,8個模型,誠意足到爆炸,小到0.6B,大到235B,能打手機端側,也能打旗艦體驗,全部一次性開源了,而且都是Apache 2.0協議,想怎麼用就怎麼用,想商用就商用,沒啥顧慮。

Qwen3-0.6B~4B的最大Token都是32K,其他的都是128K。

性能上,稍微有點離譜。

Qwen3-4B的小模型,就已經能和上一代QwQ-32B這玩意打得有來有回。而Qwen3-30B-A3B,更是幾乎就比QwQ-32B全方位的強。

至於最牛逼的那個 Qwen3-235B-A22B,他們甚至沒只跟開源模型比,比的全都是最頂級的閉源模型。

最主要的是,這玩意部署成本,大概只有DeepSeek R1的三分之一啊。。。

什麼叫便宜大碗,這就是。

但是這麼一對比,忽然發現,Gemini2.5-Pro,好像有點猛。。。

同時,在性能水桶式提升的背景下,也有了更強的Agent能力,也支持MCP了。

他們官方自己放了一段視頻。

我也隨手把即夢接了進去,可以直接用Qwen3來調用即夢畫圖了。。。

就還真的,挺好玩,你的下一個即夢,又何必是即夢呢(狗頭。

除了這些模型的能力,Qwen3這次還有一個很有趣的東西。

就是語言。

上一代的Qwen2.5,只支持包括 中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韓文、越南文、泰文、阿拉伯文等 29 種語言。

而這一次,支持119種語言了。

不是,到底誰纔是真正的OpenAI啊。

這妥妥是爲世界人民謀福利好吧。。。

項目地址都在這了。

Blog: https://qwenlm.github.io/blog/qwen3/

GitHub: https://github.com/QwenLM/Qwen3

你牛逼的話可以自己部署,我5080勉強跑個Qwen3-8B,實在跑不起。

想體驗的話,可以直接去通義和Qwen Chat,都可以。

通義: https://www.tongyi.com/qianwen/

Qwen Chat: https://chat.qwen.ai/

我自己直接在Qwen Chat上面實測了一波,一進來左上角就默認是旗艦版Qwen3。

嗯,就是比較抽象的是,提示語都居然都變成早上好,卡茲克了。。。

你可以在左上角,切換3個這次Qwen3比較有代表的模型來進行對比。

左下角的深度思考,就能是否開啓推理的開關。

而且這個開關還能拖動滑塊,決定它的最大思考長度,雖然這個功能很極客,但是還有意思。

我自己的實測結論就是:水桶級別,中等偏上。

比如讓它給我生成一個登錄頁。

效果很不錯,能直接幹出一個很酷的界面。

https://us4mpg09fz.app.yourware.so/

或者做藏師傅搞得可交互的網頁,把吃瓜PDF變成在線時間線。

這時候你就會發現,審美會差一點,豐富度也會不是特別狗,稍微有一點點勉強了。

而如果再讓它寫一個之前我在文章裡放的洛小山的彈球遊戲的Prompt:

確實沒有那麼亮眼,在遊玩的時候還有一些些BUG。

但是畢竟這個遊戲還是太複雜了,人模型的尺寸也沒那麼大,也沒法既要又要。

如果是做稍微簡單一點的連連看遊戲,就還是比較簡單了。

除了代碼,邏輯問題,現在基本也不太能難道現在的推理大模型了。

不過在遇到一些非常離奇非正常的測試prompt時,還是會有一點點掉智。

文筆的話,親測會比DeepSeek好一些。

但是略遜於GPT-4o。

如果你還想玩一點花活,還能跟即夢打通做結合。

就能實現類似於那種原生多模態模型,圖文混排的效果。

還是超級有意思的。

總之,這次Qwen3的發佈,真的有點像是深夜街頭,突然亮起的那盞霓虹燈。

不僅亮,還便宜。

不僅便宜,還能庫庫的切換顏色。

這一波下來,阿里確實是拿出了一種很阿里的態度。

8點了,天也亮了。

該去睡覺了。

最後。

Qwen3,歡迎來到這個荒誕又燦爛的時代。

咱們,下個奇點見。

以上,既然看到這裡了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標⭐~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克、dongyi

>/ 投稿或爆料,請聯繫郵箱:wzglyay@virxact.com