賽道Hyper | 阿里開源通義萬相Wan2.2:突破與侷限
作者:周源/華爾街見聞
7月28日,阿里巴巴開源電影級視頻生成模型通義萬相Wan2.2,模型單次可生成5秒的高清視頻。
Wan2.2此次共開源文生視頻(Wan2.2-T2V-A14B)、圖生視頻(Wan2.2-I2V-A14B)和統一視頻生成(Wan2.2-TI2V-5B)三款模型。
其中,文生視頻模型和圖生視頻模型均爲業界首次使用MoE架構(混合專家模型:Mixture of Experts),總參數量爲27B,激活參數量高達14B,均由高噪聲專家模型和低噪專家模型組成,分別負責視頻的整體佈局和細節完善,在同參數規模下,可節省約50%的計算資源消耗。
這是阿里在AI視頻生成領域投下的一枚重要棋子。作爲國內科技巨頭在生成式AI賽道的最新動作,這樣的技術路徑與開源策略既體現了行業發展趨勢,也折射出阿里在技術競爭中的佈局考量。
技術架構差異化嘗試
通義萬相Wan2.2此次開源的三款模型中,文生視頻與圖生視頻模型採用的MoE架構是最受行業關注的技術點。
通過動態選擇部分專家(子模型)參與推理任務,MoE架構能提高模型的計算效率和性能,尤其適用於大型神經網絡模型的訓練和推理。
這種架構並非憑空出現,而是在現有視頻生成技術瓶頸下的針對性設計:將模型拆分爲高噪聲專家模型與低噪專家模型,前者負責視頻整體佈局,後者專注細節完善,形成了分工明確的處理機制。
從技術邏輯看,這樣的設計直指視頻生成長期存在的效率問題。
傳統模型在處理長時序視頻時,常因參數規模與計算資源的矛盾,難以兼顧質量與效率。
MoE架構通過激活參數的動態調用,在27B總參數量級下能實現14B激活參數的精準分配,使得同參數規模下計算資源消耗減少約50%。
這種資源優化能力,在當前AI大模型訓練成本高企的背景下,具備實際應用價值。
參數量總規模27B,激活量高達14B,激活佔比超過50%至51.85%。
如此超高的激活佔比是怎麼做到的?
首先這並非易事,這需要有高度的模型架構設計與優化能力。就像智譜AI發佈的旗艦模型GLM-4.5,激活量佔比9%,就能實現API價格僅爲Claude的10%,原因也是智譜AI擁有對Transformer架構持續積累了長達4年的優化成果。
要構建一個能合理分配不同專家模型職責,確保在不同去噪階段高噪聲專家模型與低噪專家模型有序工作的架構,需要對視頻生成過程中的數據流向、處理邏輯有極爲精準的把握。
同時,在參數激活的動態管理方面,如何根據輸入數據的特徵、去噪任務的需求,在衆多參數中準確激活對應的14B參數,避免無效激活造成資源浪費,還要保證激活參數間協同工作的高效性,是研發團隊面臨的巨大挑戰。
這涉及到複雜的算法設計與大量的實驗調試,以找到最適合視頻生成任務的參數激活策略。換句話說,這需要技術團隊對模型任務所需要的數據有精確把控,以及爲此採取了高效的激活策略和方法。
值得注意的是,MoE架構在NLP(自然語言處理)領域已得到較多應用,但在視頻生成領域仍屬新鮮事物。
視頻數據的時空複雜性遠超文本,如何讓不同專家模型在處理動態畫面時實現無縫協同,是技術落地的關鍵。
通義萬相團隊的解決方案是按去噪階段劃分專家職責,這種思路能否成爲行業通用範式,還需接受市場驗證。
阿里巴巴選擇開源這三款模型,在商業策略上頗具深意。
當前AI視頻生成領域呈現閉源競賽與開源探索並行的格局,頭部企業多傾向於將核心模型作爲商業服務的技術壁壘,而開源模式則試圖通過生態共建擴大技術影響力。
從開發者層面看,Wan2.2的開源提供了一個可直接上手的技術樣本。
開發者可在GitHub、HuggingFace等平臺獲取模型代碼,這降低了視頻生成技術的研究門檻。對於中小企業而言,無需從零構建模型,可基於現有框架進行二次開發,這在一定程度上會加速技術的場景落地。
在行業競爭維度,此次開源可能加劇視頻生成技術的迭代速度。此前,國內外已有多家企業推出視頻生成模型,但多以閉源API服務爲主。
通義萬相Wan2.2的開源,相當於向行業公開了部分技術路徑,其他企業可能在此基礎上優化升級,形成技術反超。
實際應用潛力與侷限
從應用場景來看,Wan2.2的5秒高清視頻生成能力,目前更適合作爲創意工具而非生產工具。
在影視前期策劃中,創作者可通過文本或圖片快速生成片段,用於可視化創意方案;在廣告行業,可輔助製作產品展示短視頻的初稿。這些場景對視頻時長要求不高,卻能顯著提升前期溝通效率。
但其侷限性也同樣明顯:單次生成5秒高清視頻的時長,意味着複雜敘事仍需人工拼接,與“電影級”的實際生產需求存在差距。
儘管阿里官方表示未來將提升時長,但視頻生成時長的延長並非簡單的技術疊加,而是需要解決更長時序下的邏輯連貫性、畫面一致性等問題,這對模型的時空建模能力提出了更高要求。
在美學控制方面,“電影級美學控制系統”通過參數化調節光影、色彩的設計,確實降低了專業美學表達的門檻。
但這種控制的精準度仍依賴於提示詞的專業性,普通用戶若缺乏基礎美學知識,可能難以充分發揮其功能。
此外,模型生成的畫面風格是否能真正達到“電影級”,還需專業創作者的實際使用反饋來驗證。
放在全球AI視頻生成技術的座標系中,Wan2.2的開源是中國企業在該領域的一次重要發聲。
目前,國際範圍內已有模型實現更長時長的視頻生成,且在畫面真實感上具備優勢。
Wan2.2的特色在於MoE架構帶來的資源效率提升,這一差異化路徑能否在激烈競爭中佔據一席之地,取決於其在實際場景中的落地效果。
對於整個行業而言,視頻生成技術仍處於快速進化階段。從文本生成圖像到文本生成視頻,技術跨越的背後是對算力、數據、算法的綜合考驗。
Wan2.2的出現,本質上是這一進化過程中的一個技術節點,其價值不在於顛覆行業,而在於爲行業提供了一種新的技術選擇。
未來,隨着模型時長的延長、細節處理能力的提升,視頻生成技術可能會逐步滲透到更多領域。但這一過程需要時間,且必然伴隨着技術瓶頸的突破與商業模式的驗證。
對於企業而言,如何平衡技術研發投入與商業回報,將是比技術突破更難的課題。