視頻生成大模型羣雄逐鹿 卻不溫不火

中經記者 李昆昆 李正豪 北京報道

在OpenAI發佈的Sora爆火後,視頻大模型開始出圈,國內就涌現出了騰訊混元、快手可靈等一系列視頻大模型,各有不同的優勢特色。不過視頻生成大模型行業高開低走,一年過去了,依舊處於不溫不火的狀態。業內人士認爲,一個重要原因在於,用戶想看的短視頻大都是由真人博主出演,而AI生成不了這種視頻。

對此,經濟學家餘豐慧告訴《中國經營報》記者:“關於可靈、即夢、混元這三個視頻生成大模型,它們各自擁有獨特的技術優勢和應用場景。可靈在圖像識別和轉換方面表現出色,適合需要高質量圖像處理的任務;即夢則以其強大的自然語言處理能力著稱,能夠根據文本描述生成相應的視頻內容,特別適用於創意產業;而混元結合了前兩者的優點,並增加了更多的自定義選項,使其在靈活性和應用範圍上更具優勢。因此,不能簡單地說哪一個更好,而是應根據具體的使用需求來選擇最適合的模型。”

可靈一週年 發展得怎樣了?

2024年6月6日,“可靈”AI視頻生成大模型正式上線,經過一年多的發展,可靈AI在技術迭代、商業化落地及全球市場滲透方面表現突出。並在影視、短劇、廣告、遊戲、高校教育等行業有了深度實踐探索。

一年過去了,可靈大模型的發展也成爲視頻生成大模型發展的一個觀察窗口和縮影。

據介紹,2025年4月,可靈AI全球用戶規模突破2200萬人。月活用戶量增長25倍,累計生成超過1.68億個視頻及3.44億張圖片。

據POE 2025年5月報告,可靈系列模型(包括2.0大師版、1.6版及1.5版)在全球AI視頻工具市場的訪問量份額已達30.7%,高居行業第一;在ArtificialAnalysis榜單中,可靈系列在文生視頻、圖生視頻雙賽道穩居全球前二,甚至能與谷歌Veo共同定義行業技術上限。

快手方面告訴記者,2025年4月,可靈AI宣佈基座模型再次升級,面向全球正式發佈可靈2.0視頻生成模型及可圖2.0圖像生成模型。可靈2.0大師版,在語義響應、動態質量、畫面美學等方面顯著提升生成效果。可靈2.0大師版也全面升級視頻及圖像可控生成與編輯能力,上線全新的多模態視頻編輯功能,能靈活理解用戶意圖,支持對視頻內容實現增、刪、改。

據2024年快手Q4及全年財報,自可靈AI開始商業化變現至2025年2月,可靈AI的累計營業收入已經超過人民幣1億元。今年3月,可靈AI的年化收入運行率(Annualized Revenue Run Rate)突破1億美元,其4月和5月的月度付費金額均超過1億元。

從收入構成來看,目前P(Prosumer)端付費訂閱會員貢獻可靈AI將近70%的營業收入(P端付費訂閱會員指自媒體視頻創作者和廣告營銷從業者等專業用戶,他們兼具C端用戶的傳播屬性和B端用戶的付費能力,是目前視頻生成大模型的核心受衆羣體)。

競爭激烈

從國際方面來看,首先當然是OpenAI的Sora,Sora能生成長達60秒的高質量視頻,在畫面細節、動作流暢度和鏡頭語言把控上較爲均衡。目前Sora與ChatGPT Plus深度綁定,用戶可在對話中一鍵體驗,但因爲模型規模龐大,對GPU算力要求高,生成延遲相對較長。Sora最大的優勢在於其對物理世界規則的準確理解,Sora採用了一種被稱爲“視頻作爲圖像補丁”的創新方法,將視頻表示爲時空塊,不需要傳統的幀到幀預測,大大提升了生成質量和效率。

作爲社交媒體巨頭,Meta對短視頻內容生態有着天然的重視。Movie Gen的獨特優勢在於其對社交媒體視頻樣式的深度理解。在生成垂直短視頻、創意內容等社交媒體常見形式時,Movie Gen表現出色。此外,Meta還特別優化了Movie Gen在移動設備上的性能,使其能夠在Instagram、Facebook等平臺無縫集成。與此同時,Movie Gen的獨特之處在於其對畫面構圖的精準把控,生成的視頻往往具有電影級的審美水準,但在動作連貫性方面還有明顯提升空間。

RunwayML的Gen-4 Alpha則基於多模態大規模預訓練,憑藉強大的Vision Transformer架構,實現了10—20秒短視頻的高保真合成,運動連貫與細節均表現搶眼。相比技術巨頭的產品,Runway更懂創意人。Gen-4不僅提供直觀的用戶界面,還有豐富的風格預設和後期編輯功能。雖然在純技術指標上可能不及Sora,但其開放的商業模式和對創意行業的深度優化,得到了大量用戶認可。

阿里通義萬相2.1通過自研的高效VAE和DiT架構,顯著增強了時空上下文建模能力。這意味着,該模型能夠更精準地理解和預測視頻中的動態,支持無限長1080P視頻的高效編解碼。值得一提的是,通義萬相2.1還首次實現了中文文字視頻生成功能,登上了VBench榜單第一。

騰訊混元大模型憑藉對多模態預訓練的深度優化,能基於圖像或文本提示生成5秒內的2K短視頻。在與國內外多個頂尖模型的評測對比顯示,混元視頻生成模型在文本視頻一致性、運動質量和畫面質量多個維度效果領先,在人物、人造場所等場景下表現尤爲出色。

百度“文心一言”4.0中的“一鏡流影”插件主打批量化短視頻生產,能夠將文本自動轉化爲5—10秒720p視頻,並支持文本、視覺與語音的多模態融合,爲新聞和教育場景提供了高效解決方案。但在深入故事化和長視頻生成方面,還需與專業創作管線結合使用。“一鏡流影”走了一條與衆不同的路線,即將視頻生成能力整合進大模型生態。這種方式雖然在專業性上有所妥協,但大大提高了普通用戶的可及性。

去年9月,對標OpenAI的Sora,字節跳動發佈了兩款對標文生視頻工具PixelDance和Seaweed,即夢AI已經接入了豆包,其中支撐即夢的就包括能力更優秀的PixelDance,官方介紹稱,能夠生成高質量的長達2分鐘的1080p分辨率視頻,擅長描繪複雜的運動和物體之間的互動。

QuestMobile最新數據顯示,即夢上線當天即在抖音平臺引發了高漲的討論熱度,可靈AI通過熱度的持續積累也在快手站內出現熱度峰值。但一個明顯的不同是,即夢的內容互動量在一個月高開低走,而可靈的內容互動量在一個月內低開高走。

餘豐慧認爲,視頻大模型未來的發展將會朝着更加智能化、個性化的方向前進。隨着技術的進步,我們可以期待這些模型不僅能夠理解並生成更復雜的視頻內容,還能更好地理解和響應用戶的具體需求,提供更爲定製化的服務。此外,隨着5G等高速網絡技術的普及,視頻內容的傳輸速度和觀看體驗也將得到極大提升,進一步推動視頻大模型的應用和發展。這一領域無疑將在未來的數字內容創作和消費中扮演重要角色。

(編輯:吳清 審覈:李正豪 校對:顏京寧)