☰

百度蒸汽機視頻生成大模型升級2.0版本，價格低至行業70%

《鳳凰WEEKLY財經》獲悉，8月21日，百度蒸汽機（MuseSteamer）音視頻一體化模型完成重大升級，在行業內首次實現多人有聲視頻一體化生成。其Turbo版、Lite版、Pro版及全繫有聲版全面開放，用戶可通過百度搜索“百度蒸汽機”或登錄“繪想”平臺體驗，企業用戶可在千帆平臺享受高性能視頻生成服務。

據介紹，百度蒸汽機是全球首箇中文音視頻一體化生成的I2V模型，不僅支持環境音效，更支持多角色語音的一體化生成。百度蒸汽機2.0有聲版模型讓AIGC視頻創作徹底告別了配音，創作者只需要一張圖和提示詞。

國際知名視效指導姚騏使用百度蒸汽機模型製作了科幻短片《歸途》後表示，“它讓好萊塢級大片鏡頭不再需要百萬預算。”據他介紹，該作品共有40多個鏡頭，每個鏡頭生成3次，共用AI生成超120個片段素材，成本低至百元。

百度同時表示，該系列大模型已經在百度搜索、營銷等多個場景落地應用，針對不同需求用戶，平臺提供了梯度會員服務，價格低至行業同類產品的70%。

百度商業研發首席架構師李雙龍對《鳳凰WEEKLY財經》透露，在百度蒸汽機研發過程中，主要面臨兩大核心技術難點：一方面，由於需要實現“生成與應用一體化”，且要適配多角色場景，如何構建有效的規劃機制，將多角色的語音、動作與聲音進行精準匹配和統籌協調，確保整體呈現的一致性與流暢性，是首要攻克的難題；另一方面，鑑於產品採用一體化生成模式，整個流程並非將模型拆分爲多個獨立環節分步處理，而是通過端到端的技術路徑完成，因此如何在該技術路徑下實現高效渲染並保障最終效果，成爲了另一關鍵挑戰。

而在需求收集過程中，百度也發現，除質量外，成本是用戶核心關切點。百度副總裁、移動生態商業體系負責人陳一凡表示，若成本居高不下，用戶接受度低，質量優勢也難以落地。因此，團隊在模型訓練階段便注重成本控制。依託在 GPU 計算領域的深厚積累，團隊通過調整訓練集、優化相關流程等大量工作，實現了效率提升。相較於上一代更側重算法策略的思路，本次充分發揮商業團隊在大模型工程領域的豐富經驗，僅用幾十天便同步達成質量提升與成本降低，更好滿足用戶需求。

百度蒸汽機視頻生成大模型升級2.0版本，價格低至行業70%

相關資訊