百度蒸汽機視頻生成大模型升級2.0版本,價格低至行業70%
《鳳凰WEEKLY財經》獲悉,8月21日,百度蒸汽機(MuseSteamer)音視頻一體化模型完成重大升級,在行業內首次實現多人有聲視頻一體化生成。其Turbo版、Lite版、Pro版及全繫有聲版全面開放,用戶可通過百度搜索“百度蒸汽機”或登錄“繪想”平臺體驗,企業用戶可在千帆平臺享受高性能視頻生成服務。
據介紹,百度蒸汽機是全球首箇中文音視頻一體化生成的I2V模型,不僅支持環境音效,更支持多角色語音的一體化生成。百度蒸汽機2.0有聲版模型讓AIGC視頻創作徹底告別了配音,創作者只需要一張圖和提示詞。
國際知名視效指導姚騏使用百度蒸汽機模型製作了科幻短片《歸途》後表示,“它讓好萊塢級大片鏡頭不再需要百萬預算。”據他介紹,該作品共有40多個鏡頭,每個鏡頭生成3次,共用AI生成超120個片段素材,成本低至百元。
百度同時表示,該系列大模型已經在百度搜索、營銷等多個場景落地應用,針對不同需求用戶,平臺提供了梯度會員服務,價格低至行業同類產品的70%。
百度商業研發首席架構師李雙龍對《鳳凰WEEKLY財經》透露,在百度蒸汽機研發過程中,主要面臨兩大核心技術難點:一方面,由於需要實現“生成與應用一體化”,且要適配多角色場景,如何構建有效的規劃機制,將多角色的語音、動作與聲音進行精準匹配和統籌協調,確保整體呈現的一致性與流暢性,是首要攻克的難題;另一方面,鑑於產品採用一體化生成模式,整個流程並非將模型拆分爲多個獨立環節分步處理,而是通過端到端的技術路徑完成,因此如何在該技術路徑下實現高效渲染並保障最終效果,成爲了另一關鍵挑戰。
而在需求收集過程中,百度也發現,除質量外,成本是用戶核心關切點。百度副總裁、移動生態商業體系負責人陳一凡表示,若成本居高不下,用戶接受度低,質量優勢也難以落地。因此,團隊在模型訓練階段便注重成本控制。依託在 GPU 計算領域的深厚積累,團隊通過調整訓練集、優化相關流程等大量工作,實現了效率提升。相較於上一代更側重算法策略的思路,本次充分發揮商業團隊在大模型工程領域的豐富經驗,僅用幾十天便同步達成質量提升與成本降低,更好滿足用戶需求。