☰

賽道Hyper | 百度取道特定場景攻略AIGC視頻

作者：周源/華爾街見聞

在生成式AI技術從實驗室走向產業應用的過程中，視頻生成因其技術複雜度高、場景需求多元，始終是行業攻堅的重點領域。

百度商業研發團隊在7月2日推出的視頻生成MuseSteamer模型及“繪想”平臺，瞄準了搜索、廣告和推薦場景中原生化內容生產的實際痛點，試圖通過技術適配性優化，探索AIGC視頻落地的可行路徑，宣告了百度開始進軍AI（人工智能）視頻生成領域。

值得一提的是，2024年，Sora爆火引發生成式視頻大模型熱潮，百度創始人、董事長兼CEO李彥宏在一場內部講話中稱，Sora這種視頻生成模型的投入週期太長，10年、20年都可能拿不到業務收益，無論多火爆，百度都不去做。

百度技術團隊不惜“打臉”李彥宏，很可能是解決了視頻生成的核心挑戰——如何讓視覺元素與聲音信息在時間軸上形成自然協同；另外，7月2日有消息稱，李彥宏在2024年那場閉門會議上還提了一嘴：基於多模態需求，可以做一個相對特定的視頻生成場景。

MuseSteamer正是一個相對特定的視頻生成模型，從這個角度看，也確實算不上打臉老闆。

這個模型的技術設計，解決了聚焦於中文語境下的多模態語義對齊問題。

與英文相比，中文的語義模糊性、語境依賴性更強，一句“這個產品很給力”，既可能需要畫面呈現產品性能測試，也可能需要通過人物表情傳遞讚歎情緒，對應的音效設計更是千差萬別。

爲解決這問題，MuseSteamer底層數據處理採用了“場景顆粒度拆解”方案：將億級中文視頻數據按“生活服務、電商展示、知識科普”等23個搜廣推高頻場景分類，每個場景下再細分“動作-情緒-效果”三級標籤。

比如在電商場景中，“服裝展示”被拆解爲“靜態懸垂（動作）-無情緒（情緒）-布料質感（效果）”等子標籤，使模型能精準理解“這件裙子垂感很好”等描述對應的音畫表現形式。

這樣的場景化訓練思路，直接體現在生成效果上。

在測試中，針對“講解手機拍照功能”指令，模型能自動匹配“鏡頭推拉（畫面）+按鍵音效（聲音）+平緩解說（人聲）”組合，而同類英文模型往往出現“畫面快速切換卻搭配慢速解說”的錯位情況。

百度做出的此類優化雖不涉及顛覆性技術創新，卻切中了中文商業內容生產的實際需求。

百度商業體系商業研發總經理劉林表示，在數字內容創作領域，視頻時長與畫質的突破通常意味着創作自由度的質變。

MuseSteamer可支持電影級審美10秒長視頻的生成，1080P的高清晰度，爲視頻創作提供了更大的表現空間。

劉林表示，傳統AIGC視頻創作實踐中，一般先生成視頻，再做配音和添加音效。這種割裂的創作環節不僅消耗大量時間，更會削弱作品的完整藝術表達。

MuseSteamer創新性支持一體化生成帶有音效和人物臺詞的視頻。就視頻長度而言，MuseSteamer可生成5秒和10秒兩個版本，均能達到1080p清晰度。

百度此次同步發佈MuseSteamer模型的家族版本，包括Turbo、Lite和Pro，以及各版本對應的有聲版，分別面向不同的創作需求和成本考量。

“繪想”平臺的版本矩陣，本質是對不同用戶成本結構的差異化迴應。

Turbo版的免費公測策略，瞄準的是中小商家試錯成本敏感的特點：淘寶店主在嘗試生成產品視頻時，最擔心的是“花了錢卻不符合平臺算法推薦偏好”，免費模式使其可快速測試不同畫面風格與轉化率的關聯。

Pro版的付費設計則對應專業機構的時間成本痛點；全系列有聲版對“邊際成本的控制。

傳統廣告製作中，每增加一種方言配音，需額外支付配音演員酬勞，而有聲版通過中文語音合成技術的遷移應用，支持粵語、川語等8種方言的即時生成，使區域化營銷內容的邊際製作成本大幅降低。

作爲最早佈局大模型的國內科技企業的一份子，百度競逐視頻生成賽道，與字節跳動和快手等對手相比，屬實“後（luo）發（hou）”。

快手旗下的可靈AI在今年5月宣佈，推出全新2.1系列模型，高品質模式（1080p）下生成5秒視頻僅需不到60s。

快手官網信息顯示，可靈AI在推出10個月之後（即今年3月）的年化收入運行率（Annualized Revenue Run Rate）突破1億美元，今年4月和5月的月度付費金額均超過1億元人民幣。

除了在2024年宣佈領投清華系視頻大模型公司生數科技之外，百度在生成式視頻領域沒有更多動作；到今年3月，百度發佈文心大模型4.5和4.5 Turbo，實現文本、圖像和視頻混合訓練。

與對手相比，在國內AIGC視頻賽道，百度看上去是取道差異化競爭路徑：做“特定場景生成視頻”，而非全場景模式。

與專注泛娛樂內容的同類產品相比，“繪想”的核心優勢在於與搜索、廣告等商業場景的深度綁定。

比如繪想生成的視頻可直接成爲百度信息流廣告系統的一個功能模塊，自動匹配用戶搜索關鍵詞做動態優化；純工具類產品難以複製“創作-分發-反饋”的閉環能力。

此等場景協同也體現在數據積累層面。

百度廣告平臺的億級條用戶互動數據（比如視頻第幾秒用戶點擊了購買按鈕），反向成爲 MuseSteamer的優化依據，使模型能學習到“促銷信息在視頻第8-10秒出現時轉化率最高” 之類的商業規律，這種數據壁壘比單純的模型參數更具競爭力。

果然百度的追求還是收益，當然商業價值考量是商業公司的立足之本。

隨着技術的不斷迭代，AIGC視頻工具的競爭焦點，從“能不能生成”轉向“生成的內容能不能用”。

百度此次推出的產品，未必在技術參數上如何領先，但通過對商業場景需求的精準捕捉，爲行業提供了一種技術落地的可行範式。

故而百度“繪想”的價值不在於顛覆內容生產，而在於用技術填補傳統流程中的效率窪地。應當說，這是一條務實的推進路徑，畢竟商業化能力纔是技術能否快速發展的主要推動力。

相關資訊