堅持不做Sora,百度爲何又開始重視多模態大模型?

百度正在強化文心大模型的多模態理解能力。

在百度AI Day上,百度集團副總裁吳甜詳細解釋了其最新發布的兩款模型文心大模型4.5 Turbo和深度思考模型X1 Turbo的技術創新之處。

她表示,文心大模型4.5和4.5 Turbo實現了文本、圖像和視頻的混合訓練。針對不同模態數據在結構、規模、知識密度上的差異,通過多模態異構專家建模、自適應分辨率視覺編碼、時空重排列的三維旋轉位置編碼、自適應模態感知損失計算等技術,大幅提升跨模態學習效率和多模態融合效果,學習效率提高近2倍,多模態理解效果提升超過30%。

文心大模型4.5於今年3月16日正式發佈,是百度首個原生多模態大模型。文心大模型4.5 Turbo在上個月舉辦的Create 2025百度AI開發者大會上對外發布,相比文心大模型4.5,其速度更快,價格下降80%,每百萬token的輸入價格僅爲0.8元,輸出價格3.2元,僅爲DeepSeek-V3的40%。

去年,百度CEO李彥宏多次公開表示,Sora這種視頻生成模型無論多火爆,百度都不去做。他給出的理由是,多模態模型尤其是視頻生成領域,幻覺問題尚未解決,這限制了大規模應用。

但字節跳動和阿里巴巴卻沒有因爲幻覺問題停止佈局多模態大模型的腳步:去年12月,字節跳動正式對外發布豆包視覺理解模型、豆包3D生成模型;今年9月和12月,阿里通義千問團隊分別對外發布視覺理解模型Qwen2-VL和多模態推理模型QVQ-72B-Previe。

從市場反饋來看,這幾款模型在處理自然語言與圖像信息的結合上靈活性強,能精準識別圖像中的內容,受到了教育、自動駕駛等領域企業的關注,在視覺-語言融合場景中展示出較大的潛力。

這意味着,此前百度多模態大模型上存在一些誤判,其在多模態模型上的佈局也比競爭對手晚了數月。

百度正在積極補齊大模型佈局短板

今年年初,DeepSeek走紅讓外界再次討論百度在大模型領域是否再次陷入了“起個大早,趕個晚集”的尷尬境地。

早在2021年,百度就對外發布了文心大模型,在行業中屬於最早一批佈局大模型的公司。但經過幾年的發展,百度在大模型領域不僅並沒能保持先發優勢,還在開源、降價、多模態等問題上出現了誤判。

界面新聞從多位百度內部人士處瞭解到,在今年第一季度總監會上,李彥宏稱去年內部沒有人提到模型開源,導致百度走了一些彎路。

DeepSeek走紅之後,百度已對此前關於開閉源的問題進行了糾偏。今年新發布的文心大模型4.5系列將於6月30日正式開源。

而在降價問題上,去年豆包、通義等大模型相繼大幅降低調用價格之後,文心大模型的主力模型並未進行跟進。直到今年的Create 2025百度AI開發者大會,百度才正式宣佈文心大模型4.5 Turbo和文心大模型X1 Turbo的價格將大幅降低。

然而,今年基礎大模型競爭的焦點已不在價格。在一位大模型從業者看來,基礎信息處理能力的提升以及成本的下降讓豆包、通義等幾款大模型在去年獲得了快速增長。深度推理能力、視覺推理能力以及Agent相關技術將成爲今年到未來幾年基礎大模型競爭的關鍵。

在當下的競爭態勢下,百度放棄此前的糾結,積極佈局多模態大模型就不難理解了。從文心大模型4.5到4.5 Turbo,從文心大模型X1到X1 Turbo,模型性能提升的同時,多模態能力也進一步增強。

根據百度方面的介紹,文心大模型4.5 Turbo多模態能力與GPT 4.1持平,不僅具有圖片理解能力,還能聽懂、看懂音視頻內容;文心大模型X1 Turbo具備跨工具調用能力,能整合搜索引擎、數據庫等外部資源完成複雜任務。在多模態交互場景中,這種工具調用能力與多模態能力相融合,使其能夠更靈活地應對各種實際問題。

李彥宏在Create 2025百度AI開發者大會上也談及了佈局多模態大模型的價值:DeepSeek也不是萬能的,它只能處理文本,還不能理解和生成圖片、音頻、視頻等多媒體內容,很多客戶都需要這種多模理解和生成能力。

對於李彥宏此前一直糾結的幻覺問題,吳甜在此次百度AI Day上也進行了重點闡釋:百度研製了自反饋增強的技術框架,基於大模型自身的生成和評估反饋能力,實現了“訓練-生成-反饋-增強”的模型迭代閉環,讓大模型擁有了自我迭代能力,顯著降低了模型幻覺,模型理解和處理複雜任務的能力大幅提升。

雖然對過去的諸多判斷進行了糾偏,但不可否認的是,百度在大模型上已經脫離了第一梯隊。很多業內人士判斷,未來的基礎大模型領域將只剩下DeepSeek、豆包和通義三強爭霸。在這種競爭格局下,百度想要翻盤面臨的挑戰也不言而喻。

數字人能否助力百度翻盤?

百度積極佈局多模態大模型,除了當下市場競爭的需要之外,另一個重要原因是,多模態大模型承載了百度對AI應用的期待。

去年以來,李彥宏多次在公開場合強調技術的商業價值。在他看來,一個沒有明確用途的AI模型,不過是一個吸引人的計算機科學展示。沒有應用,芯片、模型都沒有價值。模型會有很多,但未來真正統治這個世界的是應用。

今年以來,AI應用領域創業如火如荼,AI辦公、AI搜索、Agent等都是熱門的AI應用落地方向。但李彥宏有不一樣的判斷,他在Create 2025百度AI開發者大會上表示,AI數字人是今年最令人激動的突破性應用。聲形超擬真、內容更專業、互動更靈活的數字人,實現超越真人的體驗,在電商直播、遊戲、消費等領域,有着巨大的想象空間。

在百度AI Day上,吳甜透露了百度在數字人方面的佈局:百度研製了“劇本”驅動多模協同的超擬真數字人技術,實現了語言、聲音、形象的協調一致。目前這套技術已經支持超過10萬數字人主播,直播轉化率達31%,降低80%直播開播成本。

但也有一些從業者對數字人有不同的聲音。尤其是一些電商商家,嘗試數字人直播之後,發現真實的直播帶貨效果不盡如人意。一家美妝類的商家此前告訴界面新聞,其從去年開始嘗試數字人直播帶貨,但數字人回覆用戶留言時不僅生硬,還會出現答非所問的情況,不僅沒有帶來更高的轉化率,還引發了更多消費者投訴。

在數字人服務商世優科技CEO紀智輝看來,目前數字人直播帶貨並不好做,抖音快手等平臺的出發點依然是更好的內容和體驗。“如果用戶在平臺上刷到10個短視頻有9個都是數字人,這會破壞平臺的內容生態,各個平臺都對數字人直播進行嚴格管控也是意料之中的事。”

不過,這些不同的聲音並沒有阻止百度積極佈局數字人的腳步。根據百度此前公佈的信息,百度已與羅永浩達成合作,聯手打造羅永浩的數字人形象用於直播帶貨,並將於5月23日晚8點在百度電商開啓首場直播。

羅永浩數字人首場直播帶貨的成績有待觀望。如果數據不錯,或許能改變一些商家對數字人直播帶貨的態度,但其能給百度帶來多大商業價值,仍然需要時間驗證。