谷歌發佈新AI視頻生成模型Veo3 支持同時生成畫面和背景音
【太平洋科技快訊】5月21日,在 2025 年的 I/O 開發者大會上,谷歌發佈了其最新一代視頻生成模型 Veo3,該模型的核心功能在於其強大的音效和對話生成能力。它不僅能夠生成逼真的視頻畫面,還能根據場景添加相應的背景音效,例如鳥鳴聲、街頭交通噪音、人物對話等,使得生成的視頻更加生動、真實,極具沉浸感。
此外,Veo3 在物理模擬和口型同步方面也表現出色。它能精準地模擬真實世界的動態變化,並確保生成的人物對話與其脣形變化完美匹配,進一步提升視聽體驗的真實度。
據悉,Veo3 採用了先進的自然語言處理(NLP)和語音合成技術,實現了視頻和音頻的同步生成。這一突破性技術極大地提高了創作效率,用戶只需提供文本或圖像提示,即可快速生成完整的音視頻內容。
Veo3 的應用場景十分廣泛。在影視製作領域,它可以用於快速生成預告片、場景片段,甚至可以輔助創作完整的影視作品。在虛擬現實領域,Veo3 可用於創建虛擬角色、互動場景或沉浸式體驗。此外,Veo3 的多人和多人脣形同步功能,爲數字人技術的發展帶來了新的可能性,有助於推動虛擬人類與真實人類之間的交互。
目前,Veo3 僅對美國地區的 Gemini Ultra 用戶和 Vertex AI 的企業用戶開放,並且部分功能(如 Flow)目前僅支持英文提示詞,這限制了非英語用戶的體驗。而隨着技術的進一步發展,Veo3 有望擴展到更多地區和語言,爲全球用戶提供更廣泛的支持。