☰

谷歌發佈新AI視頻生成模型Veo3 支持同時生成畫面和背景音

【太平洋科技快訊】5月21日，在 2025 年的 I/O 開發者大會上，谷歌發佈了其最新一代視頻生成模型 Veo3，該模型的核心功能在於其強大的音效和對話生成能力。它不僅能夠生成逼真的視頻畫面，還能根據場景添加相應的背景音效，例如鳥鳴聲、街頭交通噪音、人物對話等，使得生成的視頻更加生動、真實，極具沉浸感。

此外，Veo3 在物理模擬和口型同步方面也表現出色。它能精準地模擬真實世界的動態變化，並確保生成的人物對話與其脣形變化完美匹配，進一步提升視聽體驗的真實度。

據悉，Veo3 採用了先進的自然語言處理(NLP)和語音合成技術，實現了視頻和音頻的同步生成。這一突破性技術極大地提高了創作效率，用戶只需提供文本或圖像提示，即可快速生成完整的音視頻內容。

Veo3 的應用場景十分廣泛。在影視製作領域，它可以用於快速生成預告片、場景片段，甚至可以輔助創作完整的影視作品。在虛擬現實領域，Veo3 可用於創建虛擬角色、互動場景或沉浸式體驗。此外，Veo3 的多人和多人脣形同步功能，爲數字人技術的發展帶來了新的可能性，有助於推動虛擬人類與真實人類之間的交互。

目前，Veo3 僅對美國地區的 Gemini Ultra 用戶和 Vertex AI 的企業用戶開放，並且部分功能(如 Flow)目前僅支持英文提示詞，這限制了非英語用戶的體驗。而隨着技術的進一步發展，Veo3 有望擴展到更多地區和語言，爲全球用戶提供更廣泛的支持。

谷歌發佈新AI視頻生成模型Veo3 支持同時生成畫面和背景音

相關資訊