☰

生數科技發佈多模態高可控視頻生成模型

來源：新華網

新華網北京3月29日電（張漫子、鄧秋鈴）3月29日，中關村論壇人工智能日的主題演講上，清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍發佈多模態視頻生成模型Vidu Q1。該模型聚焦“高可控”，力求解決當前AI視頻生成過程“隨機性”的痛點。該模型於4月全球上線。

一直以來，AI視頻生成過程中的“隨機性”是老大難問題。Vidu Q1針對AI視頻隨機生成的痛點，引入多元素控制，聚焦“可控性”的提升，使AI視頻生成的技術迭代滿足當前視頻製作精品化精細化的趨勢。

Vidu Q1在多主體細節可控（特別是動作可控、佈局可控）、音效同步可控、畫質增強等方面突破顯著。

以多主體細節可控爲例，在語義指令的基礎上，通過融入參考圖的視覺指令，Vidu Q1支持對場景中多主體的位置、大小、運動軌跡等屬性進行更進一步控制，對所有動作行爲（出場、退場、坐立姿態、行動路線等）進行精準調整。

音效同步可控功能確保了隨視頻環境與畫面轉場Vidu Q1能夠輸出生成相應音效，並可精準控制每段音效的長短區間、精準設置每段音頻出現的時間點。如0-2s的風聲、3-5s的雨聲等。Vidu Q1在節省時間的同時，能顯著增強視頻的沉浸感與感染力。

此外，Vidu Q1還能進一步增強畫質，爲用戶帶去更加清晰、細膩、逼真的視覺體驗。

2024年4月，在中關村論壇未來人工智能先鋒論壇上，生數科技聯合清華大學正式發佈了視頻大模型Vidu，引發業內關注。

相關資訊