2025中關村論壇年會|生數科技發佈Vidu Q1模型
北京商報訊(記者 孔文燮)3月29日,在2025中關村論壇年會"人工智能主題日"未來人工智能先鋒論壇上,清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍發佈了高可控視頻大模型Vidu Q1。Vidu Q1 作爲業內首個高可控AI視頻大模型,其在多主體細節可控(特別是動作、佈局可控)、音效同步可控、畫質增強等方面均取得顯著成效。
以多主體細節可控爲例,在語義指令的基礎上,通過融入參考圖的視覺指令,Vidu Q1支持對場景中多主體的位置、大小、運動軌跡等屬性進行更進一步的可控,對所有動作行爲(出場、退場、坐立姿態、行動路線)進行精準調整。用戶能夠明顯體驗到用更低的抽卡率實現更高質量的可控生成。
音效同步可控功能則確保了隨着視頻環境與畫面轉場,Vidu Q1能夠輸出生成相應音效,並可精準控制每段音效的長短區間,精準設置每段音頻出現的時間點,如0-2s風聲、3-5s雨聲等,節省時間的同時,也大大增強了視頻的沉浸感與感染力。
一直以來,AI視頻生成過程中的隨機性都是老大難問題,Vidu Q1針對AI視頻生成的痛點,通過技術手段引入多元素控制,它不再是沒有頭緒的亂生成,而是到了人爲可控,讓AI視頻生成與當下精益求精製作逐漸趨向一致。