生數科技發佈多模態高可控視頻生成模型

來源:新華網

新華網北京3月29日電(張漫子、鄧秋鈴)3月29日,中關村論壇人工智能日的主題演講上,清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍發佈多模態視頻生成模型Vidu Q1。該模型聚焦“高可控”,力求解決當前AI視頻生成過程“隨機性”的痛點。該模型於4月全球上線。

一直以來,AI視頻生成過程中的“隨機性”是老大難問題。Vidu Q1針對AI視頻隨機生成的痛點,引入多元素控制,聚焦“可控性”的提升,使AI視頻生成的技術迭代滿足當前視頻製作精品化精細化的趨勢。

Vidu Q1在多主體細節可控(特別是動作可控、佈局可控)、音效同步可控、畫質增強等方面突破顯著。

以多主體細節可控爲例,在語義指令的基礎上,通過融入參考圖的視覺指令,Vidu Q1支持對場景中多主體的位置、大小、運動軌跡等屬性進行更進一步控制,對所有動作行爲(出場、退場、坐立姿態、行動路線等)進行精準調整。

音效同步可控功能確保了隨視頻環境與畫面轉場Vidu Q1能夠輸出生成相應音效,並可精準控制每段音效的長短區間、精準設置每段音頻出現的時間點。如0-2s的風聲、3-5s的雨聲等。Vidu Q1在節省時間的同時,能顯著增強視頻的沉浸感與感染力。

此外,Vidu Q1還能進一步增強畫質,爲用戶帶去更加清晰、細膩、逼真的視覺體驗。

2024年4月,在中關村論壇未來人工智能先鋒論壇上,生數科技聯合清華大學正式發佈了視頻大模型Vidu,引發業內關注。