谷歌申請經由擴散模型的圖像特定微調的文本驅動圖像編輯專利,可在保持對輸入圖像的高語義和視覺保真度的同時執行編輯
金融界2025年5月27日消息,國家知識產權局信息顯示,谷歌有限責任公司申請一項名爲“經由擴散模型的圖像特定微調的文本驅動圖像編輯”的專利,公開號CN120051803A,申請日期爲2023年10月。
專利摘要顯示,提供了用於通用文本驅動圖像編輯的系統和方法,這些系統和方法的示例實現方式可以稱爲“UniTune”。UniTune可以接收任意圖像和文本編輯描述作爲輸入,並且可以在保持對輸入圖像的高語義和視覺保真度的同時執行編輯。UniTune不需要如遮罩或草圖的任何額外輸入。根據本公開的一個方面,通過正確選擇參數,本文所描述的示例系統可以在單個圖像上微調大型擴散模型(例如,Imagen),從而促使模型在視覺和語義上保持對輸入圖像的保真度,同時仍允許表現性操作。
本文源自:金融界
作者:情報員