谷歌申請經檢索增強的文本到圖像生成專利,使用文本到圖像模型生成輸出圖像
金融界2025年8月12日消息,國家知識產權局信息顯示,谷歌有限責任公司申請一項名爲“經檢索增強的文本到圖像生成”的專利,公開號CN120476395A,申請日期爲2023年09月。
專利摘要顯示,用於使用文本到圖像模型並且以輸入文本和從多模態知識庫中選擇的圖像和文本對爲條件生成輸出圖像的方法、系統和設備,包括編碼在計算機存儲介質上的計算機程序。在一個方面,一種方法包括:在多個時間步中的每一個處:生成該時間步的第一特徵圖;基於一個或多個鄰居圖像和文本對與輸入文本的相似度選擇該一個或多個鄰居圖像和文本對;對於一個或多個鄰居圖像和文本對中的每個鄰居圖像和文本對,生成該鄰居圖像和文本對的第二特徵圖;在一個或多個第二特徵圖上應用注意力機制以生成關注的特徵圖;以及生成輸出圖像的針對該時間步的經更新的中間表示。
本文源自:金融界
作者:情報員