浙江大學等申請調整大語言模型輸出傾向的方法及裝置專利,確定目標註意力頭的敏感度分數
金融界2025年6月7日消息,國家知識產權局信息顯示,浙江大學;支付寶(杭州)信息技術有限公司申請一項名爲“調整大語言模型輸出傾向的方法及裝置”的專利,公開號CN120106049A,申請日期爲2025年02月。
專利摘要顯示,本說明書實施例涉及調整大語言模型輸出傾向的方法及裝置,大語言模型包括多個注意力頭,各個注意力頭具有對應的輸出變換矩陣;方法包括:首先,獲取第一提示詞,第一提示詞包含安全片段和不安全片段,安全片段用於指示大語言模型對不安全片段進行無安全風險的第一文本處理;然後,將第一提示詞輸入到大語言模型中,以確定目標註意力頭關於第一提示詞中各個詞的注意力分數;接下來,根據各個詞的注意力分數中歸屬於安全片段的第一注意力分數統計值,和歸屬於不安全片段的第二注意力分數統計值,確定目標註意力頭的敏感度分數;最後,根據大語言模型當前的輸出傾向,調整敏感度分數排名靠前和/或排名靠後的各個注意力頭對應的輸出變換矩陣的值。
本文源自:金融界
作者:情報員