浙江大學和OPPO申請大語言模型推薦系統的自優化微調方法及推薦系統專利,緩解領域適配困難

金融界2025年7月18日消息,國家知識產權局信息顯示,浙江大學;OPPO廣東移動通信有限公司申請一項名爲“一種大語言模型推薦系統的自優化微調方法及推薦系統”的專利,公開號CN120338044A,申請日期爲2025年04月。

專利摘要顯示,本發明公開了一種大語言模型推薦系統的自優化微調方法及推薦系統,所述方法包括:使用自蒸餾技術生成輔助訓練數據集,所述輔助訓練數據集由經過監督微調的大語言模型根據輸入生成多個輸出,並從中選擇最接近真實項目的輸出構建而成;採用課程學習微調策略,根據大語言模型的當前學習狀態自適應調整簡單任務和困難任務的訓練權重,逐步將訓練焦點從輔助訓練數據集轉移到真實數據集。本發明通過自蒸餾技術,讓模型自身生成更接近推薦領域分佈的數據,作爲中間訓練目標,緩解領域適配困難。通過課程學習策略,動態調整訓練數據難度,使模型逐步適應真實數據分佈。通過自蒸餾生成多樣化候選輸出,並結合課程學習優化模型生成策略。

本文源自:金融界

作者:情報員