浙江大學、合肥訊飛數碼科技申請基於評價反饋強化學習的錯誤抑制防護專利 提高生成式人工智能可靠性

金融界2025年6月11日消息,國家知識產權局信息顯示,浙江大學;合肥訊飛數碼科技有限公司申請一項名爲“一種基於評價反饋強化學習的錯誤抑制防護方法、系統及存儲介質”的專利,公開號CN120124602A,申請日期爲2025年02月。

專利摘要顯示,本發明公開了一種基於評價反饋強化學習的錯誤抑制防護方法、系統及存儲介質,涉及自然語言處理領域,接收初始輸入序列和相關材料,基於特定於任務的生成提示生成初始輸出;基於評價指標,使用顯式模型比較初始輸出和正確事實,得到量化的質量評價;使用語言大模型生成各評價指標對應的大模型易理解的評價反饋;使用語言大模型生成新的輸出,並將新的輸出作初始輸出,進行迭代直到評價指標滿足要求,生成改進輸出。

本文源自:金融界

作者:情報員