☰

浙江大學、合肥訊飛數碼科技申請基於評價反饋強化學習的錯誤抑制防護專利提高生成式人工智能可靠性

金融界2025年6月11日消息，國家知識產權局信息顯示，浙江大學;合肥訊飛數碼科技有限公司申請一項名爲“一種基於評價反饋強化學習的錯誤抑制防護方法、系統及存儲介質”的專利，公開號CN120124602A，申請日期爲2025年02月。

專利摘要顯示，本發明公開了一種基於評價反饋強化學習的錯誤抑制防護方法、系統及存儲介質，涉及自然語言處理領域，接收初始輸入序列和相關材料，基於特定於任務的生成提示生成初始輸出；基於評價指標，使用顯式模型比較初始輸出和正確事實，得到量化的質量評價；使用語言大模型生成各評價指標對應的大模型易理解的評價反饋；使用語言大模型生成新的輸出，並將新的輸出作初始輸出，進行迭代直到評價指標滿足要求，生成改進輸出。

本文源自：金融界

作者：情報員

浙江大學、合肥訊飛數碼科技申請基於評價反饋強化學習的錯誤抑制防護專利 提高生成式人工智能可靠性

相關資訊

浙江大學、合肥訊飛數碼科技申請基於評價反饋強化學習的錯誤抑制防護專利提高生成式人工智能可靠性