亞馬遜雲科技解讀:如何解決大模型“幻覺”導致的安全問題
2月19日消息,DeepSeek持續火熱,影響範圍極廣,成爲中國的“OpenAI時刻”,當下,各行各業開始抓緊接入和部署DeepSeek的相關模型。但是,在Vectara HHEMAI幻覺測試中,DeepSeek-R1顯示出14.3%的幻覺率,高於此前V3版本3.9%的表現。
所以,“幻覺”的存在使得大模型部署成爲“技術活”。
可以看到,即便是像DeepSeek R1這樣的業界領先模型,也無法避免幻覺問題。而幻覺問題只是企業級AI部署和應用當中的一環,此外,還需要考慮潛在的安全風險、保護敏感信息、實施負責任AI和合規等一系列問題。
據亞馬遜雲科技介紹,面對DeepSeek R1和更多重量級的開源模型部署和應用需求,亞馬遜雲科技提供安全防護指南三部曲,涵蓋基礎的安全防護,有害內容的過濾防護,以及穩健的深度防禦策略。
其中,基礎的安全防護包含與Amazon Bedrock深度集成的一系列亞馬遜雲科技安全和身份訪問管理服務,從而提供全面的安全功能,可以確保開源模型的安全託管和運營,同時維護數據隱私與合規。Amazon Bedrock的Guardrails安全防護欄功能則提供可配置的防護欄策略,可應用於推理過程的輸入和輸出環節,還可擴展到外部的自定義模型和第三方模型當中,從而輕鬆過濾敏感信息和不當內容,以及任何你不希望其生成的有害內容。值得一提的是,Amazon Bedrock Guardrails提供了自動化推理功能,它可以輕鬆檢查因模型幻覺而導致的事實性錯誤。
模型級別的保護只是全面安全策略的一個組成部分,亞馬遜雲科技提供的深度防禦策略可以幫助企業級用戶更好地應對OWASP(Open Worldwide Application Security Project開放式Web應用程序安全項目)大模型應用十大風險,包括提示詞注入、敏感信息泄漏、供應鏈、數據與模型投毒、不當輸出處理等。亞馬遜雲科技認爲“要想借助任何新興技術成功實現創新成功,就需要從秉持安全優先的理念出發,以安全的基礎設施爲基礎,並儘早運用深度防禦的安全策略,思考如何在技術堆棧的各個層面進一步融入安全措施。”
在大家廣爲關注的有害信息處理層面,亞馬遜雲科技解讀道,針對有害信息處理,Amazon Bedrock推出了Guardrails安全防護欄功能。該功能提供兩種使用方式,首先,它可以直接與調用模型式(InvokeModel)或對話式(Converse)API集成,在推理過程中,防護機制會應用於輸入提示和模型輸出。其次,它可以通過ApplyGuardrail API調用,這是一種更靈活的調用方式,允許在不調用模型的情況下直接對內容進行評估,對於在應用程序的各個階段評估輸入或輸出很有用,可用於處理自定義模型或第三方模型。
這兩種方法都使開發人員能夠根據其用例實施定製的安全防護措施,並與負責任AI政策保持一致,確保生成式AI應用程序中的交互安全合規。
具體來看,Amazon Bedrock Guardrails提供的配置防護策略包括內容過濾、主題過濾、詞彙過濾、敏感信息過濾,以及上下文基礎檢查等多個方面,可調節有害內容的過濾強度類別,限制特定主題以防止查詢和響應中出現未經授權的主題,屏蔽特定的詞彙,阻止個人信息查詢等。此外,策略中還包含用於防止幻覺的自動推理檢查功能。模型之外,這些策略還支持Amazon Bedrock中的基礎模型、微調模型以及通過ApplyGuardrail API擴展的外部自定義模型和第三方模型(如自建或外部的DeepSeek)。
此處特別值得強調的是用於防止幻覺的自動化推理檢查功能。自動化推理是AI技術的一個分支,它運用數學邏輯方法來驗證內容的正確性。在處理用戶需要精確答案的問題時,自動化推理表現出色,尤其是在那些主題廣泛且複雜、並有一套明確定義的業務規則或知識體系的領域。亞馬遜雲科技擁有一支由世界一流的自動化推理專家組成的團隊,他們過去十年使用這項技術在整個亞馬遜雲科技改善用戶體驗,在包括Amazon S3等核心服務中得到廣泛應用。Amazon Bedrock Guardrails中的自動化推理檢查功能在2024re:Invent大會上首次推出。該功能可讓Amazon Bedrock驗證事實響應的準確性,生成可審計的輸出,並向客戶清晰展示模型得出結果的原因。這提升了透明度,確保模型響應符合客戶的規則和政策。
用戶在設置好相關的亞馬遜雲科技賬戶和權限後,即可輕鬆開啓Amazon Bedrock Guardrails以進行有害信息處理,例如,通過Amazon Bedrock自定義模型導入功能導入的DeepSeek-R1蒸餾模型,併爲其創建一組包含各種過濾策略的安全護欄。針對由Amazon Bedrock和Amazon SageMaker導入的開放權重的蒸餾模型,亞馬遜雲科技建議爲這些模型設置以下關鍵過濾器——提示詞攻擊、內容審查、主題限制和敏感信息保護。
針對大模型部署,亞馬遜雲科技大中華區產品部總經理陳曉建近期表示:“2024年我們看到許多客戶從思考階段進入實踐階段,進行了大量場景試驗。但是我覺得2025年肯定會發生一個變化,很多客戶將從原型驗證階段轉化爲生產階段,這是必經之路。屆時客戶需求將更加複雜,不僅是選擇模型,還需要各種技術支持。我們開發Amazon Bedrock的目的不僅是提供模型市場,更重要的是提供能讓模型推理運行時所需的各種生產力工具和生產環境工具,這纔是Amazon Bedrock的真正價值所在。”
“事實性錯誤通過人工不難發現,因爲它是明確的對錯問題。以前大模型缺乏可證明事實的邏輯,導致出現幻覺時難以糾正。但有了自動推理技術,我們能夠通過數學驗證方式嚴密證明事實性錯誤是否會發生,從而有效改善幻覺問題。”陳曉建如是說。(定西)
本文來自本站科技報道,更多資訊和深度內容,關注我們。