兼顧隱私與效能!Google推出史上最強差分隱私大型語言模型VaultGemma

▲Google研究團隊宣佈推出全新VaultGemma模型

Google研究團隊宣佈推出全新VaultGemma模型,號稱是目前最強大、完全從零開始訓練,並且具備差分隱私 (Differential Privacy, DP)保護的大型語言模型,更同步釋出模型權重至Hugging Face和Kaggle平臺,讓開發者與學界能自由使用、驗證與改進。

隨着生成式AI深入日常,隱私保護成爲AI發展的重要課題。差分隱私透過在訓練過程中加入「噪聲」,降低模型記憶個別資料的風險,但也會帶來訓練穩定性下降、批次規模與運算成本增加等挑戰。

Google表示,此次與DeepMind合作進行的研究首度建立起「差分隱私模型縮放定律」 (scaling laws),能精確預測在不同運算、隱私、資料預算下的最佳訓練配置,成爲訓練高效能差分隱私模型的重要指南。

▲差分隱私縮放定律的結構,Google指出預測損失可以主要使用模型大小、迭代次數和雜訊批次比來精確建模,進而簡化計算、隱私和資料預算之間的複雜交互作用

VaultGemma採用10億組參數規模設計,是以Gemma 2爲基礎的全新版本。Google研究團隊透過系統化實驗,量化模型大小、訓練迭代次數與噪聲比率之間的關係,並且指出差分隱私訓練下最佳策略是「以更小模型搭配更大批次訓練」。透過此策略,VaultGemma得以在更高隱私保護下達成接近非隱私模型的效能,與五年前的非差分隱私模型相比幾乎無差距。

在技術層面,VaultGemma採用可擴展的DP-SGD演算法,並且改進Poisson抽樣方式,使每個批次大小一致,同時保留強隱私保障。最終模型達到 (ε ≤ 2.0, δ ≤ 1.1e-10)的序列級差分隱私保護,確保即便單一訓練樣本遭查詢,也幾乎無法被模型重現。而Google也進行記憶化測試,結果顯示VaultGemma幾乎不會「背書」任何訓練資料。

▲就噪音批次比的影響而言,增加隱私預算 (epsilon)和運算預算 (批次大小)的邊際效益

Google指出,雖然目前差分隱私模型效能仍略遜於完全非隱私版本,但已成功縮小差距,並且有明確研究路線可進一步改善。VaultGemma不僅展現Google對隱私保護運作的長期承諾,也爲業界與學界提供一個可重現、可驗證的基準,推動下一代「以隱私爲核心」的AI發展。

▲VaultGemma 1B (差異隱私)與其非隱私版本 (Gemma3 1B),以及較早的基線 (GPT-2 1.5B)的效能比較,結果量化當前隱私所需的資源投入,並且顯示現代差分隱私訓練產生的效用與大約五年前的非隱私模型相當。

對開發者來說,VaultGemma的釋出不僅提供訓練好的模型,也附上完整技術報告與最佳化建議,方便企業和研究團隊根據自身計算與隱私需求進行調整。這意味着未來有望看到更多企業能以較低的隱私風險導入AI,滿足法規要求並保護用戶資料,同時仍享有高效能模型的好處。

Google最後強調,VaultGemma只是第一步,未來會持續改進差分隱私訓練機制,進一步提升效能,並且降低運算門檻,讓「既安全又聰明」的AI成爲市場常態。

VaultGemma、非差分隱私的Gemma,以及早期GPT-2模型的參數與效能表現比較:

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》