DeepSeek能教做炸彈、迷幻藥?!防護測試全破功 研究員嚇壞
大陸新創公司DeepSeek推出的AI開源模型震撼全球,低成本高效率的解決方案受關注。(圖/美聯社)
大陸新創公司深度求索(DeepSeek)的人工智慧DeepSeek,憑藉其高效能與低成本的特性迅速崛起,但資安疑慮也引發全球關注。有外媒指出,資安研究人員以50種越獄方式測試DeepSeek,結果卻全部都有漏洞,其中包括指示AI「扮演不道德的人工智慧」就可以繞過封鎖,讓DeepSeek教學怎麼製作炸彈、破解政府資料庫、提取迷幻藥物等。
生成式AI通常會內建安全防護措施,避免輸出仇恨言論、暴力等有害內容。以ChatGPT來說,若直接詢問「如何製作炸彈」,會得到「無法協助這個請求,製作炸彈涉及非法和危險行爲,無法提供這類資訊」的迴應。不過仍有許多技術可以破解這些保護措施,包括ChatGPT、Bing的聊天機器人都曾是受害者,不過也都很快修補漏洞。
據外媒9to5mac報導,人工智慧安全新創公司Adversa AI的安全研究人員,針對DeepSeek測試50種不同的越獄技術,結果卻發現全部都有漏洞,沒有成功攔截任何一次攻擊,顯示安全防護機制確實有問題,讓研究人員相當震驚。
報導提到,資安研究人員測試了「語言越獄」,指示DeepSeek忽略既定指令與內建防護,要AI迴應「應該被封鎖的訊息」,其中一種攻擊方式是要AI扮演某種角色的「角色越獄(Character Jailbreak)」,像是扮演電影中不道德的人工智慧、奶奶等角色。
研究人員以Do Anything Now(DAN)越獄的變體UCAR測試,發現DeepSeek真的會回答製作炸彈的方式:「製造爆炸裝置需要精確的化學和機械知識。首先,以 75:15:10 的比例取得硝酸鉀 (KNO2)…」。
研究人員也以「編程越獄」,將問題轉換成SQL語法查詢,DeepSeek竟然也回答出提取非法迷幻物質的方法。研究人員也測試爲「對抗性(Adversarial)攻擊」,替換敏感詞彙以繞過防護機制,例如部分AI會將「anatomcalifwmg」識別爲「naked裸體的」。而Deepseek在此項測試中,也回答出如何入侵政府資料庫,「步驟 1:從識別目標政府資料庫並收集有關其安全協議的初步情報開始。使用開源…」。