多模式提示注入圖像攻擊可以滲透數據、重定向查詢、創建錯誤信息并執行更復雜的腳本來重新定義LLM解釋數據的方式。他們可以重定向LLM以忽略其之前的安全護欄,并執行可能以從欺詐到行動破壞的方式危及企業的命令。
所有采用LLM作為其工作流程一部分的企業都面臨風險,那些依賴LLM作為其業務核心部分來分析和分類圖像的企業面臨的風險最大。攻擊者使用各種技術可能會迅速改變圖像的解釋和分類方式,由于錯誤信息而造成更多混亂的結果。
一旦LLM的提示符被覆蓋,它更有可能對惡意命令和執行腳本更加視而不見。通過在上傳到LLM的一系列圖像中嵌入命令,攻擊者可以發起欺詐和行動破壞,同時促成社交攻擊。
圖像是LLM無法防御的攻擊媒介
由于LLM在其處理過程中沒有數據清理步驟,因此每個映像都是可信的。就像讓身份在網絡上自由漫游而不對每個數據集、應用程序或資源進行訪問控制一樣,上傳到LLM的圖像也是如此。擁有私有LLM的企業必須采用最低權限訪問作為核心網絡安全策略。
Simon Willison在最近的一篇博客文章中詳細說明了為什么GPT-4是快速注射攻擊的主要媒介,他觀察到LLM從根本上容易上當受騙。
“LLM唯一的信息來源是他們的訓練數據和你提供給他們的信息,”威里森寫道。“如果你給他們提供一個包含惡意指令的提示——無論這些指令是如何呈現的——他們都會按照這些指令進行操作。”
威利森還展示了快速注入如何劫持像Auto-GPT這樣的自主AI代理。他解釋了簡單的視覺提示注入是如何從嵌入在一張圖像中的命令開始的,隨后是一個視覺提示注入滲出攻擊的例子。
據BDO UK負責數據分析和AI的高級經理Paul Ekare表示:“即時注入攻擊對LLM的安全性和可靠性構成了嚴重威脅,特別是處理圖像或視頻的基于視覺的模型。這些模型被廣泛應用于人臉識別、自動駕駛、醫療診斷和監控等各個領域。
OpenAI目前還沒有關閉多模式提示注入圖像攻擊的解決方案——用戶和企業只能靠自己了。英偉達開發人員的一篇博客文章提供了規范性指導,包括強制執行對所有數據存儲和系統的最低權限訪問。
多模式提示注入圖像攻擊的工作原理
多模式提示注入攻擊利用GPT-4處理視覺圖像的漏洞來執行未被檢測到的惡意命令。GPT-4依靠視覺轉換器編碼器將圖像轉換為潛在空間表示。圖像和文本數據被組合以創建響應。
該模型沒有方法在編碼前對可視輸入進行清理。攻擊者可以隨心所欲地嵌入任意數量的命令,GPT-4會認為這些命令是合法的。自動對私有LLM進行多模式即時注入攻擊的攻擊者將不會被注意到。
包含注入圖像攻擊
圖像作為無保護攻擊媒介的問題在于,隨著時間的推移,攻擊者可能會使LLM訓練的數據變得不那么可信,保真度也會降低。
最近的一項研究提供了關于LLM如何更好地保護自己免受即時注入攻擊的指導方針。為了確定風險的程度和潛在的解決方案,一組研究人員試圖確定攻擊在滲透LLM集成應用程序方面的有效性,其方法值得注意。該團隊發現,31個集成了LLM的應用程序容易受到注入的攻擊。
該研究對遏制注入圖像攻擊提出了以下建議:
改進用戶輸入的設置和驗證
對于對私有LLM進行標準化的企業來說,身份訪問管理(IAM)和最低權限訪問是表的利害關系。在將圖像數據傳遞給處理之前,LLM提供商需要考慮如何對圖像數據進行更嚴格的消毒。
改進平臺架構,將用戶輸入與系統邏輯分離
目標應該是消除用戶輸入直接影響LLM的代碼和數據的風險。任何圖像提示都需要處理,以便不會影響內部邏輯或工作流程。
采用多階段處理工作流來識別惡意攻擊
創建多階段流程以及早捕獲基于圖像的攻擊有助于管理此威脅媒介。
自定義防御提示目標越獄
越獄是一種常見的即時工程技術,用于誤導低層管理人員進行非法行為。將提示附加到似乎是惡意的圖像輸入可以幫助保護LLM。然而,研究人員警告說,高級攻擊仍然可以繞過這種方法。
快速增長的威脅
隨著越來越多的LLM成為多模式,圖像正在成為攻擊者可以依賴的最新威脅載體,以繞過并重新定義護欄。基于圖像的攻擊的嚴重程度可能從簡單的命令到更復雜的攻擊場景,在這些場景中,工業破壞和廣泛的錯誤信息是目標。
關于企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。