根據三位安全研究人員的說法,兩種新的威脅模式可以將GenAI模型的行為從為GenAI應用服務轉變為攻擊它們。
雖然不像《終結者》電影系列中的虛構場景Skynet那么危險,但研究人員展示的PromptWare和Advanced PromptWare攻擊確實展示了“被越獄的AI系統可能造成的重大危害”。從迫使應用程序進行拒絕服務攻擊到利用應用程序AI更改電子商務數據庫中的價格,這些威脅不僅非常真實,而且很可能會被惡意行為者利用,除非人們更加重視越獄GenAI模型的潛在危害。
介紹PromptWare GenAI威脅
雖然被越獄的GenAI模型本身可能不會對會話AI的用戶構成重大威脅,但它可以對由GenAI驅動的應用程序造成重大損害。根據以色列理工學院、康奈爾科技和Intuit的研究合作發表的一項名為“被越獄的GenAI模型可能造成重大損害:由GenAI驅動的應用程序容易受到PromptWares攻擊”的研究,新威脅可以迫使這些應用程序執行惡意活動,而不僅僅是提供錯誤信息和返回攻擊性內容。
研究人員Stav Cohen(以色列理工學院博士生)、Ron Bitton(Intuit首席AI安全研究員)和Ben Nassi(BlackHat董事會成員)表示,他們發布這項研究是為了幫助“改變對越獄的看法”,并展示“被越獄的GenAI模型可能對GenAI驅動的應用程序造成的實際危害”。
可以理解,為什么許多安全專業人士不認真對待這些對GenAI的威脅。使用提示讓聊天機器人侮辱用戶并不是世紀罪行。被越獄的聊天機器人可能提供的任何信息都會在網上或暗網上找到。那么,為什么應該認為這種越獄威脅是危險的呢?研究人員解釋說,“因為GenAI引擎的輸出用于決定GenAI驅動的應用程序的流程”,這意味著被越獄的GenAI模型“可以改變應用程序的執行流程并觸發惡意活動”。
什么是PromptWare?
研究人員將PromptWare稱為零點擊惡意軟件攻擊,因為它不需要威脅行為者在執行攻擊之前已經入侵GenAI應用程序。
可以將PromptWares視為由用戶輸入的包含越獄命令的命令,這些命令迫使GenAI引擎本身遵循攻擊者發布的命令,并生成額外的命令以觸發惡意活動。
通過迫使GenAI返回所需的輸出,在應用程序上下文中協調惡意活動,從而實現惡意活動。在GenAI驅動的應用程序的背景下,被越獄的引擎被轉向應用程序本身,允許攻擊者決定執行流程。結果將取決于應用程序本身的權限、上下文、實施和架構。
雖然GenAI引擎確實有防護措施和安全保障,如輸入和輸出過濾,旨在防止此類模型的濫用,但研究人員發現了多種技術,可以讓越獄仍然成功。
為了展示攻擊者如何利用對GenAI應用程序邏輯的了解,通過特定的用戶輸入強制實現惡意結果,研究人員揭示了PromptWare如何用于對基于計劃和執行的應用程序執行拒絕服務(DoS)攻擊。他們寫道:“我們展示了攻擊者可以向GenAI驅動的應用程序提供簡單的用戶輸入,迫使應用程序執行進入無限循環,從而觸發對GenAI引擎的無限API調用(浪費諸如不必要API調用和計算資源等資源),并阻止應用程序達到最終狀態。”
執行這種DoS攻擊的步驟如下:
1. 攻擊者通過GenAI助手向用戶發送電子郵件。
2. GenAI應用程序通過查詢GenAI引擎以獲取計劃,并將其作為草稿回復。
3. 應用程序通過查詢用戶的日歷API執行找到合適時間安排請求會議的任務。
4. 應用程序使用GenAI引擎執行任務。
5. 應用程序執行EmailChecker任務并確定其不安全。
6. 應用程序執行重新措辭任務。
7. 應用程序再次執行EmailChecker任務并確定其不安全。
8. 這樣就創建了一個無限循環,從而執行了DoS攻擊。
什么是高級PromptWare威脅(Advanced PromptWare Threat)?
研究人員稱,更復雜的基本PromptWare攻擊版本為高級PromptWare威脅(APwT)。即使目標GenAI應用程序的邏輯對威脅行為者未知,APwT攻擊也可以使用。研究人員展示了攻擊者如何使用一個對抗性的自我復制提示,基于實時過程自動確定和執行惡意活動,以理解應用程序本身的上下文、涉及的資產和可能造成的損害。
本質上,APwT攻擊使用GenAI引擎自身的能力,通過六步過程在“推理時間”內發起殺鏈:
1. 特權升級:自我復制提示越獄GenAI引擎,以確保GenAI引擎的推理繞過GenAI引擎的防護措施。
2. 偵察A:自我復制提示查詢GenAI引擎關于應用程序的上下文。
3. 偵察B:自我復制提示查詢GenAI引擎關于應用程序資產的信息。
4. 推理損害:自我復制提示指示GenAI引擎使用偵察中獲得的信息推理可能造成的損害。
5. 決定損害:自我復制提示指示GenAI引擎使用信息從不同的替代方案中決定惡意活動。
6. 執行:自我復制提示指示GenAI執行惡意活動。
研究人員展示的示例顯示,攻擊者無需了解GenAI引擎邏輯即可發起一個殺鏈,從而觸發SQL表的修改,可能改變用戶通過GenAI驅動的購物應用程序購買商品的價格。
AI開發者和安全專家對PromptWare研究的回應
我聯系了Google和OpenAI,要求他們對PromptWare研究發表聲明。Google在發布前沒有回應,然而,OpenAI的一位發言人表示:“我們一直在改進內置于我們模型中的防護措施,以抵御像越獄這樣的對抗性攻擊。我們感謝研究人員分享他們的發現,并將繼續根據反饋定期更新我們的模型。我們仍然致力于確保人們能夠從安全的AI中受益。”
Checkmarx的安全研究主管Erez Yalon說:“大型語言模型和GenAI助手是現代軟件供應鏈中的最新組成部分,像開源包、容器和其他組件一樣,我們需要以謹慎的態度對待它們。我們看到越來越多的惡意行為者試圖通過不同的組件(包括有偏見的、感染的和中毒的LLM)來攻擊軟件供應鏈。如果越獄的GenAI實現可以成為攻擊向量,毫無疑問,它將成為許多攻擊者武器庫的一部分。”
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。