精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

AI紅隊:構建安全AI只是夢想

責任編輯:cres

作者:Paul Barker

2025-01-20 11:08:07

來源:企業網D1Net

原創

負責100多個GenAI產品紅隊測試的團隊在論文中指出,構建安全可靠的AI系統是一項永無止境的任務。

負責微軟100多個GenAI產品紅隊測試的團隊得出結論,構建安全可靠的AI系統的工作永遠不會完成。

本周發表的一篇論文中,包括微軟Azure首席技術官Mark Russinovich在內的作者們描述了團隊的一些工作,并提出了八項建議,旨在“使紅隊測試工作與現實世界的風險相一致”。

論文的主要作者、微軟AI紅隊(AIRT)研究員Blake Bullwinkel和他的25位合著者在論文中寫道:“隨著GenAI系統在越來越多領域的應用,AI紅隊測試已成為評估這些技術安全性和可靠性的核心實踐。”

他們表示,從根本上講,“AI紅隊測試力求通過模擬對端到端系統的真實世界攻擊,超越模型級別的安全基準,然而,關于如何開展紅隊測試操作,仍存在許多未解之問,并且對當前AI紅隊測試工作的有效性也存在相當程度的懷疑。”

論文指出,微軟AI紅隊于2018年成立時,主要專注于識別傳統安全漏洞和針對經典機器學習模型的規避攻擊。“自那時以來,”論文稱,“微軟AI紅隊的范圍和規模都顯著擴大,以應對兩大主要趨勢。”

第一,AI變得更加復雜,第二,微軟近期對AI的投資催生了更多需要紅隊測試的產品。“這種數量上的增加和紅隊測試范圍的擴大,使得完全手動測試變得不切實際,迫使我們借助自動化來擴大運營規模。”作者們寫道。

“為了實現這一目標,我們開發了PyRIT,這是一個開源的Python框架,我們的操作人員在紅隊測試操作中大量使用它。通過增強人類的判斷力和創造力,PyRIT使AIRT能夠更快地識別出有影響力的漏洞,并覆蓋更多的風險領域。”

基于他們的經驗,Bullwinkel和作者團隊分享了八條他們學到的教訓,并在論文中通過詳細的解釋和案例研究進行了闡述。這些教訓包括:

了解系統的功能和應用場景:AI紅隊測試操作的第一步是確定要針對哪些漏洞,他們說。他們建議:“從潛在的下游影響出發,而不是從攻擊策略出發,這樣更有可能使操作產生與現實世界風險相關的有用發現。在確定這些影響后,紅隊可以逆向工作,概述攻擊者可能采取的各種路徑來實現這些影響。”

無需計算梯度即可破壞AI系統:為了證明這一點,論文引用了一項關于對抗性機器學習研究與實踐之間差距的研究。研究發現,“盡管大多數對抗性機器學習研究都集中在開發和防御復雜的攻擊上,但現實世界中的攻擊者往往使用更簡單的技術來實現他們的目標。”作者們說,基于梯度的攻擊雖然強大,“但它們往往不切實際或沒有必要。我們建議優先考慮簡單技術,并策劃系統級別的攻擊,因為這些更可能被真實的對手嘗試。”

AI紅隊測試不是安全基準測試:作者說,這兩者截然不同,但“都很有用,甚至可以相輔相成。特別是,基準測試使得在公共數據集上比較多個模型的性能變得容易。AI紅隊測試需要更多的人力,但可以發現新的危害類別,并探查情境化的風險。”AI系統中新功能帶來的新危害可能無法完全理解,因此團隊必須定義它們,并構建工具來測量它們。

自動化有助于覆蓋更多的風險領域:作者們表示,“AI風險領域的復雜性導致開發了各種工具,這些工具可以更快地識別漏洞,自動運行復雜的攻擊,并在更大的規模上進行測試。”AI紅隊測試中的自動化發揮著關鍵作用,這促成了開源框架PyRIT的開發。

AI紅隊測試中的人為因素至關重要:自動化可能很重要,但作者們強調,雖然“像PyRIT這樣的自動化工具可以通過生成提示、策劃攻擊和評分響應來支持紅隊測試操作”,但需要人類來提供文化和專業知識,以及情感智力。他們指出,“這些工具很有用,但不應以取代人類為目的來使用它們。”

負責任AI(RAI)的危害無處不在,但難以衡量:這里的底線是:RAI的危害比安全漏洞更加模糊,這都與“AI系統和傳統軟件之間的根本差異”有關。作者們指出,大多數AI安全研究都關注故意破壞防護欄的對抗性用戶,而事實上,他們堅持認為,意外生成有害內容的良性用戶同樣或更加重要。

大型語言模型(LLM)放大了現有的安全風險,并引入了新的風險:這里的建議是什么?GenAI模型集成到各種應用中,引入了新的攻擊向量,并改變了安全風險格局。作者們寫道,“因此,我們鼓勵AI紅隊同時考慮現有的(通常是系統級別的)和新的(通常是模型級別的)風險。”

確保AI系統安全的工作永遠不會完成:他們認為,僅通過技術進步來保證或“解決”AI安全是不現實的,并且忽視了經濟學、修復周期和監管可以發揮的作用。鑒于此,論文指出,“在沒有安全和可靠保障的情況下,我們需要開發盡可能難以破壞的AI系統的方法。一種方法是使用修復周期,即進行多輪紅隊測試和緩解,直到系統對廣泛的攻擊具有魯棒性。”

報告的作者們得出結論,AI紅隊測試是一種新興且快速發展的實踐,用于識別AI系統帶來的安全和可靠風險,但他們也提出了一系列問題。

“我們該如何探查LLM中諸如說服、欺騙和復制等危險能力?”他們問道。“此外,我們應該在視頻生成模型中探查哪些新的風險,以及比當前最先進水平更先進的模型中可能會出現哪些能力?”

其次,他們問道,紅隊如何調整其做法以適應不同的語言和文化背景。第三,他們想知道紅隊測試做法應該如何標準化,以便團隊更容易交流其發現。

他們還表示,“隨著全球各地的公司、研究機構和政府都在努力解決如何進行AI風險評估的問題,我們根據我們在微軟對100多個GenAI產品進行紅隊測試的經驗,提供了實用建議。我們鼓勵其他人在這些經驗的基礎上更進一步,并解決我們強調的未解問題。”

企業網D1net(hfnxjk.com):

國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。

版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

AI

鏈接已復制,快去分享吧

企業網版權所有?2010-2025 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 九寨沟县| 乌苏市| 中山市| 石台县| 高密市| 黄大仙区| 淅川县| 东莞市| 衡阳县| 巍山| 民乐县| 平安县| 禹州市| 万荣县| 堆龙德庆县| 天全县| 兴国县| 沾益县| 稷山县| 阜宁县| 琼海市| 石林| 五峰| 吐鲁番市| 琼中| 罗甸县| 越西县| 济南市| 庆元县| 石景山区| 三河市| 裕民县| 英山县| 新巴尔虎左旗| 法库县| 通许县| 东兰县| 江安县| 施秉县| 永川市| 台中市|