人工智能和機器學習在帶來好處的同時也帶來了新的漏洞。本文介紹了幾家公司是如何將風險降到最低的。
當企業采用了新技術時,安全性往往會被擱置一邊。盡快以最低的成本向客戶和內部用戶提供新的產品或服務似乎更為重要。而良好的安全性則可能是緩慢和昂貴的。
人工智能(AI)和機器學習(ML)不僅提供了與早期技術進步相同的漏洞和錯誤配置機會,也有其獨特的風險。隨著企業開始進行以人工智能為動力的數字化轉型,這些風險可能會變得更大。“這不是一個很好的搶占領域。”Booz Allen Hamilton的首席科學家Edward Raff說。
與其他技術相比,AI和ML需要更多的數據以及更復雜的數據。數學家和數據科學家所開發的算法是從研究項目中走出來的。“我們只是最近才開始從一個科學界的角度來理解人工智能所存在安全問題。”Raff說。
數量和處理需求也意味著云平臺通常還要繼續處理工作負載,這增加了另一個級別的復雜性和脆弱性。對于人工智能使用者來說,網絡安全是最令人擔憂的風險,這一點也不奇怪。德勤在2020年7月發布的一項調查顯示,62%的采訪者認為網絡安全風險是一個重大或極端問題,但只有39%的人表示他們已經準備好應對這些風險。
使問題變得更加復雜的是,網絡安全也是人工智能最重要的功能之一。德勤的技術、媒體和電信中心執行董事Jeff Loucks表示,與人工智能合作的組織越有經驗,他們就越擔心網絡安全風險。
此外,企業,即使是更有經驗的企業,也沒有能夠遵循的基本安全實踐,例如保留所有人工智能和最大限度語言項目的完整清單或是進行審計和測試。“公司現在在實施這些措施方面做得并不好。”Loucks說。
由AI和ML的數據需求所帶來的風險
AI和ML系統需要三組數據:
•建立預測模型的訓練數據
•評估模型工作情況的測試數據
•當模型投入工作時,實時的業務或運營數據
雖然實時的業務或運營數據顯然是一項寶貴的公司資產,但也很容易忽略其中包含敏感信息的訓練和測試數據池。
許多用于保護其他系統中數據的原則也可以應用于AI和ML項目,包括匿名化、令牌化和加密。第一步是詢問是否真的需要數據。在為AI和ML項目做準備時,收集所有可能的數據,然后看看能用它們做些什么是很誘人的。
關注業務成果可以幫助企業將收集的數據限制在需要的范圍之內。“數據科學團隊可能非常渴望數據。”為教育機構分析學生數據的Othot公司首席技術官John Abbatico表示。“我們在處理學生數據時明確表示,高度敏感的PII[個人身份信息]是不需要的,也不應包含在提供給我們團隊的數據當中。”
當然,錯誤確實會發生。例如,客戶有時會提供敏感的個人信息,如社會保險號碼。這些信息不會提高模型的性能,但卻會產生額外的風險。Abbatico說他的團隊有一個程序來識別PII,從所有系統中清除它,并將錯誤通知給客戶。“我們不認為這是一起安全事件,但我們的做法會讓它看起來像是。”
人工智能系統也需要情境化的數據,這會大大增加公司的風險敞口。假設一家保險公司希望更好地掌握其客戶的駕駛習慣,它可以購買購物、駕駛、位置和其他的數據集,這些數據集可以很容易地相互關聯并與客戶賬戶相匹配。這種新的、指數級的豐富數據集對黑客也更有吸引力,如果被攻破,對公司的聲譽也更具破壞性。
人工智能的安全性設計
在線文件共享平臺Box是一家需要保護大量數據的公司。Box正在使用AI來提取元數據,以提高搜索、分類等能力。“例如,我們可以從合同中提取條款、續約和定價信息。”Box的CISO Lakshmi Hanspal說。“我們的大多數客戶大都來自這樣一個時代,他們的內容分類要么是用戶定義的,要么是完全被忽視的。他們坐擁的數據堆積如山,這些數據可能對數字化轉型有用--如果內容能夠被分類、自我感知,而不需要等待人類行動的話。”
Hanspal說,保護數據是Box的一個關鍵支柱,同樣的數據保護標準也適用于人工智能系統,包括訓練數據。“在Box,我們相信我們建立的是信任,我們銷售的是信任,我們維護的也是信任。我們堅信,這需要融入我們為合作伙伴和客戶提供的產品當中,而不是被捆綁在一起。”
這意味著所有系統,包括新的人工智能項目,都應該是圍繞核心數據安全原則而構建的,包括加密、日志記錄、監控、身份驗證和訪問控制。“數字信任是我們平臺與生俱來的,我們需要將它付諸實踐。”Hanspal說。
Box為傳統代碼和新的AI和ML驅動的系統提供了一個安全的開發流程。“我們在開發安全產品方面符合國際標準化組織的行業標準,”Hanspal說。“基于設計的安全性是內置的,并且存在著制衡機制,包括滲透測試和紅隊測試。這是一個標準的流程,AI和ML項目不會有什么不同。”
數學家和數據科學家在編寫AI和ML算法代碼時,一般不需要擔心潛在的漏洞。企業在構建AI系統時,會借鑒可用的開源算法,使用商業“黑盒”AI系統,或者從頭構建自己的系統。
使用開放源代碼,攻擊者就有可能在惡意代碼中溜走,或者代碼中包含漏洞或脆弱的依賴關系。專有商業系統也會使用開源代碼,再加上企業客戶通常看不到的新代碼。
逆向攻擊是一個主要威脅
AI和ML系統通常是開源庫和非安全工程師所創建的新編寫代碼的組合。另外,在編寫安全人工智能算法方面,也沒有標準的最佳實踐。鑒于安全專家和數據科學家的短缺,這兩方面的專家甚至會更少。
AI和ML算法最大的潛在風險之一,也是Booz Allen Hamilton的Raff最為關注的長期威脅之一,就是訓練數據泄露給攻擊者的可能性。“有了逆向攻擊 ,你就可以讓人工智能模型給你關于它自己和它被訓練的信息。”他說。“如果它是在PII數據上訓練出來的,你就可以讓模型把那些信息泄露給你。實際的PII可能會暴露出來。”
Raff說,這是一個需要積極研究的領域,也是一個巨大的潛在痛點。一些工具可以保護訓練數據免受逆向攻擊 ,但是它們太昂貴了。“我們知道如何阻止這種情況,但這樣做會使模型的訓練成本增加100倍。”他說。“這不是我夸大其詞。訓練模型的成本和時間都會高出100倍,所以沒人會這么做。”
你無法保護你無法解釋的東西
另一個研究領域是可解釋性。今天,許多人工智能和移動計算系統--包括許多主要網絡安全供應商所提供的人工智能和移動計算工具--都是“黑盒”系統。“供應商沒有建立起可解釋性,”YL Ventures的常駐CISO Sounil Yu說。“在安全領域,能夠解釋發生了什么是一個基本的組成部分。如果我不能解釋為什么會發生,我該如何解決它呢?”
對于那些能夠構建起自己的AI或ML系統的公司來說,當出現問題時,他們可以返回到訓練數據或所使用的算法,并修復問題。“如果你是從別人那里建立起來的,你就根本不知道培訓數據是什么。”Yu說。
需要保護的不僅僅是算法
人工智能系統不僅僅是一個自然語言處理引擎,也不僅僅是一個分類算法,或者僅僅是一個神經網絡。即使這些部分是完全安全的,系統仍然需要與用戶和后端平臺交互。
系統是否使用了強認證和最小特權原則?后端數據庫的連接安全嗎?與第三方數據源的連接又如何?用戶界面是否具有抗注入攻擊的彈性?
另一個與人有關的不安全感來源是人工智能和人工智能項目所獨有的:數據科學家。“他們不會無緣無故地被稱為科學家,”Othot的Abbatico說。“優秀的數據科學家能夠利用數據進行實驗,從而得出有洞察力的模型。然而,在數據安全方面,實驗可能會導致危險的行為。”他們可能會在處理完數據后,試圖將數據移動到不安全的位置或刪除樣本數據集。Othot在早期就投資獲得了SOC II認證,這些控制有助于在整個公司內實施強而有力的數據保護實踐,包括在移動或刪除數據方面。
“事實上,世界各地大多數人工智能模型的最大風險并不在人工智能中,”人工智能機構Urvin AI的產品經理、國際非盈利安全研究機構ISECOM的聯合創始人Peter Herzog說。他說,問題出在人的身上。“沒有一個人工智能模型是沒有安全問題的,因為是人們決定了如何訓練他們,是人們決定了包括什么數據,是人們決定了他們想要預測什么,是人們決定了暴露多少信息。”
AI和ML系統特有的另一個安全風險是數據中毒,攻擊者會將信息饋送到系統中,迫使系統做出不準確的預測。例如,攻擊者可以通過向系統提供具有與惡意軟件類似指標的合法軟件示例,誘使系統認為惡意軟件是安全的。
Raff說,這是大多數組織高度關注的問題。“現在,我還不知道有任何人工智能系統在現實生活中受到了攻擊,”他說。“這是一個真正的威脅,但現在攻擊者用來逃避殺毒的經典工具仍然有效,所以他們不需要變得更加花哨。”
避免偏差和模型漂移
當AI和ML系統用于企業安全(例如,用戶行為分析、監控網絡流量或檢查數據過濾)時,偏差和模型漂移也會帶來潛在風險。低估特定攻擊或很快過時的訓練數據集會使組織易受攻擊,尤其是在越來越依賴人工智能進行防御的情況下。“你需要不斷更新你的模型,”Raff說。“你需要讓它成為一個連續的東西。”
在某些情況下,訓練可以是自動的。例如,使模型適應不斷變化的天氣模式或供應鏈交付時間表,可以幫助它隨著時間的推移而變得更加可靠。當信息源涉及惡意參與者時,就需要小心的管理訓練數據集,以避免中毒和被操縱。
企業已經在處理產生倫理問題的算法了,比如當進行面部識別或招聘平臺歧視女性或少數民族時。當偏見滲透到算法中時,它也會產生合規性的問題,而在自動駕駛汽車和醫療應用的情況下,甚至還會導致人員死亡。
就像算法可以在預測中注入偏差一樣,它們也可以用來控制偏差。例如,Othot在幫助大學實現優化班級規模或實現財務目標等。在沒有適當約束的情況下創建模型就很容易產生偏見,Othot的Abbatico說。“對偏見的核算需要更加勤奮。添加與多樣性相關的目標將有助于建模理解目標,以及消除偏差,如果不將多樣性目標作為約束條件納入數據錄取中,這種偏見就很容易被納入。”
AI的未來是陰云密布的
AI和ML系統需要大量的數據、復雜的算法和強大的處理器,以便在需要時進行擴展。所有主要的云供應商都致力于提供一個數據科學平臺,將一切都放在一個方便的地方。這意味著數據科學家將不需要等待IT來為他們提供服務器。他們只要上網,填幾張表格,然后就可以開始做生意了。
根據德勤的人工智能調查,93%的企業正在使用某種形式的云計算人工智能。“這會讓入門變得更容易,”德勤的Loucks說。這些項目隨后變成了操作系統,而隨著規模的擴大,配置問題也成倍增加。有了最新的服務,集中式、自動化的配置和安全管理儀表板就可能不再可用,公司必須自己編寫,或者等待供應商來填補空白。
當使用系統的人是公民數據科學家或理論研究人員時,因為他們沒有強大的安全背景,就可能會是一個問題。此外,供應商歷來都是首先會推出新的功能,其次才是安全性。當系統快速被部署,然后更快速地進行擴展時,就可能是一個問題。我們已經在物聯網設備、云存儲和容器上看到了這種情況。
人工智能平臺供應商越來越意識到了這種威脅,并從錯誤中吸取了教訓,Raff說。“考慮到歷史上‘安全第一’的思維方式,我看到包括安全在內的計劃會比我們預期的來的更加積極,”他說。“ML社區對此也比較關注,滯后時間可能會更短。”
德勤的首席人工智能聯席主管Irfan Saif對此表示贊同,尤其是在支持大型企業人工智能工作負載的主要云平臺方面。“我會說,是的,就網絡安全能力的發展而言,它們可能會比以前的技術更加成熟。”
人工智能項目的安全清單
以下清單有助于確保人工智能項目的安全,來自德勤的企業人工智能現狀第三版:
•保留一個所有人工智能實現的正式清單
•將AI風險管理與更廣泛的風險管理努力相結合
•由一名高管來負責人工智能的相關風險
•進行內部審計和測試
•使用外部供應商進行獨立審計和測試
•培訓從業人員如何認識和解決人工智能的道德問題
•與外部各方合作,建立領先的人工智能道德規范
•確保AI供應商提供無偏見的系統
•建立政策或董事會來指導人工智能倫理
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。