如何確保人工智能和機器學習項目的安全性

責任編輯：cres 作者：Maria Korolov |來源：企業網D1Net 2020-09-23 10:14:10 原創文章企業網D1Net

人工智能和機器學習在帶來好處的同時也帶來了新的漏洞。本文敘述了幾家公司將風險降至最低的方法。

當企業采用新技術時，安全性往往被放在次要位置，以最低的成本盡快將新產品或服務提供給客戶似乎更為重要。

人工智能（AI）和機器學習（ML）提供了與早期技術進步相同的漏洞和錯誤配置的機會，而且還有其特有的風險。隨著企業開始進行以人工智能驅動的數字化轉型，這些風險可能會變得更大。博思艾倫漢密爾頓公司（Booz Allen Hamilton）的首席科學家愛德華•拉夫（Edward Raff）表示：“不要倉促地進入這個領域。”

與其他技術相比，人工智能和機器學習需要更多的數據，也需要更復雜的數據。數學家和數據科學家開發的算法來自研究項目。拉夫表示，在科學界，直到最近才開始認識到人工智能存在安全問題。

云平臺通常要處理大量的工作負載，從而增加了另一個級別的復雜性和脆弱性。毫不奇怪，網絡安全是人工智能采用者最令人擔憂的風險。德勤上月公布的一項調查顯示，62%的采納者認為網絡安全風險是主要的擔憂，但只有39%的人表示他們準備應對這些風險。

讓問題變得更加復雜的是，網絡安全是人工智能使用的首要功能之一。德勤技術、媒體和電信中心的執行董事杰夫•洛克斯（Jeff Loucks）表示，企業在人工智能方面的經驗越豐富，他們就越擔心網絡安全風險。

此外，即使是經驗更豐富的企業，也沒有遵循基本的安全做法，例如對所有AI和ML項目進行完整的審計和測試。Loucks表示，公司目前在實施這些方面做得不是很好。

AI和ML對數據的需求帶來了風險

AI和ML系統需要三組數據：

• 訓練數據以建立預測模型

• 測試數據以評估模型的運行情況

• 當模型投入使用時運營數據

雖然實時交易或運營數據顯然是一項有價值的企業資產，但很容易忽略也包含敏感信息的訓練和測試數據池。

許多用于保護其他系統中的數據的原則可以應用于AI和ML項目，包括匿名化、令牌化和加密。第一步是詢問是否需要數據。在準備AI和ML項目時，收集所有可能的數據，然后看看可以做些什么。

關注業務成果可以幫助企業將收集的數據限制在所需的范圍內。為教育機構分析學生數據的Othot公司的首席技術官約翰•阿巴蒂科（John Abbatico）表示，數據科學團隊非常渴望數據，他們在處理學生數據時明確表示，高度敏感的PII（個人身份信息）不是必需的，也永遠不應該包含在提供給他們團隊的數據中。

當然，錯誤是會發生的。例如，客戶有時會提供敏感的個人信息，如社會保險號。這些信息不會提高模型的性能，但會帶來額外的風險。阿巴蒂科表示，他的團隊已經制定了一套程序來識別PII，將其從所有系統中清除，并將錯誤通知客戶。

人工智能系統還需要情景數據，這可能會極大地擴大公司的暴露風險。假設一家保險公司想要更好地掌握客戶的駕駛習慣，它可以購買購物、駕駛、位置和其他數據集，這些數據集可以很容易地交叉關聯并與客戶賬戶匹配。這種新的、呈指數級增長的數據集對黑客更具吸引力，如果被攻破，對公司的聲譽也會造成更大的破壞。

人工智能的安全設計

有很多數據需要保護的一家公司是在線文件共享平臺Box。Box使用AI提取元數據，并提高搜索、分類等能力。Box的CISO拉克希米•漢斯帕爾（Lakshmi Hanspal）表示，Box可以從合同中提取條款、續訂和定價信息。Box的大多數客戶內容分類要么是用戶定義的分類，要么是被完全忽視。他們坐在堆積如山的數據上，這些數據可能對數字化轉型有用。

漢斯帕爾說，保護數據是Box的一個重要事項，同樣的數據保護標準也適用于人工智能系統，包括訓練數據。Box建立信任并保持信任。

這意味著所有系統，包括新的人工智能項目，都是圍繞核心數據安全原則構建的，包括加密、日志記錄、監控、身份驗證和訪問控制。漢斯帕爾指出，數字信任是其平臺與生俱來的，他們將其付諸于實踐。

Box對傳統代碼和新的AI和ML支持的系統都有一個安全的開發流程。漢斯帕爾說：“我們在開發安全產品方面與ISO的行業標準保持一致。設計上的安全性是內置的，而且有制衡機制，包括滲透測試和紅色團隊。”

數學家和數據科學家在編寫AI和ML算法代碼時通常不擔心潛在的漏洞。當企業構建AI系統時，他們會借鑒現有的開源算法，使用商業的“黑匣子”AI系統，或者從零開始構建自己的AI系統。

對于開放源碼，攻擊者有可能嵌入惡意代碼，或者代碼包含漏洞或易受攻擊的依賴項。專有商業系統還使用開放源代碼，以及企業客戶通常無法查看的新代碼。

逆向攻擊是一個主要威脅

AI和ML系統通常是由非安全工程師創建的開源庫和新編寫的代碼的組合。此外，不存在用于編寫安全AI算法的標準最佳實踐。考慮到安全專家和數據科學家的短缺，這兩方面的專家供應更少。

AI和ML算法是最大的潛在風險之一，也是博思艾倫•漢密爾頓（Booz Allen Hamilton）的Raff最擔心的長期威脅之一，其有可能將訓練數據泄露給攻擊者。他表示：“有一些逆向攻擊，可以讓人工智能模型向你提供關于它自身以及它所接受的訓練的信息。如果它是根據PII數據進行訓練的，你就可以讓模型向你泄露這些信息。實際的PII可能會暴露出來。”

Raff說，這是一個被積極研究的領域，也是一個巨大的潛在痛點。有些工具可以保護訓練數據免受逆向攻擊，但它們太昂貴了。他表示：“我們知道如何阻止這種威脅，但這樣做會使培訓模型的成本增加100倍，這并不夸張，所以沒人會這么做。”

你不能確保你不能解釋的東西安全

另一個研究領域是可解釋性。今天，許多AI和ML系統，包括許多主要網絡安全供應商提供的AI和ML支持的工具，都是“黑匣子”系統。YL Ventures的CISO Sounil Yu表示：“供應商沒有在其中建立可解釋性。在安全方面，能夠解釋所發生的事情是一個基本的組成部分。如果我不能解釋為什么會發生這種情況，我怎么能補救呢？“。

對于構建自己的AI或ML系統的公司來說，當出現問題時，他們可以回到訓練數據或使用的算法來解決問題。Yu指出，如果你是從別人那里構建的，你根本不知道訓練數據是什么。

需要保護的不僅僅是算法

人工智能系統不僅僅是一個自然語言處理引擎，或者僅僅是一個分類算法，或者僅僅是一個神經網絡。即使這些部分是完全安全的，系統仍然必須與用戶和后端平臺交互。

系統是否使用強身份驗證和最低權限原則？到后端數據庫的連接是否安全？與第三方數據源的連接情況如何？用戶界面對注入攻擊是否有彈性？

另一個與人相關的不安全感來源是人工智能和機器學習項目獨有的：數據科學家。奧托特的阿巴蒂科表示，優秀的數據科學家對數據進行實驗，得出有洞察力的模型。然而，當涉及到數據安全時，實驗可能會導致危險的行為。使用完數據后，他們可能會傾向于將數據移動到不安全的位置或刪除樣本數據集。Othot在早期就投資于獲得SOC II認證，這些控制有助于在整個公司實施強有力的數據保護實踐，包括在移動或刪除數據時。

人工智能機構Urvin AI的產品經理、國際非營利性安全研究組織ISECOM的聯合創始人彼得•赫爾佐格（Peter Herzog）表示：“事實是，所有地方的大多數人工智能模型中最大的風險并不在人工智能中，問題出在人身上。沒有安全問題的人工智能模型幾乎沒有，因為人們決定如何訓練他們，人們決定包括什么數據，人們決定他們想要預測和預測什么，以及人們決定暴露多少信息。”

另一個特定于AI和ML系統的安全風險是數據中毒，即攻擊者將信息輸入系統，迫使系統做出不準確的預測。例如，攻擊者可能會通過向系統提供具有類似惡意軟件指示器的合法軟件示例來欺騙系統，使其認為惡意軟件是安全的。

拉夫說：“這是大多數企業高度關注的問題。目前，我沒有意識到任何人工智能系統在現實生活中受到攻擊。從長遠來看，這是一個真正的威脅，但現在攻擊者用來逃避殺毒軟件的經典工具仍然有效，所以他們不需要變得更花哨。”

避免偏差和模型漂移

當AI和ML系統用于企業安全時，例如，用于用戶行為分析、監控網絡流量或檢查數據泄露，偏差和模型漂移可能會產生潛在風險。很快過時的訓練數據集可能會使組織變得脆弱，特別是在越來越依賴人工智能進行防御的情況下。企業需要不斷更新模型，讓更新模型成為一件持續的事情。

在某些情況下，訓練數據可以是自動的。例如，調整模型以適應不斷變化的天氣模式或供應鏈交付時間表，可以幫助使其隨著時間的推移變得更加可靠。當信息源涉及惡意行為者時，則需要仔細管理訓練數據集，以避免中毒和操縱。

企業已經在處理造成道德問題的算法，例如當面部識別或招聘平臺歧視女性或少數族裔時。當偏見悄悄滲透到算法中時，它還可能造成合規問題，或者，在自動駕駛汽車和醫療應用的情況下，可能會導致人員死亡。

就像算法可以在預測中注入偏差一樣，它們也可以用來控制偏差。例如，Othot幫助大學實現優化班級規模或實現財務目標。Othot的Abbatico說，在沒有適當約束的情況下創建模型很容易造成偏見。“對偏見進行審查需要多花精力。添加與多樣性相關的目標有助于建模理解目標，并有助于抵消偏見，如果不將多樣性目標作為約束因素包括在內，偏見則很容易被納入。”

人工智能的未來在云端

AI和ML系統需要大量的數據、復雜的算法和強大的處理器，這些處理器可以在需要時進行擴展。所有主要的云供應商都在爭先恐后地提供數據科學平臺，這些平臺將所有東西都放在一個方便的地方。這意味著數據科學家不需要等待IT為他們配置服務器。他們只需上網，填寫幾張表格，就可以開業了。

根據德勤的AI調查，93%的企業正在使用某種形式的基于云的AI。德勤的Loucks說：“這讓我們更容易上手。”然后，這些項目會變成運營系統，隨著規模的擴大，配置問題會成倍增加。有了最新的服務，集中化、自動化的配置和安全管理儀表盤可能不可用，公司必須自己編寫或等待供應商加快步伐填補空白。

當使用這些系統的人是公民數據科學家或理論研究人員，而他們在安全方面沒有很強的背景時，這可能是一個問題。此外，供應商歷來都是先推出新功能，然后再推出安全功能。當系統被快速部署，然后擴展得更快時，這可能會是一個問題。我們已經在物聯網設備、云存儲和容器上看到了這種情況。

Raff說，人工智能平臺供應商越來越意識到這一威脅，并從錯誤中吸取了教訓。他說：“我看到，考慮到歷史上的‘安全放在最后’的心態，納入安全內容的計劃比我們原本預期的要積極得多。ML社區對此更為關注，延遲時間可能會更短。”

德勤（Deloitte）AI聯席主管Irfan Saif對此表示贊同，特別是在涉及到支持大型企業AI工作負載的主要云平臺時。就網絡安全能力的演變而言，它們可能比之前的技術更成熟。

人工智能項目安全檢查清單

以下這些幫助確保人工智能項目安全的清單摘自德勤的《企業中的人工智能狀況》(第3版)：

• 保存所有人工智能實施的正式清單

• 使人工智能風險管理與更廣泛的風險管理工作保持一致

• 有一名高管負責與人工智能相關的風險

• 進行內部審計和測試