對人工智能能夠提供什么的美好看法并非完全錯誤。但是,下一代技術的實際做法比營銷人員想要承認的更為混亂和增值。幸運的是,研究人員在公司和學術界開發新的防御系統,在很大程度上都同意潛在的利益和挑戰。首先是直接獲得一些術語。
“實際上,我認為并不沒有很多公司都在使用人工智能。它們真的只是在培訓機器學習。”網絡安全防御公司Malw??arebytes的首席執行官Marcin Kleczynski表示,該公司在RSA推廣了自己的機器學習威脅檢測軟件,“稱之為AI,在某種程度上是一種誤導,這讓客戶感到困惑。”
圖片來源:Wired
機器的崛起
安全公司部署的機器學習算法通常訓練大型數據集,以“學習”網絡上需要注意的事項以及如何對不同情況作出反應。與人工智能系統不同,大多數安全應用程序無法在沒有新的訓練數據的情況下推斷出新的結論。
然而,機器學習本身就很強大,而且這種方法非常適合病毒防御和惡意軟件掃描。幾十年來,AV一直是基于簽名的,這意味著安全公司會識別特定的惡意程序,為每個程序提取一種獨特的指紋,然后監控客戶設備以確保不會出現這些簽名。
基于機器學習的惡意軟件掃描以類似的方式工作,算法訓練大量惡意程序目錄以了解要查找的內容。但是ML方法具有靈活性的額外好處,因為掃描工具已經學會了尋找惡意軟件的特征而不是特定的簽名。攻擊者可以通過對他們的惡意工具進行輕微改動來阻止傳統的AV,這些惡意工具會丟掉簽名,基于機器學習的掃描程序,在這一點上幾乎所有的安全知名人士都提供了更多功能。這仍然需要定期更新培訓數據,但它們更全面的掃描使黑客的工作更難。
“惡意軟件的性質不斷發展,因此為特定惡意軟件系列撰寫簽名的人面臨著巨大的挑戰。”機器學習安全公司Endgame的數據科學家Phil Roth表示,該公司擁有自己的ML驅動的惡意軟件掃描程序Windows系統。使用基于ML的方法,“你訓練的模型肯定需要反映最新的東西,但我們可以稍微慢一點。攻擊者通常建立舊框架或使用已經存在的代碼,因為如果你從頭開始編寫惡意軟件,那么對于可能沒有大量回饋的攻擊來說需要付出很多努力。所以你可以從訓練集中存在的所有技術中學習,然后在攻擊者拿出稍微新一點東西的時候,就會識別模式。”
同樣,機器學習已成為打擊垃圾郵件和網絡釣魚的必不可少的工具。領導谷歌反濫用研究團隊的Elie Bursztein指出,自18年前推出以來,Gmail一直使用機器學習技術來過濾電子郵件。但隨著攻擊策略的發展和網絡釣魚方案變得越來越有嚴重,Gmail和其他谷歌服務需要適應那些專門知道如何攻擊的黑客。無論攻擊者是否設置虛假(但令人相信的)Google Docs鏈接或污染垃圾郵件過濾器,了解哪些郵件是惡意的,谷歌和其他大型服務提供商越來越需要依靠自動化和機器學習來跟上。
因此,谷歌幾乎在其所有服務中都找到了機器學習的應用程序,特別是通過稱為深度學習的ML技術,它允許算法在訓練和發展時進行更多的獨立調整和自我調節。 “在我們處于這樣一個世界之前,你擁有的數據越多,你所擁有的問題就越多。”Bursztein說,“現在通過深入學習,數據越多越好。我們在Play Store中防止暴力圖像,掃描評論,檢測網絡釣魚和惡意軟件。我們使用它來檢測欺詐性付款,我們用它來保護我們的云,并檢測受感染的計算機,它無處不在。”
從本質上講,機器學習在安全方面的最大優勢在于培訓,以了解系統的“基線”或“正常”,然后標記任何不尋常的人工審查。這個概念適用于各種ML輔助威脅檢測,但研究人員表示,機器學習與人類相互作用是這些技術的關鍵優勢。 2016年,IBM估計一個普通的組織每天處理超過200,000個安全事件。
因此,機器學習最常見的作用是附加的。它充當哨兵,而不是萬靈藥。
“就像有一個機器學習助手在坐在分析師旁邊看到了這一點,”IBM Security的安全運營和響應副總裁兼首席技術官Koos Lodewijkx說。 IBM的團隊越來越傾向于使用其Watson計算平臺來完成這些“知識整合”任務和其他領域的威脅檢測。 “今天安全運營中心正在進行的大量工作是例行的或重復的,那么如果我們可以使用機器學習自動化一些工作,或者只是讓分析師更容易呢?” Lodewijkx說。
最佳防御
盡管許多機器學習工具已經在提供防御方面顯示出有希望的結果,但研究人員幾乎一致地警告攻擊者自己也開始采用機器學習技術的方式。更多這類攻擊即將發生。已經出現了一些例子,比如使用機器視覺擊敗Captchas的黑客工具。
目前對機器學習的另一個威脅是數據中毒。如果攻擊者可以弄清楚算法是如何設置的,或者是從哪里獲取訓練數據,他們就可以找出引入誤導性數據的方法,這些數據構建了關于哪些內容或流量是合法的還是惡意的反向敘述。例如,攻擊者可能會在數千個帳戶上運行活動,將惡意郵件或評論標記為“非垃圾郵件”,以試圖瞞過算法的評判。
在另一個例子中,來自云安全公司Cyxtera的研究人員構建了一個基于機器學習的網絡釣魚攻擊生成器,該生成器訓練了超過1億個特別有效的歷史攻擊,以優化并自動生成有效的詐騙鏈接和電子郵件。 “網絡釣魚攻擊者平均將在0.3%的時間內繞過基于AI的檢測系統,但通過使用AI,攻擊者需要超過15%的時間繞過系統。”Cyxtera副總裁Alejandro Correa Bahnsen說,“我們希望盡可能接近實際的攻擊者如何構建它。所有數據都是攻擊者可用的數據。所有的庫都是開源的。”
研究人員指出,這就是為什么建立ML系統以鼓勵“讓人類置身循環中”的重要性,因此系統不是唯一的自動仲裁者。研究機器學習安全的意大利卡利亞里大學助理教授Battista Biggio說,ML系統“應該可以選擇‘我以前沒見過’,并向人們尋求幫助。” “這里沒有真正的情報—數據的推斷,數據的相關性。所以人們應該意識到這種技術有局限性。”
為此,研究界已經努力了解如何減少ML系統中的盲點,以便能夠加強對這些弱點的攻擊。在RSA,來自Endgame的研究人員發布了一個名為EMBER的開源威脅數據培訓集,希望他們能夠在競爭公司中樹立一個榜樣,專注于安全ML的協作。 “有充分的理由認為安全行業沒有那么多的開放數據集。”Endgame的Roth說, “這些類型的數據可能具有個人識別信息,或者可能向攻擊者提供有關公司網絡架構的信息。清理EMBER數據集需要做大量工作,但我希望能夠激發更多的研究并讓維護者共同努力。”
這種合作可能是必要的,以便使用機器學習技術本身保持領先于攻擊者。盡管是壓倒性的炒作,網絡安全中的機器學習仍然存在真正的希望。挑戰在于維持這種期望。