20世紀中期,Arthur Samuel在AI之后創造了“機器學習”這個短語,并將其定義為“在沒有被明確編程的情況下就能學習的能力。”跨大型數據集應用數學技術,機器學習算法可以構建行為模型,并基于新輸入的數據,使用這些模型作為對未來進行預測的基礎。視頻網站(如Netflix)可以根據您之前的歷史觀看記錄為您提供新劇集,自動駕駛汽車可以通過與行人近距離接觸的過程了解道路狀況,這些都是機器學習在生活中最普遍的例子。
那么,信息安全中的機器學習應用又是什么呢?
原則上來說,機器學習可以幫助企業組織更好地分析威脅,并響應攻擊和安全事件。它還可以幫助自動執行一些更為瑣碎繁復的工作,這些工作或是任務量巨大或是此前由技術欠缺的安全團隊所執行。
除此之外,機器學習在安全性方面的應用也正呈現快速增長的趨勢。ABI Research 的分析師估計,到2021年,機器學習在網絡安全方面的應用將推動大數據、人工智能(AI)及分析方面的支出增長到960億美元,與此同時,世界上一些科技巨頭也已經紛紛采取措施以更好地保護自己的客戶。
例如,谷歌正在利用機器學習來分析在Android上運行的移動終端威脅,以及識別和移除受感染手機中的惡意軟件;而云基礎設施巨頭亞馬遜也已經成功收購了初創公司 harvest.AI,并推出了Macie——一種使用機器學習來發現、排序和分類S3云存儲上數據的服務。
與此同時,企業安全供應商也一直致力于將機器學習集成到新舊產品線中,旨在進一步改進惡意軟檢測效率。J. Gold Associates總裁兼首席分析師Jack Gold表示:大多數主流安全公司已從幾年前用于檢測惡意軟件的純‘基于簽名’的系統,轉變為試圖解釋行為及事件,并從各種源中學習判斷什么是安全,什么不是的機器學習系統。它仍然是一個新興的領域,但它也顯然是未來的發展方向。AI和機器學習將極大地改變安全運作方式。
雖然這種轉變不會在朝夕之間發生,但機器學習已經在某些領域出現。德國電信創新實驗室(以及以色列本古里安大學網絡安全研究中心)首席技術官Dudu Mimran表示:人工智能——作為一個更廣泛的定義,包括機器學習和深度學習——正處于驅動網絡防御的早期階段,但已經在終端、網絡、欺詐或SIEM中起到了識別惡意活動模式的明顯作用。我相信未來我們會在防御服務中斷、歸因和用戶行為修改等方面看到越來越多的用例。
接下來,我們一起來了解一下機器學習在安全領域的最頂級用例:
1. 使用機器學習來檢測惡意活動并阻止攻擊
機器學習算法將幫助企業更快地檢測惡意活動,并在攻擊開始之前予以阻止。英國初創公司Darktrace就成功把握住了這種發展機遇,據悉,這家創立于2013年的公司已經在其基于機器學習的企業免疫解決方案(Enterprise Immune Solution)方面取得了很大成就。
Darktrace公司技術總監David Palmer介紹稱,Darktrace曾利用機器學習算法幫助北美一家賭場成功檢測到了數據泄露攻擊,該攻擊使用“聯網魚缸作為進入賭場網絡的切入點。”該公司還宣稱,在之前肆虐全球的WannaCry勒索軟件活動中,其算法也成功防止過一起類似的攻擊。
談及感染了150個國家20多萬受害者的WannaCry勒索軟件,Palmer表示:我們的算法在幾秒鐘內,就成功地從一家國民醫療服務(NHS)機構的網絡中檢測出了攻擊,并在該攻擊尚未對該機構造成任何破壞前成功緩解了威脅。事實上,我們的客戶沒有任何一家受到了WannaCry攻擊的傷害,甚至包括那些沒打補丁的用戶。
2. 使用機器學習來分析移動終端
在移動設備上,機器學習已經成為主流,但到目前為止,其大部分活動都是為了改善Google Now、蘋果的Siri和亞馬遜的Alexa等基于語音的體驗。不過,機器學習在安全方面確實有應用。如上所述,谷歌正在使用機器學習來分析針對移動終端的威脅,而企業則在防護自帶及自選移動設備上看到了更多機會。
2017年10月,MobileIron和Zimperium宣布合作,幫助企業采用集成了機器學習技術的移動反惡意軟件解決方案。MobileIron表示,它將把Zimperium基于機器學習的威脅檢測與MobileIron的安全和合規性引擎相集成,并作為組合解決方案出售,該解決方案將解決諸如檢測設備、網絡及應用程序威脅等方面的挑戰,并快速采取自動化措施來防護公司數據。
其他供應商也在尋求支持他們的移動解決方案。Zimperium、LookOut、Skycure(已被賽門鐵克收購)以及Wandera,一直被視為移動威脅檢測和防御市場中的領軍者。他們每家都使用自有的機器學習算法來檢測潛在威脅。例如,Wandera推出了其威脅檢測引擎 MI:RIAM,據稱檢測出了超過400種針對企業移動設備的SLocker勒索軟件變種。
3. 使用機器學習來增強人類分析
作為機器學習在安全領域的核心應用,人們相信它可以幫助人類分析師處理安全方面的各項工作,包括檢測惡意攻擊、分析網絡、終端防護和漏洞評估。而它在威脅情報方面發揮的作用可以說才是最令人興奮的。
例如,2016年,麻省理工學院計算機科學和人工智能實驗室(CSAIL)開發出了一個名為“AI2”的系統,這是一個自適應機器學習安全平臺,能夠幫助分析師從海量數據中找出真正有用的東西。該系統每天審查數百萬登錄,過濾數據,并將濾出內容轉送給人類分析師,從而將警報數量降低至每天100個左右。這項由CSAIL和初創公司PatternEx共同進行的實驗表明,攻擊檢測率被提升到了85%,而誤報率則降低了5倍之多。
4. 使用機器學習自動化重復性安全任務
機器學習的真正好處是它可以自動化重復性任務,使員工能夠專注在更重要的工作上。Palmer稱,機器學習最終應該旨在“消除重復性高且低價值的決策活動對人力的需求,就像分類威脅情報一樣”。讓機器處理重復性工作和阻止勒索軟件之類戰術性救火工作,這樣人類就可以騰出時間來處理戰略性問題——比如現代化Windows XP 系統等等。
Booz Allen Hamilton公司正在沿著這條路線發展。據報道,該公司使用人工智能工具更高效地分配人類安全資源,對威脅進行分類,以便員工可以專注于最關鍵的攻擊。
5. 使用機器學習來關閉零日漏洞
有些人認為機器學習可以幫助彌補漏洞,尤其是零日威脅和其他針對大部分不安全IoT設備的威脅。據《福布斯》報道稱,亞利桑那州立大學的一支團隊已經通過機器學習技術來監控暗網流量,以識別與零日漏洞利用相關的數據。有了這種洞察力,企業組織就有能力在漏洞造成數據泄露之前堵上漏洞并阻止補丁攻擊。
炒作和誤解叢生的領域
需要注意的是,機器學習并非靈丹妙藥,尤其是對于一個仍在對這些技術進行概念驗證實驗的行業而言。機器學習的發展必然是道阻且長的過程。機器學習系統有時會有誤報(無監督學習系統的算法會基于數據推測類型),而一些分析師也坦率地承認,用在安全領域的機器學習可能是“黑匣子”解決方案,即CISO不能完全確定其內部機制,因此,他們只能被迫地將自己的信任與責任置于供應商和機器的肩上。
畢竟,在一些安全解決方案甚至可能壓根兒沒用機器學習的世界中,這種盲目信任的想法并不可取。Palmer表示:大多數被吹捧的機器學習產品都不會在客戶環境中真正學習。相反地,它們只是在供應商自己的云上用惡意軟件樣本訓練出模型,再下載到客戶公司,就像病毒簽名似的。這對于客戶安全來說,并不是什么進步,基本上是在倒退。
此外,算法在投入實際使用前需要學習模型所需的訓練數據樣本,而這些樣本中存在的糟糕數據和實現可能會產出更糟糕的結果。機器學習的效果,取決于你輸入的信息。垃圾的輸入,必然導致垃圾的輸出。因此,如果你的機器學習算法設計不佳,結果也就不會非常理想。算法在實驗室訓練數據上有用是一回事,但最大的挑戰還在于讓機器學習網絡防御在現實復雜網絡中奏效。