大多數IT專家普遍認同機器學習在增強搜索引擎能力以及萬物互聯方面展現出巨大的價值,但機器學習在網絡安全方面的價值卻一直處于爭議狀態。
比如想知道哪些員工正在計劃離職或帶著企業的專有資料一去不復返的話,機器學習就可以幫你做到。只需要大約一周的基線數據梳理,就能獲悉哪名員工要走或是可能對公司不利。同時,還能預測一天中哪個時段需要哪個層級的帶寬,人們將會訪問哪個端口甚至哪個網站。機器學習通過對時間基線數據的處理,發現有所不良企圖的員工,其速度比傳統人力資源部門要快得多。
雖然機器學習在網絡安全方面的應用相對較新,但它擁有“革命性”的潛力。賽門鐵克前首席技術官,阿密特·米塔爾(Amity Mital)認為,在當前網絡安全的混亂狀態中,機器學習是為數不多的希望燈塔之一。
每個系統都可能被玩壞,我們應該問的問題是:如果沒有機器學習,問題會嚴重到什么程度?
但也不是所有的專家都認同機器學習的革命性力量。
安全初創公司Bromium首席技術官西蒙·克羅斯比(Simon Crosby)聲稱:“機器學習是網絡安全最新一場白日夢。安全沒有萬靈藥,根本沒有任何證據證明這些工具有用。”
這一論調非常符合美國咨詢公司Gartner的結論,該公司將機器學習列入了其2015技術成熟度曲線中處于“過高期望峰值”的5大技術之中。
但還有很多安全專家,雖然也同意網絡安全沒有萬靈藥,但說機器學習是白日夢的說法也過于極端了。
是的,機器學習不是萬靈藥,但在一個部署了數百萬美元的安全防護措施的企業,被黑客攻擊而造成巨大損失的威脅依然時刻存在。機器學習,并不意味著可以不加任何考慮地做任何事。還有很多事目前它做不太好,因此應該在機器學習上投入有經驗有技能的人才,將之導向情報工作。
當有了足夠的數據,也能夠理解為什么這些數據呈現出某些特定的趨勢的話,我們就能將預測準確度改善至90%以上,甚至會超過99%。這意味著,不僅可以簡單問機器“我下周會被攻擊嗎?”,還可以具體到“我會在下周二下午3點受到來自某國的攻擊嗎?”,甚至“下一次攻擊的時間、形式、來源、攻擊者都可以預測。”
在今天,這種預測達到很高準確度的例子屢見不鮮。更為復雜的算法不僅僅是可能的,而且已經在被實際運用了。Gartner的技術成熟度曲線結論很可能大錯特錯,機器學習不僅沒有被過高期望,相反明顯地被過低期望了。
當然,在承認機器學習是個強有力工具的同時,同時也要看到其不成熟的一面。如不久前,見諸報道的“谷歌對確定流感爆發期的預測嚴重不準。”
這表明,雖然機器學習在發現事物相似性上有著巨大的優勢,但在發現異常上可能沒有想像的那么好。事實上,關于異常行為的任何討論都建立在正常行為可能會發生的前提下。對于惡意攻擊者來說,他們完全可以把攻擊隱藏在正常行為之中,甚至他們還能夠把系統訓練成視惡意行為為正常行為。
困難歸困難,每個系統都可能被入侵。但如果沒有機器學習,問題會嚴重到什么程度?的確,機器學習不能替代人類,但機器學習能替代人類進行自動化識別。簡而言之,機器學習就是通過數據集的分析,找出模式,并定義哪些是正常行為哪些是異常行為。而攻擊者誤導系統讓“模型中毒”的方法,則可采用每個數據源應用多個模型的方法來抵御。這就意味著采用模型中毒方式的攻擊者必須對用來檢測危險行為的所有模型都了如指掌,無異這是非常困難的。
機器學習的部分能力在于能識別上下文,比如:“某人有權執行某項特定動作嗎?在哪里以及何時執行等等。這意味著一個簡單的預測能帶來將60GB防火墻的需求降至6GB的效果。而且其可能性還遠遠不止這些。
機器學習是目前最火的話題,一個重要的原因在于,“我們如今有了更好的數據存儲和更高品質的數據供我們更快地處理。”
那種認為機器學習被過度炒作的認知可能是因為其在網絡安全方面的應用還相對較新,而且機器學習更難以應用到網絡安全領域。要知道安全圈的人不喜歡分享數據,沒有企業會告訴別人“我被入侵了,這是我的防火墻流量日志,給我看看你的唄。”而且,很多科技公司都還沒意識到自己已經成長為大數據公司。
但機器學習將會很快達到在網絡安全中廣為應用的那一步,因為在其他領域的應用已經提供了大量成功案例供參考。一旦機器學習展現出與在其他領域所取得的同樣成功,它將重塑網絡安全。