11月9日消息據外媒(opensources.info)報道,機器學習的進步讓人們能夠以更方便的方式來訓練安全系統以應對不斷變化的安全形勢。
近段時間,機器學習和人工智能受到越來越多的關注。新技術帶來的諸多可能讓人們興奮不已。
一個事物一旦被貼上機器學習的標簽,再想撕下來就難了。就像現在幾乎所有基于網絡發生的事情都能跟“云計算”扯上關系一樣,未來“人工智能”這個詞可能會跟“電腦”形影不離。
“大熱之下也有些夸張的成分,”普華永道(PricewaterhouseCoopers)分析師Anand Rao說。“人們開始討論AI變得超級聰明進而取代人類等等。”
在使用計算機的過程中,判斷新下載的文件或軟件是否含有惡意代碼是最常見的安全情形。通常的識別方法是將程序的數字簽名與已知的惡意軟件進行對比,以辨別安全與否。
這種基本的識別手段有其缺點:它依賴于惡意軟件數字特征庫的不斷隨時更新來保證識別能力。一旦更新落后或識別不及時,后果令人堪憂。一些特征不明顯的惡意軟件經??梢暂p易蒙混過關。
一家名為Deep Instinct的新創企試圖使用深度學習技術來彌補此中不足。公司團隊利用近10億個已知惡意軟件樣本對其深度學習系統進行訓練。
公司CTO Eli David 說:“深度學習改變了很多領域。計算機視覺每年增長20%~30%,此外還有語音識別。于是我們想為什么深度學習不能應用到網絡安全領域呢?”
他認為基于概率大機器學習系統十分有限,盡管非常多的因素可以被識別和評估,與此同時那些太過微小的因子遭到忽略。
“如此你白白丟掉了絕大一部分數據。”他說。
作為糾正,Deep Instinct 實驗室中無一遺漏地使用目前已知的所有惡意軟件樣本來訓練其深度學習系統。整個過程耗時一整天。而且使用到高性能圖形處理器來進行對數據的分析。
訓練產生的系統大小約有一千兆字節,隨后公司將至精簡至二十兆字節。如此該系統可以被安裝到任何端點設備上,包括移動設備。即使在最慢的機器上,它也能在幾毫秒內完成對未知程序安全性的識別。
“檢測一兆的數據耗時不過一毫秒。” David 說。“我們在實驗室中包辦了所有復雜的準備工作,用戶的使用成本非常簡便。”
Deep Instinct 每三到四個月更新一次惡意軟件樣本庫,新的更新隨即會被部署到正在運行的設備上。David 稱,深度學習非常適合應對捉摸不定的變化。即使樣本庫更新延遲,該系統仍然有能力檢測新的文件。
每天不斷出現的新型惡意軟件大多都是在舊有惡意軟件上做細小改變。“即使是最有威脅性的新惡意軟件,其80%仍然是舊的。傳統檢測方法對這些喬裝素手無策,但深度學習能夠很容易地檢測它們。”
David 稱其公司正在同獨立的測試實驗室合作量化系統的檢測能力。早期同財富500強客戶的測試顯示,該系統檢測成功率比現有解決方案高出20%~30%。
“最近我們在美國一家大銀行做了100,000個文件的對比檢測?,F有的解決方案在測試的當天早上更新了樣本庫,而我們的樣本庫數據還是兩個月以前的。盡如此,我們的檢測成功率達到了99.9%,而對方只有40%。”
找出原因
最新的深度學習系統受人指責地一點是,它常常能給出結果,但卻不一定能夠解釋該結果究竟如何產生。
對此,大數據分析服務公司 Nutonian 使用名叫 Eureqa 的 AI 引擎來嘗試解釋結果產生的過程。
公司創始人和 CTO Michael Schmidt 表示, Eureqa 能像牛頓發現物理學中的萬有引力一樣,用最優雅最簡單的方式來闡述事情原委及其中關系。
公司將 Eureqa 免費提供給研究人員使用,它已經間接幫助后者在超過500本雜志出版物中發表研究成果。在醫學應用中,它可以幫助診斷諸如黃斑變性和闌尾炎之類的疾病。該引擎在網絡安全領域也有助益。網絡安全中,最重要的便是識別攻擊的類型和手段,而 Eureqa 能夠自動完成這個類型檢測。
客戶將數據上傳到云端,服務器在一個小時之后就會傳回結果。“我們現已能夠在幾分鐘內重現過去需要幾個月甚至幾年才能完成的結果。”Schmidt 說。
本地與全局相結合
網絡安全形勢瞬息萬變,及時的更新對任何類型的機器學習系統來說都至關重要。
如果沒有更新,再先進的系統也會過時。人們總不斷弄出新的東西:員工打造新產品,供應商推出新程序,消費者購買新商品。當然,黑客也會不斷編寫出新的惡意軟件來繞過現有的檢測手段。
在下一次更新之前,總有漏洞存在。
別有企圖的程序員常常使用安全軟件來操練他們的攻擊手段,一旦找到有效的漏洞,那么這些安全軟件就變的形同虛設。糟糕的情況直到封堵該漏洞的更新出現才會結束。
“你可以使用本地模式(local patterns)、同行模式(peer patterns)和行業模式(industry-wide patterns),以不同的更新速度更新它們。”管理網絡公司 Masergy Communications 的首席科學家 Mike Stute 說。
Masergy 使用一定數量的全局檢測來尋找發生可疑事件的可能性,然后將其與本地指標相結合。全局系統只能檢測到有限的數據,科學家們至著眼于最常見的特征。
額外的局部焦點允許更多的輸入。Stute 稱:“在本地模型中,我們不必將它們壓縮到更小的功能集。”如此一來兼顧唯一性和準確性。
本地與全局相結合的策略也為企業咨詢公司 Acuity Solutions 所使用,其 BluVector 便使用機器學習來檢測網絡威脅。BluVector 習得正常程序應有的樣子,善于從惡意程序與正常程序的代碼差別中發現潛在威脅。
而且 BluVector 還會從新情況中學習,不斷升級自身的鑒別能力。其主引擎與全球數據每季度同步一次,但不會涉嫌上傳客戶信息。
全局與本地的有機結合使得每個客戶的 BluVector 部署都略有不同。即使攻擊者找出了系統的漏洞,該攻擊手段也未必對定制化之后的系統有效。
“這是一種移動防御策略,這些技術深度定制于你的環境而無法逆向破解。”Acuity 首席執行官Kris Lovejoy 說。