本文由藤子、項文虎撰文 ,首發于機器之能(微信公眾號:almosthuman2017),轉載請聯系 [email protected]。
若說過去幾個月,最讓網民驚魂未定的是什么,非以下這些病毒攻擊莫屬。
7 月,CopyCat 病毒使 1400 萬部安卓手機遭殃;
6 月,Petya 病毒感染全球 60 多個國家;
5 月,WannaCry 病毒來勢洶洶,席卷全球,至少 150 個國家受到攻擊。
然而,在安全廠商瑞星根據病毒感染人數、變種數量和代表性評選的「2017 年上半年病毒 Top10」中,令人膽顫心驚的 WannaCry 病毒卻只能排列第九。
瑞星發布的《2017 年上半年中國網絡安全報告》顯示,2017 年 1-6 月,瑞星「云安全」系統共截獲病毒樣本總量 3,132 萬個,病毒感染次數 23.4 億次,病毒總體數量比 2016 年同期上漲 35.47%。
逐漸上漲的病毒數量讓網絡安全受到了前所未有的關注,以人工智能驅動的網絡安全公司也受到了資本的青睞。單就 6 月份,就至少有 7 家將人工智能用于網絡安全的公司獲得新一輪融資,而融資總額接近 5 億美元。
網絡安全面臨嚴峻考驗
「2016 年全球互聯網用戶達到 35 億人,約占世界總人口的一半。到 2020 年,接入互聯網的終端設備預計將達到 120 億臺。」這是來自國際電信聯盟于 2017 年 7 月發布的《全球網絡安全指數》中的數據。
而隨著智能設備的廣泛應用,大規模普及的物聯網必將為攻擊者提供大量新機會,工作與生活的界限愈加模糊,一臺聯網設備,只要被攻陷,從銀行等財務信息到健康等個人信息,則可能全部泄露。而在互聯時代,只要攻克一臺設備,其他設備就可能瞬間被瓦解。
這樣的事情已有先例。2016 年 10 月,一款名為 Mirai 的惡意軟件侵襲了大量存在漏洞的智能攝像頭、智能網關、智能家電等物聯網設備,被感染后的它們瞬間變成了網絡中的「肉雞」設備。在工控領域,2010 年的 Stuxnet 蠕蟲病毒能夠針對西門子的監控與數據采集(SCADA)系統進行攻擊,并通過 U 盤和局域網進行傳播。
萬物互聯,內網和外網的邊界逐漸模糊,網絡泛化則成為大趨勢,比如特斯拉的汽車在各種場合都可以接入 wifi,還可以接入 3G/4G 網絡,而在未來的交通中,無人駕駛車還將與交通燈、交通臺,甚至是和其他車互通互聯——這意味著更多的潛在攻擊點。
「一旦入網,有很多傳統的攻擊手段就能像攻擊電腦一樣攻擊無人駕駛車,WannaCry 病毒同樣可以入侵車,這造成的問題將會更大。」德國弗勞恩霍夫應用集成信息安全研究所認知信息安全研究組組長肖煌在接受機器之能的采訪時說。
這表明,無論是現在,還是將來,網絡安全將面臨著嚴峻的考驗。隨著人工智能被應用于各個垂直領域,網絡安全面臨的新的挑戰,也為人工智能的大展身手帶來了重要的契機。
在這個新興領域,巨頭已經出現。用人工智能預測網絡攻擊的 Cylance 公司是估值 10 億美元以上的獨角獸,其人工智能反病毒軟件「Cylance PROTECT」可以預測威脅的發生。該公司曾在去年演示了一項技術,在沒有網絡連接的情況下,僅需 60 MB 內存和 1% 的 CPU 就能保護計算機免受攻擊。
人工智能于網絡安全:異常檢測和提升效率
在網絡安全領域,對威脅的識別,并非一蹴而就,而是漸進發展的過程。亞信網絡安全產業技術研究院副院長童寧在 7 月初舉辦的 C3 安全峰會上介紹,安全廠商起初通過黑白名單技術,將目標進行好/壞定性,用這樣的一維特征來識別威脅。隨后是匹配字符串這樣的二維特征,如果請求里包含某一類型的數據,就會被認定為非法。在這之后是多維特征,要辨別一個程序是好是壞,先讓它運行,再監督它的運行過程,將運行過程中的信息形成多維特征,用于判斷。但多維特征技術的致命缺點就是開銷太大,效率低下,因此無法達到客戶要求。
在 2000 年以后,隨著移動互聯網的發展,有大量設備產生各式各樣的日志,因此在日志管理和分析方面,有了長足的發展。而包括關聯分析等機器學習算法也被大量使用。
在機器學習中,童寧表示,監督學習則是一個高效的多維度特征發現方法,適用于惡意程序、勒索病毒以及垃圾郵件的防治。但監督學習也面臨著挑戰:一,模型的新鮮度,因為威脅每天都在變化,而監督學習并不是每天都在學習,如果不每天學習,最新的威脅就識別不出來。二,模型的準確率,學習是一回事,但真正使用時的精度又是另一回事。三,模型的召回率,也就是說漏掉了多少威脅,有多少威脅沒有抓住。
因此,監督學習并不是萬能的,比如反欺詐、態勢感知、用戶行為分析則更適合無監督學習。然而,無監督學習也面臨著另外的挑戰,因為無監督學習一般是在客戶的網絡環境中進行,因而很有可能面臨投毒攻擊。
「機器學習技術的優勢是它的多維識別能力,然而機器學習技術再強大也需要與其他手段綜合起來利用,效果才更好。」童寧說。
肖煌同樣指出,將機器學習用于網絡安全,在很多場景,預測精度并不能達到他們要求的 0.000001 的誤報標準。從這個角度來說,人工智能也只是輔助手段,還需要與傳統手段結合。
然而,肖煌認為,將人工智能用于網絡安全則有另外的優勢,那就是提高分析效率。人工智能的典型作用是代替人類做大量重復的勞動,比如用人工智能分析影像圖片,將影像醫生從低效率的重復勞動中解放了出來。
網絡安全行業,也同樣如此。
數據顯示,中國目前對網絡安全人才的總需求量超過 70 萬,每年增加的人才卻不過兩三萬,缺口高達 95%。而且,一個分析師每天能分析的漏洞卻是非常有限的。
「如果不通過自動化的手段,將來物聯網連接設備數爆發的時候,大量的信息安全隱患只依賴人來分析是不太可能的。」肖煌表示,一個信息安全分析師每天最多能看一兩千條 log 數據,或者一兩百個代碼片,而對人工智能來說,幾百萬條數據,只需花費幾分鐘時間。
根據肖煌的觀察,信息安全和人工智能,領域不同,思維方式也有一定區別,前者更偏向于系統工程,后者則更偏向于數學思維。因此,肖煌的很多同事認為人工智能解決的問題有限,更愿意使用傳統的方法,但也會朝著分析自動化的方向思考。
「我相信任何一個做信息安全的人必然要向這個方向靠攏。」肖煌希望能用趨于成熟的自動化手段完成垂直領域的性能提升,包括分析的效率、時效性、規模和可解釋性。
人工智能時代的攻與防
網絡安全是道高一尺魔高一丈的世界。安全人員使用人工智能技術阻擋黑客攻擊,反過來這也會使黑客使用人工智能技術發起更復雜的攻擊。而隨著大量人工智能模型開源,黑客入侵的工具也愈發多樣化。
肖煌表示,只要稍加學習,黑客就可以利用開源工具欺騙識別系統,而技術難度的降低會促使很多人成為黑客,或者是進行一些此前做不到的攻擊。
這并非杞人憂天。
在網絡釣魚電子郵件中已有這樣的案例,黑客通過模仿人類的說話習慣和內容,使得企業或個人被入侵時更加難以識別。
肖煌認為,以后的病毒變種會越來越多,檢測越來越難,規模越來越大,生成的時間越來越短。
(疊加在典型圖片輸入上的對抗輸入會讓分類器產生錯覺,誤將熊貓識別為長臂猿)
2017 年 2 月,OpenAI 在發表的最新研究中,指出人工智能安全領域的另一大隱憂:對抗樣本。在圖像識別問題中,攻擊者將對抗樣本輸入機器學習模型,讓機器在視覺上產生幻覺,從而讓系統產生誤判。而在論文《解釋并馴服對抗樣本》(Explaining and Harnessing Adversarial Examples)中有一個例子:一張熊貓圖片,被加入人為設計的微小噪聲后,就導致系統將熊貓識別為長臂猿。
多年來,肖煌一直在研究對抗性機器學習,致力于攻克機器學習算法本身的缺陷。他分析道,依賴于數據的機器學習算法、深度學習算法本身存在很大的缺陷。對抗性生成網絡,則利用這種缺陷,設計新的架構去生成模型。
「因為目前的機器學習嚴重依賴于數據的分布,如果數據分布本身很復雜,或者是人為地把它變得復雜,黑客如果有手段去生成惡意的樣本,就會導致識別不出來,或者識別錯誤。」肖煌進一步解釋。
肖煌表示,如果干擾被用在無人駕駛領域,后果則不堪設想。比如,在無人駕駛測試路段德國 A9 高速公路上,有專門的標識引導無人駕駛車。如果路邊的標識被惡意修改,誤導依賴標識的無人駕駛車,則會造成極度危險的情況。
肖煌認為,因為算法本身的缺陷,在大規模使用人工智能之后,網絡安全則需要更換思路,設計新的方法。
對此,他提供了以下路徑。
一,增加分析端的可解釋性。肖煌分析,如果是病毒威脅入侵,用機器學習檢測的方法,很難解決,因此希望能在信息安全泄露事故時,用統計學的方法理解其中的關聯,黑客如何入侵系統,攻擊的路徑是什么,又是哪個環節出現了問題,找出這些關聯,或者從因果關系圖譜角度進行分析,從而增加分析端的可解釋性。
二,目前的機器學習算法模型太復雜,需要使用大量的數據,就存在 Tradeoff(權衡取舍)的情況。肖煌認為,降低算法復雜度的方法有很多,比如,引入先驗的知識,引導模型往一個方向學習。這樣學習的模型復雜度會降低,需要的數據也比較少。
三,信息安全情報的共享也非常重要。比如,模型存在某個缺陷,把這個缺陷提取出來,用一種高效的手段,編譯到另一種模型中去,另外的模型則無此缺陷。肖煌認為,這類似遷移學習(Transfer learning),只是遷移學習是遷移中間的學習結果,實際上中間學習出來的異常也可以遷移,從而增加算法的安全性。
本文由藤子、項文虎撰文 ,首發于機器之能(微信公眾號:almosthuman2017),轉載請聯系 [email protected]。
若說過去幾個月,最讓網民驚魂未定的是什么,非以下這些病毒攻擊莫屬。
7 月,CopyCat 病毒使 1400 萬部安卓手機遭殃;
6 月,Petya 病毒感染全球 60 多個國家;
5 月,WannaCry 病毒來勢洶洶,席卷全球,至少 150 個國家受到攻擊。
然而,在安全廠商瑞星根據病毒感染人數、變種數量和代表性評選的「2017 年上半年病毒 Top10」中,令人膽顫心驚的 WannaCry 病毒卻只能排列第九。
瑞星發布的《2017 年上半年中國網絡安全報告》顯示,2017 年 1-6 月,瑞星「云安全」系統共截獲病毒樣本總量 3,132 萬個,病毒感染次數 23.4 億次,病毒總體數量比 2016 年同期上漲 35.47%。
逐漸上漲的病毒數量讓網絡安全受到了前所未有的關注,以人工智能驅動的網絡安全公司也受到了資本的青睞。單就 6 月份,就至少有 7 家將人工智能用于網絡安全的公司獲得新一輪融資,而融資總額接近 5 億美元。
網絡安全面臨嚴峻考驗
「2016 年全球互聯網用戶達到 35 億人,約占世界總人口的一半。到 2020 年,接入互聯網的終端設備預計將達到 120 億臺。」這是來自國際電信聯盟于 2017 年 7 月發布的《全球網絡安全指數》中的數據。
而隨著智能設備的廣泛應用,大規模普及的物聯網必將為攻擊者提供大量新機會,工作與生活的界限愈加模糊,一臺聯網設備,只要被攻陷,從銀行等財務信息到健康等個人信息,則可能全部泄露。而在互聯時代,只要攻克一臺設備,其他設備就可能瞬間被瓦解。
這樣的事情已有先例。2016 年 10 月,一款名為 Mirai 的惡意軟件侵襲了大量存在漏洞的智能攝像頭、智能網關、智能家電等物聯網設備,被感染后的它們瞬間變成了網絡中的「肉雞」設備。在工控領域,2010 年的 Stuxnet 蠕蟲病毒能夠針對西門子的監控與數據采集(SCADA)系統進行攻擊,并通過 U 盤和局域網進行傳播。
萬物互聯,內網和外網的邊界逐漸模糊,網絡泛化則成為大趨勢,比如特斯拉的汽車在各種場合都可以接入 wifi,還可以接入 3G/4G 網絡,而在未來的交通中,無人駕駛車還將與交通燈、交通臺,甚至是和其他車互通互聯——這意味著更多的潛在攻擊點。
「一旦入網,有很多傳統的攻擊手段就能像攻擊電腦一樣攻擊無人駕駛車,WannaCry 病毒同樣可以入侵車,這造成的問題將會更大。」德國弗勞恩霍夫應用集成信息安全研究所認知信息安全研究組組長肖煌在接受機器之能的采訪時說。
這表明,無論是現在,還是將來,網絡安全將面臨著嚴峻的考驗。隨著人工智能被應用于各個垂直領域,網絡安全面臨的新的挑戰,也為人工智能的大展身手帶來了重要的契機。
在這個新興領域,巨頭已經出現。用人工智能預測網絡攻擊的 Cylance 公司是估值 10 億美元以上的獨角獸,其人工智能反病毒軟件「Cylance PROTECT」可以預測威脅的發生。該公司曾在去年演示了一項技術,在沒有網絡連接的情況下,僅需 60 MB 內存和 1% 的 CPU 就能保護計算機免受攻擊。
人工智能于網絡安全:異常檢測和提升效率
在網絡安全領域,對威脅的識別,并非一蹴而就,而是漸進發展的過程。亞信網絡安全產業技術研究院副院長童寧在 7 月初舉辦的 C3 安全峰會上介紹,安全廠商起初通過黑白名單技術,將目標進行好/壞定性,用這樣的一維特征來識別威脅。隨后是匹配字符串這樣的二維特征,如果請求里包含某一類型的數據,就會被認定為非法。在這之后是多維特征,要辨別一個程序是好是壞,先讓它運行,再監督它的運行過程,將運行過程中的信息形成多維特征,用于判斷。但多維特征技術的致命缺點就是開銷太大,效率低下,因此無法達到客戶要求。
在 2000 年以后,隨著移動互聯網的發展,有大量設備產生各式各樣的日志,因此在日志管理和分析方面,有了長足的發展。而包括關聯分析等機器學習算法也被大量使用。
在機器學習中,童寧表示,監督學習則是一個高效的多維度特征發現方法,適用于惡意程序、勒索病毒以及垃圾郵件的防治。但監督學習也面臨著挑戰:一,模型的新鮮度,因為威脅每天都在變化,而監督學習并不是每天都在學習,如果不每天學習,最新的威脅就識別不出來。二,模型的準確率,學習是一回事,但真正使用時的精度又是另一回事。三,模型的召回率,也就是說漏掉了多少威脅,有多少威脅沒有抓住。
因此,監督學習并不是萬能的,比如反欺詐、態勢感知、用戶行為分析則更適合無監督學習。然而,無監督學習也面臨著另外的挑戰,因為無監督學習一般是在客戶的網絡環境中進行,因而很有可能面臨投毒攻擊。
「機器學習技術的優勢是它的多維識別能力,然而機器學習技術再強大也需要與其他手段綜合起來利用,效果才更好。」童寧說。
肖煌同樣指出,將機器學習用于網絡安全,在很多場景,預測精度并不能達到他們要求的 0.000001 的誤報標準。從這個角度來說,人工智能也只是輔助手段,還需要與傳統手段結合。
然而,肖煌認為,將人工智能用于網絡安全則有另外的優勢,那就是提高分析效率。人工智能的典型作用是代替人類做大量重復的勞動,比如用人工智能分析影像圖片,將影像醫生從低效率的重復勞動中解放了出來。
網絡安全行業,也同樣如此。
數據顯示,中國目前對網絡安全人才的總需求量超過 70 萬,每年增加的人才卻不過兩三萬,缺口高達 95%。而且,一個分析師每天能分析的漏洞卻是非常有限的。
「如果不通過自動化的手段,將來物聯網連接設備數爆發的時候,大量的信息安全隱患只依賴人來分析是不太可能的。」肖煌表示,一個信息安全分析師每天最多能看一兩千條 log 數據,或者一兩百個代碼片,而對人工智能來說,幾百萬條數據,只需花費幾分鐘時間。
根據肖煌的觀察,信息安全和人工智能,領域不同,思維方式也有一定區別,前者更偏向于系統工程,后者則更偏向于數學思維。因此,肖煌的很多同事認為人工智能解決的問題有限,更愿意使用傳統的方法,但也會朝著分析自動化的方向思考。
「我相信任何一個做信息安全的人必然要向這個方向靠攏。」肖煌希望能用趨于成熟的自動化手段完成垂直領域的性能提升,包括分析的效率、時效性、規模和可解釋性。
人工智能時代的攻與防
網絡安全是道高一尺魔高一丈的世界。安全人員使用人工智能技術阻擋黑客攻擊,反過來這也會使黑客使用人工智能技術發起更復雜的攻擊。而隨著大量人工智能模型開源,黑客入侵的工具也愈發多樣化。
肖煌表示,只要稍加學習,黑客就可以利用開源工具欺騙識別系統,而技術難度的降低會促使很多人成為黑客,或者是進行一些此前做不到的攻擊。
這并非杞人憂天。
在網絡釣魚電子郵件中已有這樣的案例,黑客通過模仿人類的說話習慣和內容,使得企業或個人被入侵時更加難以識別。
肖煌認為,以后的病毒變種會越來越多,檢測越來越難,規模越來越大,生成的時間越來越短。
(疊加在典型圖片輸入上的對抗輸入會讓分類器產生錯覺,誤將熊貓識別為長臂猿)
2017 年 2 月,OpenAI 在發表的最新研究中,指出人工智能安全領域的另一大隱憂:對抗樣本。在圖像識別問題中,攻擊者將對抗樣本輸入機器學習模型,讓機器在視覺上產生幻覺,從而讓系統產生誤判。而在論文《解釋并馴服對抗樣本》(Explaining and Harnessing Adversarial Examples)中有一個例子:一張熊貓圖片,被加入人為設計的微小噪聲后,就導致系統將熊貓識別為長臂猿。
多年來,肖煌一直在研究對抗性機器學習,致力于攻克機器學習算法本身的缺陷。他分析道,依賴于數據的機器學習算法、深度學習算法本身存在很大的缺陷。對抗性生成網絡,則利用這種缺陷,設計新的架構去生成模型。
「因為目前的機器學習嚴重依賴于數據的分布,如果數據分布本身很復雜,或者是人為地把它變得復雜,黑客如果有手段去生成惡意的樣本,就會導致識別不出來,或者識別錯誤。」肖煌進一步解釋。
肖煌表示,如果干擾被用在無人駕駛領域,后果則不堪設想。比如,在無人駕駛測試路段德國 A9 高速公路上,有專門的標識引導無人駕駛車。如果路邊的標識被惡意修改,誤導依賴標識的無人駕駛車,則會造成極度危險的情況。
肖煌認為,因為算法本身的缺陷,在大規模使用人工智能之后,網絡安全則需要更換思路,設計新的方法。
對此,他提供了以下路徑。
一,增加分析端的可解釋性。肖煌分析,如果是病毒威脅入侵,用機器學習檢測的方法,很難解決,因此希望能在信息安全泄露事故時,用統計學的方法理解其中的關聯,黑客如何入侵系統,攻擊的路徑是什么,又是哪個環節出現了問題,找出這些關聯,或者從因果關系圖譜角度進行分析,從而增加分析端的可解釋性。
二,目前的機器學習算法模型太復雜,需要使用大量的數據,就存在 Tradeoff(權衡取舍)的情況。肖煌認為,降低算法復雜度的方法有很多,比如,引入先驗的知識,引導模型往一個方向學習。這樣學習的模型復雜度會降低,需要的數據也比較少。
三,信息安全情報的共享也非常重要。比如,模型存在某個缺陷,把這個缺陷提取出來,用一種高效的手段,編譯到另一種模型中去,另外的模型則無此缺陷。肖煌認為,這類似遷移學習(Transfer learning),只是遷移學習是遷移中間的學習結果,實際上中間學習出來的異常也可以遷移,從而增加算法的安全性。