最近在和 Google 合作,用大數據的方法做一個信息安全相關的項目。至于這個項目具體是做什么嘛。。因為過兩天要拿去投 paper,所以抱歉暫時不便透露了哈哈。。 當然也別急著打我,我簡單講幾個用大數據在信息安全方向應用的例子,拋磚引玉吧。
用大數據的方法做信息安全的背景在于,傳統的“見招拆招”的安全措施面對靈活多變的攻擊手段有些捉襟見肘,但各種攻擊手段大多會表現出一定的共性。所以當樣本(malware樣本,server log,traffic pattern 等等)足夠多的時候,只要能正確提取出數據中的feature,就可能找到這些靈活多變的adversary的一些共性行為,以此來作為防御。
下面結合幾篇論文結說一下:
1. Malware detection (惡意軟件偵測)
惡意軟件偵測除了傳統的對可執行文件進行分析以外,還可以根據其行為進行偵測。比如賽門鐵克(Symantec)搞了一個項目[1],它的idea就是:你在網上瀏(kan)覽(pian)時下載了一個惡意軟件,它可能會附帶一些無害的文件(比如用于偽裝),這種情況下這些文件和這個惡意軟件的同時出現 (co-occurrence)的概率就會比較高。當我們通過傳統的偵測手段發現了這個惡意軟件的時候,和它co-occurrence概率較高的一些文件就會被認為有bad reputation。比如這時你在另一個用戶的電腦上發現了一些同樣的無害的文件,但沒有發現這個惡意軟件,那么就認為有可能是這個惡意軟件的變種造成的。賽門鐵克通過大量用戶上傳的匿名文件集合(file collection)樣本(1億多臺機器上的100多億個文件),對文件進行標記(labeling),訓練出了這樣一個偵測惡意軟件的模型,識別率很高(True Positive在0.99以上),而且能做到比現有技術手段能提前一周識別。
2. 惡意鏈接預測
你在上網的時候很可能遇到過釣魚網站,一般是那種看上去還比較正規但是你一點進去各種被騙輸入密碼或者個人信息的網站,比如我在知乎上也見到過: 這封「知乎團隊」的私信可信嗎? - Sean 的回答 ,這個釣魚站的域名是zhihuemail dot com,點進去你就上當了。怎樣預測這樣的域名是惡意網站呢?當有用戶舉報上當受騙時候顯然已經晚了,而駭客們也會快速變換域名以躲避偵測。[2] 這篇paper 用大量的DNS記錄, IP地址信息,以及域名管理方(whois)的記錄,來預測一個域名是否是惡意網站。
3. DDoS檢測
DDoS是各個網站都很頭疼的問題,網站流量突然升高,你怎么知道是真的訪問用戶多了還是駭客通過僵尸網絡對你發動的攻擊呢?在這么多訪問中,你怎么知道哪個是用戶哪個是僵尸呢?[3]這篇paper 提出用流量包中的source和destination 的地址,端口號,包的類型等作為feature,采用k-NN算法對其進行分類,來檢測DDoS攻擊。(當然這個模型比較簡單,用于在這里舉例比較方便,然而實際上魔高一丈DDoS攻擊手段更加多樣性,我懷疑這種相對簡單的方法能不能真正有效)
我作為一個硬件狗,本身并不是搞cybersecurity的,只是因為上課和做項目的緣故稍有了解,舉的例子也多偏學術,還請見諒:)
[1] Tamersoy, Acar, Kevin Roundy, and Duen Horng Chau. "Guilt by association: large scale malware detection by mining file-relation graphs." Proceedings of the 20th ACM SIGKDD international conference on Knowledge Discovery and Data Mining . ACM, 2014.
[2] Ma, Justin, et al. "Beyond blacklists: learning to detect malicious web sites from suspicious URLs." Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining . ACM, 2009.
[3] Nguyen, Hoai-Vu, and Yongsun Choi. "Proactive detection of DDoS attacks utilizing k-NN classifier in an Anti-DDoS framework." International Journal of Electrical, Computer, and Systems Engineering 4.4 (2010): 247-252.