導(dǎo)語:國外大牛總結(jié)的機器學(xué)習(xí)與網(wǎng)絡(luò)安全資料大全。
近日,外媒 KDnuggets 刊登了一篇機器學(xué)習(xí)與網(wǎng)絡(luò)安全相關(guān)的資料大匯總,文中列出了相關(guān)數(shù)據(jù)源的獲取途徑,優(yōu)秀的論文和書籍,以及豐富的教程。大部分都是作者在日常工作和學(xué)習(xí)中親自使用并認為值得安利的純干貨,雷鋒網(wǎng)現(xiàn)編譯總結(jié)如下。
數(shù)據(jù)源
SecRepo.com 網(wǎng)站,該網(wǎng)站匯聚了大量的與機器學(xué)習(xí)和網(wǎng)絡(luò)安全相關(guān)的數(shù)據(jù)源,并提供免費下載。據(jù)網(wǎng)站首頁介紹,所有可用的數(shù)據(jù)源包含兩個部分:一是網(wǎng)站方面自己整理的,二是來自第三方的。其內(nèi)容包括互聯(lián)網(wǎng)掃描數(shù)據(jù),惡意軟件源碼,以及和網(wǎng)絡(luò)安全相關(guān)的系統(tǒng)日志等。
論文
本文來自卡內(nèi)基梅隆大學(xué),分析了通用符號密碼的脆弱性,以及目前常見的密碼健壯性檢驗的各種缺點,甚至給出了他們在實驗室利用神經(jīng)網(wǎng)絡(luò)算法攻破各種符號密碼的具體步驟,非常強大。
本文來自加州伯克利大學(xué),分析了利用機器學(xué)習(xí)探測網(wǎng)絡(luò)安全的優(yōu)勢和劣勢,并給出了一些改善這些劣勢的解決方案。
通常一個互聯(lián)網(wǎng)上的惡意請求都會在真正的惡意代碼外部包裝一層善意的外衣,這大大阻礙了相關(guān)探測程序的正常工作。來自哥倫比亞大學(xué)的Ke Wang和Salvatore J. Stolfo兩位學(xué)者在本文中給出了一種全新的探測惡意代碼中有效代碼段的方法,并在實測中達到了接近100%正確率和0.1%的誤報率。
當(dāng)前,隨著防范措施的升級,惡意代碼隱藏在PDF和Word等文本文件中的例子屢見不鮮,用戶防不勝防。在本文中,來自喬治梅森大學(xué)的學(xué)者介紹了一種通過機器學(xué)習(xí)技術(shù)探測惡意文本文件的技術(shù),特別是內(nèi)含惡意代碼的PDF文件。
來自德州大學(xué),介紹了兩種利用機器學(xué)習(xí)技術(shù)探測網(wǎng)絡(luò)惡意攻擊的分析模型,即無邊界攻擊模型(free-range attack model)和限制邊界攻擊模型(restrained attack model)。
垃圾郵件過濾系統(tǒng)不算什么高新技術(shù),但如何提升過濾的準(zhǔn)確性一直是一個難題。本文中來自加州伯克利大學(xué)的學(xué)者們介紹了一種基于機器學(xué)習(xí)開發(fā)的垃圾郵件過濾器,為垃圾郵件的過濾提供了一種全新的實現(xiàn)思路。
以下論文來自 covert.io網(wǎng)站,該網(wǎng)站的論文(或博客)數(shù)量龐大,但并不像上文提到的那些論文一樣全部來自美國高校,covert.io 的文章也來自各大科技公司和研究所。
來自谷歌,介紹了一種名為CAMP的惡意軟件保護系統(tǒng),該系統(tǒng)能夠通過對二進制可執(zhí)行文件的探測,確保互聯(lián)網(wǎng)的軟件應(yīng)用安全。
DNS服務(wù)器一直是互聯(lián)網(wǎng)中非常重要的組成部分,針對目前越來越流行的DNS攻擊,來自喬治亞理工學(xué)院的學(xué)者介紹了一種名為Notos的動態(tài)的域名信譽系統(tǒng),可以有效防范各種針對DNS服務(wù)器的匿名的網(wǎng)絡(luò)黑客攻擊。
本文介紹了一種名為Kopis的新型域名檢測系統(tǒng),可以有效探測互聯(lián)網(wǎng)上包含惡意攻擊代碼的域名,由網(wǎng)絡(luò)安全公司Damballa、喬治亞理工學(xué)院和喬治亞大學(xué)聯(lián)合研發(fā)。
本文同樣來自Damballa公司和喬治亞大學(xué),介紹了一種針對僵尸網(wǎng)絡(luò)的新技術(shù),該技術(shù)夠探測來自動態(tài)域名系統(tǒng)的惡意攻擊,整合了聚合和分類兩類算法。
DNS服務(wù)器成為了越來越多黑客的攻擊對象,本文介紹了一種名為EXPOSURE的域名分析系統(tǒng),可以針對大批量的域名惡意訪問進行探測,由Eurecom研究所、波士頓東北大學(xué)和加州大學(xué)共同研發(fā)。
本文來自網(wǎng)絡(luò)安全公司Symantec、卡內(nèi)基梅隆大學(xué),介紹了一個名為Polonium的高效的可擴展的惡意軟件探測系統(tǒng)。
大量用戶在現(xiàn)實生活中下載并安裝惡意軟件的行為通常包含一定的規(guī)律性。來自加州大學(xué)圣巴巴拉分校、Narus公司的學(xué)者們將這些無人問津的數(shù)據(jù)利用起來,提出了一個名為Nazca的網(wǎng)絡(luò)安全探測系統(tǒng)。
來自哥倫比亞大學(xué),介紹了一個名為Anagram的異常數(shù)據(jù)報文探測器。
書籍
講述數(shù)據(jù)科學(xué)和機器學(xué)習(xí)在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用的書籍并不多,作者只介紹了以下兩本。
作者是來自路易斯安那理工大學(xué)的Sumeet Dua博士和Xian Du博士,探討了目前普遍存在的網(wǎng)絡(luò)安全問題以及最先進的機器學(xué)習(xí)和數(shù)據(jù)挖掘解決方案。
編者是來自喬治城大學(xué)的Marcus A. Maloof,該書系統(tǒng)介紹了數(shù)據(jù)挖掘和機器學(xué)習(xí)技術(shù)在計算機安全領(lǐng)域的最新研究成果。
雷鋒網(wǎng)注:目前兩本書都沒有中文版,紙質(zhì)版在亞馬遜上的售價都超過1000人民幣,第一本有Kindle電子版。
演講
原文作者收集了如下一些關(guān)于機器學(xué)習(xí)和網(wǎng)絡(luò)安全的演講,演講者們要么是來自相關(guān)領(lǐng)域的公司副總、技術(shù)負責(zé)人,要么是各大高校的研究人員、博士或者教授。(雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))注:國內(nèi)訪問需要科學(xué)上網(wǎng)。)
視頻系統(tǒng)介紹了機器學(xué)習(xí)在信息安全領(lǐng)域的應(yīng)用,時長約1小時。
要在限定的時間內(nèi)(通常是24小時)對惡意攻擊做出反應(yīng)通常需要耗費巨大的人力和物力,但是如果利用機器學(xué)習(xí)的方法,首先對網(wǎng)絡(luò)攻擊進行優(yōu)先級和攻擊方式分類,甚至處理一些簡單的套路式的攻擊,則可以大大降低網(wǎng)絡(luò)安全工程師的工作強度。本視頻就介紹了這一思路的具體應(yīng)用,時長約47分鐘。
這個視頻介紹了如何將機器學(xué)習(xí)應(yīng)用于網(wǎng)絡(luò)安全探測,時長約1小時。
目前互聯(lián)網(wǎng)上存在著各種各樣的網(wǎng)絡(luò)安全的探測系統(tǒng),但是用戶對它們褒貶不一,究竟如何判斷一個探測系統(tǒng)的可靠性,視頻介紹了一種實用的判斷方法,時長約40分鐘。
視頻介紹了數(shù)據(jù)驅(qū)動下的安全情報分析,特別是和社交網(wǎng)絡(luò)分享和傳播相關(guān)的,時長約48分鐘。
為了幫助網(wǎng)絡(luò)安全相關(guān)的研究者、分析師和極客愛好者了解機器學(xué)習(xí),以及如何將機器學(xué)習(xí)應(yīng)用在網(wǎng)絡(luò)安全中領(lǐng)域中,例如數(shù)據(jù)泄露,本視頻做了詳細介紹,時長約43分鐘。
視頻介紹了以機器學(xué)習(xí)技術(shù)為基礎(chǔ)的互聯(lián)網(wǎng)監(jiān)控,時長約46分鐘。
44分鐘教你攻克一個深度學(xué)習(xí)系統(tǒng),必看系列。
視頻介紹了社交網(wǎng)絡(luò)中的惡意攻擊行為和數(shù)據(jù)科學(xué)對此可能發(fā)揮的作用,時長約44分鐘。
還是關(guān)于攻破機器學(xué)習(xí)的話題,視頻介紹了如何攻破以機器學(xué)習(xí)為基礎(chǔ)的互聯(lián)網(wǎng)安全產(chǎn)品,時長約50分鐘。
視頻介紹了如何利用機器學(xué)習(xí)模型來探測互聯(lián)網(wǎng)安全,時長約28分鐘。
系統(tǒng)的“缺陷”也能用來探測惡意軟件?這個視頻用45分鐘為你詳細講解利用機器學(xué)習(xí)和系統(tǒng)“缺陷”來探測惡意軟件的方法。
視頻介紹了如何利用機器學(xué)習(xí)探測移動端惡意軟件,時長約44分鐘。
視頻用5分鐘介紹了如何用互聯(lián)網(wǎng)上開源的機器學(xué)習(xí)框架編寫一個全新的防病毒程序。
視頻介紹了針對企業(yè)用戶的自動化惡意軟件探測系統(tǒng),時長約48分鐘。
項目和教程
該項目包含了一系列與IPython、Pandas、Scikit Learn相關(guān)的練習(xí),包含筆記和原代碼,每個練習(xí)都會故意設(shè)置一些常見的代碼錯誤、數(shù)據(jù)庫錯誤和邏輯錯誤供使用者改正。該系列教程幾乎是機器學(xué)習(xí)在信息安全領(lǐng)域應(yīng)用的必學(xué)教程。
鏈接中是一位大神自己編寫的一個基于Keras框架和python語言的密碼生成器,利用了深度神經(jīng)網(wǎng)絡(luò)原理,在保證密碼安全性的同時也保證了易讀性。該項目的代碼已經(jīng)在Github上開源,可以結(jié)合上文提到的論文《Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks》一起學(xué)習(xí)。
原代碼:鏈接
該項目關(guān)于用機器學(xué)習(xí)算法判斷一個已知密碼的健壯性,代碼已經(jīng)在Github上開源。
源代碼:鏈接
該項目關(guān)于如何利用機器學(xué)習(xí)探測惡意的互聯(lián)網(wǎng)鏈接地址,據(jù)稱可以達到98%的正確率。
源代碼:鏈接
這是一篇綜述文章,文中介紹了多個國家/地區(qū)/大公司正在使用或研發(fā)的大數(shù)據(jù)分析工具和技術(shù),這些技術(shù)結(jié)合了文本挖掘、機器學(xué)習(xí)或者網(wǎng)絡(luò)分析,能夠在早期階段對網(wǎng)絡(luò)安全威脅進行檢測和預(yù)防。
這是一篇博客文章,介紹了如何利用深度學(xué)習(xí)技術(shù)破解煩人的驗證碼系統(tǒng),作者在文中給出了部分關(guān)鍵功能模塊的源代碼,并且在文末還給出了許多參考鏈接。
這是斯坦福大學(xué)開設(shè)的一個系列公開課,關(guān)于數(shù)據(jù)挖掘在互聯(lián)網(wǎng)安全中的應(yīng)用。在鏈接中可以直接看到課程安排,下載到講師演講的文本記錄、PPT,查看課后作業(yè)的題目和此前同學(xué)上傳的答案,以及課后的深入閱讀列表。這一課程可能是數(shù)據(jù)科學(xué)目前在網(wǎng)絡(luò)安全領(lǐng)域已經(jīng)公開的最好的課程之一。
其他
這是一篇研究成果介紹的文章,介紹了來自MIT計算機科學(xué)與人工智能實驗室(CSAIL)和一家機器學(xué)習(xí)初創(chuàng)公司PatternEx的最新研究成果:一個名為AI2的人工智能平臺,能夠根據(jù)人類網(wǎng)絡(luò)安全專家輸入的數(shù)據(jù),對當(dāng)前網(wǎng)絡(luò)可能遭到的安全威脅做出預(yù)測,正確率高達85%,超越了目前已知的其他同類預(yù)測系統(tǒng)。文中通過文字和視頻的方式講解了這一預(yù)測系統(tǒng)的基本工作原理。
這是一個開源項目相關(guān)的網(wǎng)站,該網(wǎng)站聚合了一系列將機器學(xué)習(xí)技術(shù)應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域的開源項目,同時還開設(shè)了博客文章和社區(qū)討論頻道,幫助開發(fā)者對這些項目深入理解。
這是一篇深度文章,通過與幾位數(shù)據(jù)科學(xué)大牛訪談的形式,詳細介紹了機器學(xué)習(xí)和網(wǎng)絡(luò)安全的關(guān)系以及相關(guān)應(yīng)用。
以上只是這位外國大牛的總結(jié),如果你手里也有一些值得安利的干貨和資源,不妨在文末留言分享出來吧!
附原文作者簡介:Faizan Ahmad,F(xiàn)ulbright 計劃大學(xué)生,目前在巴基斯坦國立計算機與新興科學(xué)大學(xué)(National University of Computer and Emerging Sciences)學(xué)習(xí),同時在巴基斯坦的拉合爾管理科學(xué)大學(xué)(Lahore University of Management Sciences)擔(dān)任研究助理,主攻計算機和網(wǎng)絡(luò)安全研究方向。