Intetix Foundation(英明泰思基金會)由從事數據科學、非營利組織和公共政策研究的中國學者發起成立,致力于通過數據科學改善人類社會和自然環境。通過聯絡、動員中美最頂尖的數據科學家和社會科學家,以及分布在全球的志愿者,我們創造性地踐行著我們的使命:為美好生活洞見數據價值。
摘要:本文綜述了結合文本挖掘、機器學習和網絡分析的大數據工具和技術如何進行安全威脅預測、檢測以及早期預防。
原作者:Khushbu Shah、DeZyre
原文鏈接:http://www.kdnuggets.com/2015/12/big-data-science-security-fraud-detection.html
恐怖主義、欺詐、網絡犯罪和其他秘密在線活動已經成為目前的新聞頭條,最近又在巴黎和貝魯特發生了恐怖襲擊。安全機構當下的迫切任務就是完全根除恐怖主義。對于ISIS、基地組織和博科圣地組織等恐怖組織來說,恐怖主義早已成為一項業務,并構成全球性威脅。他們的目標是制造死亡和破壞。這些組織正在激化年輕的在線一代。ISIS通過成功的宣傳,廣播其令人毛骨悚然的成功,從社交媒體平臺如Facebook、Twitter上征募青少年,運用技術和西方媒體工具發動戰爭。如何制裁類似于ISIS的恐怖組織、網絡犯罪和欺詐?好家伙——技術上強大的“大數據和數據科學”已經準備好了。
大數據分析工具和技術,結合文本挖掘、機器學習以及本體建模,已成為進行軍事安全威脅預測、檢測和早期階段預防的第一道防線。如今大數據和數據科技,通過改進協作和數據分析,減低了情報調查過程的繁瑣程度,以便機構更輕易地檢測到國家安全威脅。隨著企業機構從使用傳統的防火墻和端點供應商轉移到采用大數據和云解決方案,FBR資本市場報告,2015年“下一代網絡安全支出”增加了20%。
恐怖分子訓練有素,裝備精良,財力雄厚。這就意味著,安全機構應借助大數據來進行預測分析,來贏得與網絡恐怖主義的戰役。基于潛在恐怖行為的海量數據,包括參與極端的在線交談、不尋常的購買、遷入沖突地區、于其他極端傾向的關聯等數據從各處收集而來。安全和情報機構正在利用實時分析,通過連接這些不尋常的行為,跨越不同系統,歸納數據模式。
保安公司正在使用一些創新的數據可視化和數據挖掘技術,從大數據中歸納數據模式,從而打擊網絡間諜、恐怖分子和黑客。這些公司正試圖充分利用大數據和數據科技,鑒定可疑的行為模式,識別有可能發生的威脅,以此來檢測欺詐和其他許多可疑的犯罪活動。
應用網絡安全研究中心主任Fred Cate說,“如果你有足夠大的數據集,總能在里面找到東西。我們有理由相信,你能夠獲得的數據越多,就越有可能會發現一些有預測價值的東西。”
大數據分析有助于跟ISIS斗爭嗎?社交媒體渠道擁有各種恐怖組織相關的信息;政府當局使用這些資源,可以在全球范圍內識別會造成嚴重威脅的事件。大數據可以擊倒ISIS,但是以一種間接的方式。關于ISIS組織,沒有可用的直接信息,但數據可以幫助安全機構,確定給該組織融資和提供供應的是誰、支持該組織的人有哪些、誰正在向組織提供武器,及類似的數據要點。使用各種大數據和數據科學技術,可以挖掘和處理所有這些數據。
在最近巴黎襲擊之后,佛羅里達大學助教Taha Mokfi為了解全球各地的人們怎么看待巴黎恐怖事件,挖掘推特上的數據;于2015年11月15日,從推特賬戶上摘錄了20萬英語推文。包括#伊拉克、#穆斯林、#ISIS、#敘利亞、#沙特阿拉伯在內的眾多標簽都被考慮其中,以此產生標簽云和情緒評分。應用數據科學的R編程語言,繪制圖表,確定和解析#巴黎襲擊標簽和其他相關標簽之間的關系。
大數據和數據科學主導技術針對安全和欺詐檢測的應用1.大數據管理系統在阿布扎比預防恐怖主義
頂級安全專家從向阿布扎比自治系統投資Tawazum公司提出了建立一個大數據管理系統的新型安全觀。大數據系統將對流入政府當局數據庫的所有數據進行審核,以此來防止任何類型的網絡犯罪或恐怖活動。這些龐大的數據系統,運用統計數據模型,相應地篩選數據。澳大利亞、美國和英國已經在使用這種大數據系統。這種系統協助政府評估群眾對社交媒體上任何問題的感受。在阿聯酋引進這類大數據系統,可以預防反對派團體使用社交媒體來組織抗議活動和恐怖襲擊。
2.使用Tableau軟件識別恐怖主義
ISVG(暴力組織調查研究所)用Tableau數據可視化工具,審查了10年間參與極端主義、跨國犯罪和恐怖主義的個人和團體的相關數據。ISVG每周使用Tableau生成各種不同的報告,并將它們發送給世界各國國防部官員,來檢測任何可疑的和不尋常的數據模式。
該研究所IT和分析部門的協調人John Hitzeman說道,“我們可以立即得到所需數據,并且能夠回答我們之前從未想過要詢問的問題。了解主要恐怖分子陣營的模式和特征,已經幫助國防官員做出決策,拯救生命。”
3.歐洲政府開發POLE數據模型來存儲和記錄事件
如果這個模型早一點開發的話,3個女孩從倫敦前往敘利亞加入ISIS的事件,本來是可以避免的。三個女孩中的一個,是在Twitter上和另一個女孩聯系的,后者加入ISIS的意圖已為當局所知。一個用于存儲和記錄可疑集體和事件的POLE(以人、對象、地點和事件為基礎)數據模型的大數據解決方案已經被研制出來。在系統中被記錄的人(集體),可以被多次連接到其他各種事件或人物,以此來建立一種關聯網絡,這樣我們就可以追蹤到可疑的人。這種數據可以實時快速檢索和更新。
4.使用機器學習和分析預測在線欺詐
美國大數據公司EMC網絡安全裝備RSA使用機器學習和先進的大數據分析方法,防止網絡詐騙。8年之內,他們發現了大約50萬次襲擊,其中一半是在2012年被識別出的。RSA以色列運營部棄用了基于規則的欺詐檢測系統,轉而使用一個以貝葉斯推理為技術支持的更能自我提高的系統。
任何RSA客戶每次通過網上銀行進行交易,20個影響因素就會被存儲在AFCC(反欺詐控制中心)的數據庫中。所有這些20個因素,匯集并入150項欺詐風險特征,每個風險特征是兩個或更多的20個被記錄因素的組合。例如,MAC地址和IP地址的組合比僅僅IP地址,可以更好地預測欺詐。
英國宇航系統公司的數據情報裝備Detica,通過使用先前被忽視的各種數據科技,實現類似的技術來識別更頑固的威脅。
5.馬里蘭大學開發算法來預測恐怖組織虔誠軍的攻擊
在印度和巴基斯坦之間進行運作的恐怖組織虔誠軍,制造了2008年孟買爆炸事件。馬里蘭大學推行類似于亞馬遜預測客戶行為的數據挖掘分析算法的解析技術,對恐怖組織虔誠軍進行計算分析,從該恐怖組織20年的活動中挖掘出770個變量數據。
通過使用770個變量的月度數據,安全機構能夠確定各種因素,比如,在各種地緣政治局勢中有哪些不同類型的恐怖襲擊,有哪些造成襲擊事件頻繁發生因素,恐怖組織如何選擇他們的襲擊位置,等等。這項由馬里蘭大學LCCD(計算文化動力學實驗室)開發的專有項目,與另一個時態概率規則系統項目一起,從國防部那里獲得了60萬美元的資金支持。
6.微軟公司使用強大的數據挖掘系統識別安全威脅
微軟的研究人員開發出定制的數據挖掘系統,已剔除了運行Windows網絡的各種機構發送來的大約100萬的惡意文件、3.2億份預警報告、以及2.5億份威脅報告。微軟分析師對最普遍的威脅進行分類和排序,然后將此信息與其防病毒伙伴即邁克菲(McAfee)和賽門鐵克(Symantec)共享,這有助于微軟分析和打擊網絡犯罪。
打擊恐怖主義的重心是采用先進分析和數據科技進行實時分析,以負責任的方式共享數據,并從產生的大量數據中提取有價值的信息。遵循這些步驟,可以幫助安全機構和其他情報機構追蹤在線詐騙、網絡犯罪、以及在線和離線的恐怖主義活動。