桌面圖標(biāo)和其他各種各樣的圖形圖像經(jīng)常被惡意軟件制造者們用來引誘用戶。最經(jīng)典的案例就是PDF圖標(biāo)被利用來誘使用戶誤以為是無害文檔而放心打開惡意可執(zhí)行程序。
作為美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(DARPA)新型惡意軟件分析項(xiàng)目的一部分,Invincea的研究人員演示了用于分析惡意軟件內(nèi)置圖像的一套自動(dòng)化系統(tǒng),證明其能夠提高威脅檢出率,幫助研究人員弄清新型惡意軟件是怎樣誘騙用戶的,以及幫助確定具體威脅背后的敵人到底是誰。
Invincea實(shí)驗(yàn)室研究工程師阿歷克斯·朗在2015黑帽大會(huì)上展示了他們研究的成果。
“利用惡意軟件的內(nèi)置圖像來分析樣本領(lǐng)惡意軟件作者陷入了‘第二十二條軍規(guī)’的窘境,因?yàn)閳D像就是他們借以玩弄用戶的一大法寶。基本上,我們就是向惡意軟件作者宣告:‘你可以繼續(xù)使用圖標(biāo)圖像增加誘使用戶中招的幾率,但我們也會(huì)使用圖像來更加容易地檢測(cè)并弄懂你的惡意軟件。’”朗說。
他補(bǔ)充道:“基于對(duì)惡意軟件檢測(cè)方法的大量研究,以及我們的工作展現(xiàn)出的可喜初期成果,我們相信:這一相對(duì)簡(jiǎn)單的思路具有非常有效地補(bǔ)足其他方法的潛力,應(yīng)當(dāng)作為惡意軟件分析的新信號(hào)得到進(jìn)一步深化發(fā)展。”
據(jù)朗所說,DARPA提供的200萬份惡意軟件樣本中,超過半數(shù)的樣本至少包含一個(gè)內(nèi)置圖像。
這一自動(dòng)化惡意軟件圖像分析分為兩個(gè)主要階段:用視覺相似圖像集識(shí)別惡意軟件樣本,以及對(duì)圖像分類(例如:假冒反病毒軟件,安裝程序,游戲相關(guān)威脅)。
對(duì)于第一個(gè)部分,Invincea依靠一種名為“平均散列”的技巧。這一技巧涉及將圖像削減成灰度圖,拉伸或縮小到某一特定大小,調(diào)高對(duì)比度,并轉(zhuǎn)換成二進(jìn)制向量(位向量)等一系列操作。當(dāng)?shù)玫搅似骄袼刂担涂梢酝ㄟ^對(duì)比每個(gè)像素和平均像素的差異產(chǎn)生出一個(gè)散列。
這就使得分析系統(tǒng)可以極有效率地將惡意軟件圖像與給定圖像集進(jìn)行比較而無須考慮它們的對(duì)比度、大小或配色。
而惡意軟件圖像分類則依賴于谷歌圖片搜索API(應(yīng)用程序編程接口)和用戶定義查詢。
朗解釋道:“圖像分類上,我們采用了谷歌圖片搜索結(jié)果來得到代表不同語(yǔ)義類別的圖像。比如說,如果你想要IE圖標(biāo)的訓(xùn)練數(shù)據(jù),只需使用一些高級(jí)搜索設(shè)置來限制‘internet explore’這個(gè)關(guān)鍵詞的搜索范圍到僅有圖標(biāo)就好。”
對(duì)某些測(cè)試類別,比如假冒字處理軟件,研究人員獲得了相當(dāng)好的結(jié)果,但在其他類別中,惡意軟件圖像被誤分類的概率高到令人無法接受。
“我們這個(gè)研究的目的是讓分析過程完全自動(dòng)化。惡意軟件作者采用自動(dòng)化流程依靠單一惡意軟件樣本基本上就能源源不斷地產(chǎn)出大量惡意軟件變種,那么,惡意軟件分析師也就必須開始更多地依靠自動(dòng)化的方法。” 朗說道。
“采用我們的方法,提取、比較和可視化匹配圖像都是全自動(dòng)完成,因而,分析師可以輕輕一擊,就從全無所知的20萬份新鮮惡意軟件樣本中得到它們之間共享圖像的‘社會(huì)網(wǎng)絡(luò)’圖譜。圖像分類過程也是完全自動(dòng)的,所以,選擇想要怎樣分類惡意軟件圖像就跟新添搜索關(guān)鍵詞一樣簡(jiǎn)單,在我們系統(tǒng)的搜索列表里添上就行。”
圖像處理通常需要占用大量系統(tǒng)資源,但I(xiàn)nvincea開發(fā)了一套相當(dāng)高效的分析系統(tǒng)。
“考慮到可擴(kuò)展性,我們把注意力放在了計(jì)算成本低的方法上。平均散列是個(gè)好辦法,因?yàn)檎麄€(gè)算法用python寫的話只有20-30行,且?guī)缀跏撬矔r(shí)運(yùn)行。為了在百萬幅圖像對(duì)比時(shí)還保持良好運(yùn)行效率,我們采用了開源庫(kù)FLANN,也就是‘快速輕量級(jí)最近鄰逼近搜索函數(shù)庫(kù)’。這個(gè)庫(kù)采用了比k最近鄰(kNN)算法復(fù)雜得多的技術(shù)來逼近kNN的結(jié)果而又不用執(zhí)行極消耗計(jì)算資源的可能圖像對(duì)間的兩兩比較。從而,我們得以在數(shù)秒內(nèi)就對(duì)成千上萬的圖像進(jìn)行最近鄰計(jì)算,對(duì)計(jì)算機(jī)性能的影響幾乎可以忽略不計(jì)。”
研究人員表示,在圖像分析能被集成進(jìn)商業(yè)解決方案之前,此系統(tǒng)的整體準(zhǔn)確度還需進(jìn)一步提升。
朗說:“這一工作是在一項(xiàng)4年期DARPA項(xiàng)目的尾端進(jìn)行的,因此,我們的主要目標(biāo)僅僅是向社區(qū)公開這一創(chuàng)意。我們想表明這一概念是有潛力的,也相信我們已經(jīng)做到了這一點(diǎn)。”