3月17日訊 2017年,機器學習是網絡安全最熱門的領域之一。機器學習的潛力巨大,但其算法如果被聰明絕頂的對手加以利用,同樣也會降低決策的質量。
美國NSA/CSS研究部門責人黛博拉·弗林克對機器學習的部分見解
美國國家安全局/中央安全局(NSA/CSS)的研究部門負責人黛博拉·弗林克表示,或許是考慮到有人發現對手能在大數據環境控制足夠多的數據進行誤導性干擾。弗林克將這種做法稱之為“對抗性機器學習”。她擔心盡管目前剛開始出現這樣的苗頭,但合理推測之后認為這樣的趨勢還將繼續。
例如,組織機構可以利用機器學習形成網絡的“自我意識”,并構建自我修復能力。然而,如果攻擊者進入網絡,或甚至在機器學習進程開始之前就已潛入網絡,又當如何?組織機構的行為就是規范的一部分,這種情況下從某種意義上講存在一個問題,正在做的事情相當于是在保護攻擊者。
數字科學之所以有趣還在于:如果你正使用數據驅動的算法,而該算法恰好就是你宣傳機器學習算法技術的根據。除非保留原始數據,否則你不會知道你在機器學習方法中構建了怎樣的偏置。
她認為“不可能在大海里撈到針,因為你拋棄了整片大海,剩下的就是權重和神經網絡等等。”
機器學習還有其他局限例如,2016年澳大利亞莫納什大學的教授湯姆·德拉蒙德指出,神經網絡是機器學習的基本方法之一,如果不被告知出錯的原因,神經網絡會被引入歧途。
追溯到20世紀80年代。尼爾·弗雷澤在他的文章“神經網絡弊端”(Neural Network Follies)講述了這樣的故事。美國國防部試圖培訓神經網絡來發現潛在威脅,例如躲在樹后的敵方坦克。他們通過一系列圖片(樹后隱藏有坦克和樹后無坦克的圖片)訓練神經網絡。但當被要求運用這類知識時,系統失敗了。弗雷澤寫到,“最終有人注意到,所有200張圖片中,有關坦克的圖片都是在陰天拍攝的,但不帶坦克的圖片確是在晴天拍攝的。因此,目前令美國軍方引以為豪的是,自己擁有數百萬可以識別天氣是否晴朗的大型計算機。”
欺騙技術或隱瞞手段可用來打破網絡安全的權力平衡黛博拉·弗林克當地時間周三在堪培拉舉辦的澳大利亞網絡安全中心(ACSC)大會上發言。雖然她并未指出機器學習的局限在哪里,但她概括了NSA真實有效的一些防御策略。
例如,組織機構可以學習欺騙技術或隱瞞對手,以此打破網絡安全的權力平衡。網絡防御在本質上就是不對稱的。這種不平衡通常表現為:防御者必須隔離每個安全漏洞,而攻擊者只需正確部署一次就夠了。
弗林克表示:
“從表面判斷你會認為自己占有優先主導權,應該能運用欺騙技術或隱瞞手段從而打破這種權利平衡。”從傳統意義上講,組織機構設法讓數據系統更高效,這就使得網絡更易于管理。然而這種情況下,從攻擊者的觀點出發,在給定時間預測給定系統的現狀就變得相當容易。
但采取防御性欺騙方法意味著構建過剩能力,之后再想盡辦法利用這種過剩能力通過欺騙或多變的方法進行設計。這樣一來,攻擊者就無法真正了解數據的具體位置。如果在云端處理數據,簡單的做法就是:在更多節點(超出正常使用)上復制數據,并交換數據。
弗林克稱,
“如果你試圖執行完整性攻擊,更改我使用的數據,但不知道我在使用哪一個節點,因為我正在使用上百個節點。或者,我可能正在查看這些節點的子集,你不知道我正在使用哪三個節點。或許你可以嘗試一次更改所有數據,但是難度不言而喻。”
RD的研究證明這種方法增強了攻擊者的認知負荷,并影響他們的認知偏差。
弗林克表示,“我們可以試圖引導攻擊者得出錯誤的結論。換句話講,我們要試圖增加攻擊者的工作難度,誤導他們做無用功,以此來挫敗他們。這樣一來,我們就能更容易找到攻擊者。”這與蜜罐技術(Honeypot)有些類似,但不是作為附加功能添加到系統上,得將奏效的方法設計到系統中去。
防御欺騙的弊端在于:很難管理。弗林克還指出,防御欺騙需要系統管理員執行更多工作。此外,作為設計者,尤其為對手部署某種誤導性變化時,必須十分確定應該使用哪幾個節點,否則可能會搬起石頭砸自己的腳。