2013,一群英國情報人員注意到一些奇怪的事情。雖然大多數保護數字基礎設施的努力都集中在阻止壞人進入,但很少有人關注反面:阻止他們泄露信息。基于這個想法,該集團成立了一個新的網絡安全公司,稱為Darktrace。
該公司與劍橋大學的數學家合作,開發了一種利用機器學習來捕捉內部漏洞的工具。然而,它們不需要在攻擊的歷史實例上訓練算法,而是需要系統識別異常行為新實例的方法。他們轉向無監督學習,這是一種基于一種罕見的機器學習算法的技術,它不需要人類指定尋找什么。
Darktrace已經把注意力放在一種被感染的裝置上,表現出反常的行為。“這非常像人體自身的免疫系統,”該公司的CO-CEO NicoleEagan說。盡管它是復雜的,但它具有自我和非自我的內在感覺。當它發現不屬于自己的東西時,它會有極其精確和快速的反應。
絕大多數機器學習應用依賴于監督學習。這包括給機器提供大量仔細標記的數據,以訓練它識別一個狹義的模式。說你想讓你的機器識別黃金獵犬。你喂它幾百或幾千張金毛獵犬的照片,以及那些不是金毛獵犬的東西,同時明確地告訴它哪些是金毛獵犬。最終,你會發現一個相當不錯的金毛獵犬識別機器。
在網絡安全中,有監督的學習效果很好。你訓練一臺機器,面對你的系統以前面臨的各種威脅,并且無情地追逐它們。
但有兩個主要問題。一方面,它只適用于已知的威脅;未知的威脅仍然潛藏在雷達下。另一方面,監督學習算法最適合于平衡數據集——換言之,那些具有相同數量的示例,說明它在尋找什么,以及它可以忽略什么。網絡安全數據高度不平衡:很少有威脅行為的例子埋藏在絕大多數正常行為中。
一個特定子網絡內所有連接的可視化。幸運的是,在監督學習失敗的情況下,無人監督的學習勝過了。后者可以查看大量未標記的數據,并找到不遵循典型模式的片段。因此,它可以面對系統從未見過的威脅,并且需要很少的反常數據點來這樣做。
當Darktrace部署其軟件時,它會在客戶端的網絡周圍建立物理和數字傳感器來繪制其活動。這些原始數據被傳送到60多個不同的無監督學習算法,這些算法相互競爭以發現異常行為。
然后,這些算法將它們的輸出吐出到另一個主算法中,該主算法使用各種統計方法來確定60個中的哪些要聽,哪些要忽略。所有這些復雜性被封裝成一個最終的可視化,允許人類操作員快速地查看和響應可能的違規行為。當人類下一步該做什么時,系統就可以通過隔離被感染設備的所有外部通信來隔離破裂直到解決。
然而,無人監督的學習并不是一顆銀彈。隨著攻擊者變得越來越復雜,他們在愚弄機器,無論他們使用什么類型的機器學習方面都變得更好。有一個貓和老鼠的游戲,攻擊者可以嘗試改變他們的行為,Dawn Song說:“網絡安全和機器學習專家在加州大學伯克利分校。
作為回應,網絡安全界已經轉向了積極的方法——“更好的安全架構和原則,以便系統通過構建更加安全,”她說。但要徹底根除所有違規和欺詐行為還有很長的路要走。畢竟,她補充道,“整個系統的安全性取決于它最薄弱的環節。”
注: 現實生活中常常會有這樣的問題:缺乏足夠的先驗知識,因此難以人工標注類別或進行人工類別標注的成本太高。很自然地,我們希望計算機能代我們完成這些工作,或至少提供一些幫助。根據類別未知(沒有被標記)的訓練樣本解決模式識別中的各種問題,稱之為無監督學習。