美國國務院每年對20億封電子郵件進行分類是一項艱巨的任務。目前,其已經看到了機器學習和自動化的好處。
美國安全部門的協調失敗已經在諸如9/11襲擊事件之后被廣泛報道。美國安全部門工作人員可能會獲得防止攻擊所需的知識,但是缺乏協調,導致這種情況沒有應該擁有的人才。結果,發生了本可預防的暴行。
最近一篇文章探討了如何使用人工智能來改善美國國務院的內部流程。該部門這項工作特別感興趣的是,如何更好地正確分類每年在內部生成的大量電子郵件。
進行分類
該部門被認為每年產生約20億封電子郵件,其中許多包含分類信息。然而,了解(并因此正確地標記)秘需要分類的內容是一項艱巨的工作。
研究人員使用機器學習來改善這一點。他們開始通過訓練他們的算法從上世紀70年代美國國務院和海外外交官之間的通訊的大約一百萬封郵件分類。每封郵件以前都標記為秘密,機密,有限的官方使用或未分類。
在訓練了系統之后,他們設置這個系統工作,以查看它是否可以正確地分類文檔,特別是它是否可以正確地標記內容應該是分類狀態。
該算法在這樣做時證明是特別有效的,其在分類內容的成功率為90%,錯誤率僅為11%。更重要的是,團隊認為他們可以用更好的數據做更好的工作。
什么使這些內容進行分類?
除了對內容進行分類的能力之外,這項工作還揭示了一個有助于其安全狀態的信息方面的新亮點。例如,出現了某些單詞的頻率是整個消息的安全狀態的最佳指示符,而發送者和接收者更不可靠。
有趣的是,機器分配的一些錯誤標簽實際上被證明是人為的錯誤。換句話說,他們應該被分類,但人類卻標記了它們。
這表明,機器可以在確保內容被正確分類方面發揮越來越重要的作用,但是為了使其有效,人們需要有良好的質量數據來訓練機器。
此外,該工作還具有揭示數據共享中的模式的潛力,以及實際上在人們的安全服務中的數據移除,其本身可能具有安全影響。畢竟,分類內容有丟失的習慣。
雖然這無疑是有趣的,但也很清楚,這樣的過程是一個非常早期的階段。然而,鑒于美國國務院每年花費數十億美元對文件進行分類,這項工作有希望值得進一步發展。