11月9日消息,據福布斯雜志報道,有網友在問答網站Quora上提問:美國FBI只用了8天時間就完成了65萬封電子郵件的評估,他們擁有什么軟件可逐字逐句地掃描郵件嗎?技術專家Nipun Sher給出了答案:
美國共和黨總統提名人唐納德·特朗普(Donald Trump)曾猛批美國大選正被操縱,他昨天參加競選集會時又給出“火上澆油”的評論。他對選民稱:“你不可能在8天時間內就完成65萬封電子郵件的評估,你無法做到!”
然而,美國總統奧巴馬可能會說“yes we can”。我個人曾親自參與這類行動,在不到2天時間內對130萬封電子郵件完成了評估。我怎么知道?因為這就是我的職業。底線是,你不需要評估所有65萬封郵件。事實上,誰也不想評估如此巨量的電子郵件,這不僅是愚蠢的行為,也是對時間和金錢的浪費。
相反,你需要做的就是清除那些與你正尋找的信息不相關的電子郵件。FBI有很多方法可以減少應被評估電子郵件的數量,這涉及到各種法醫和調查工具。現在,我們還不知道FBI的具體工作流程,但我可以提供潛在方案,能夠大幅削減評估電子郵件數量。
1.重復數據刪除(De-duplication):首先,我們會使用Nuix或Clearwell等處理工具篩選65萬封電子郵件。這些工具中,特別是Nuix(速度非常快),可以提取元數據和所有電子郵件中的文本信息。更重要的是,這些工具可通過重復數據刪除的過程確定出復制郵件。這款軟件可對65萬封電子郵件的ID進行對比,刪除重復電子郵件。我們還可以通過將新舊電子郵件轉儲進行對比,減少郵件數量。此前,FBI已經在希拉里“電郵門”調查中獲得3萬封轉儲的電子郵件。這個軟件將可自動忽略普通和重復的電子郵件,從而大幅減少郵件數量。
2.電子郵件過濾器(Email Filters):經過重復數據刪除后,我們可以在軟件中進行搜索,以過濾掉那些元數據中擁有希拉里電子郵件地址的郵件。這可以刪除全部希拉里未曾參與或與調查無關的電子郵件。由于這些電子郵件都在安東尼·韋納(Anthony Weiner)的電腦上,為此我們可以假設,這種方法可濾掉數以千計的電子郵件。接著,盡管我不知道調查范圍,但FBI肯定會通過限制特定范圍或特定人群的方式,進一步減少需要評估的電子郵件數量。
3.電子郵件線程(Email Threads):經過電子郵件過濾后,我們可以通過只審查最具包容性對話線程的方式減少剩余郵件數量。讓我舉例解釋下,如果我向你和我們的共同朋友發送電子郵件,你回復了郵件,接著我們的共同朋友也回復了郵件。我們無需分別評估這三封郵件,只需評估共同朋友的電子郵件即可,因為其已經包括了我的原始電郵和你的回復。微軟去年開發出的Equivio就是非常受歡迎的工具,可以輕松確定最具包容性的電子郵件線程。
進過以上3次篩選后,FBI最后需要評估的電子郵件數量可能只剩數千封甚至數百封。如果他們知道自己在尋找什么,他們還可以使用關鍵詞搜索,進一步減少需要評估的郵件數量。
這些只是此類案件中使用的最簡單的方法,還有許多工具或應用可被用于相關調查,比如Brainspace、Relativity、EnCase以及grep等。
在你看來,FBI在不到2周時間里完成65萬封電子郵件的評估,已經令人感覺不可思議。可是我認為,他們實際花費的許多時間都是不必要的。畢竟,效率低下是大多數政府機構的通病。