日前,Boing Boing在網上發布了一份長達96頁關于英國情報機構GCHQ數據挖掘技術的電子書—《數據挖掘研究問題書(Data Mining Research Problem Book)》。據悉,這份文件最早由愛德華·斯諾登獲得。
Boing Boing為這本電子書打上了一個“可能發生的最糟糕的情況是什么?”的副標題,并對其進行以下描述:一種為想要利用惡意軟件尋找許可、感染敵人電腦或網絡的間諜所使用的清單。
從電子書中了解到,這份數據挖掘手冊由來自海爾布隆數學研究所的研究人員和GCHQ和布里斯托爾大學的研究人員聯合編寫。據Boing Boing披露,相關人員一半的時間花在公共研究工作上,而另外一半時間則用在政府的秘密項目開發上。
手冊為GCHQ數據挖掘工作提供了非常具有價值的見解,至少在2011年9月編寫完成的時候是非常有用的。那個時候,一些“傳輸者”—互聯網連接—其速度為10 gigabits/s。而手冊中寫道:“一個10G的傳輸者可以生產巨大的數據。為了讓它們變得可管理,首先要做的就是丟掉大部分我們看得到的數據包。”
然而重要的是,其實被丟掉的只是內容,而非源數據。這也就證實了GCHQ在對源數據監控中所扮演的中心角色,換句話說,這個機構甚至有可能在《監聽者憲章(Snooper Charter)》到來之前就已經開始數據收集了。
還有值得注意的部分則是隱寫術—將信息隱藏在另外一個文件中,其中一個常用的辦法就是通過對JPEG圖像系數的修改將數據藏在里邊,與此同時,對圖片的改變則要盡量保持最小化。
不過手冊中大部分內容都集中在GCHQ大規模源數據儲存的審查上。
當有外媒就這一份文件真實性向GCHQ求證時,該機構發言人稱:“我們不對此做評論,”僅簡單地提供了一個非常官方的回應。