一家在中美洲注冊的律師事務所,他的1150萬份秘密文件被匿名者交給德國《南德意志報》,這些文件被不知名人士泄露給新聞機構,后者再與100多個新聞機構和400名記者分享信息——這項調查已經持續近1年。據《南德意志報》報道,此次披露的泄密數據比維基解密(Wikileaks Cablegate)、離岸解密(Offshore Leaks)、 Lux Leaks和Swiss Leaks這幾個解密網站披露的數據總和還要多。這使得這次數據泄露成為歷史上最大的數據泄露。
ICIJ表示,一些機構積極注冊殼公司來幫助富人及政要在全球轉移資產,此為資產轉移的路線圖。
史上最大泄密數據怎樣流出?
據ICIJ負責人Ryle介紹,文件泄密事件始于2014年末,當時,一位匿名舉報人主動聯系《南德意志報》。《南德意志報》的記者Bastian Oberway說這位舉報人通過加密的聊天軟件與他取得聯系,表示將會提供某種數據,意圖“將這些罪行公諸于眾”。但這位舉報人稱,他(或她)可能“有生命危險”,因此只愿意通過加密渠道聯系,并拒絕面談。Obermayer問:“到底有多少數據?”舉報人回答說:“你從未見過那么多。”Obermayer告訴《連線》雜志,他通過多個加密渠道與這位線人聯系,而且頻繁更換渠道,每一次都會刪除所有對話歷史記錄。他籠統提到曾使用Signal和Threema之類的加密軟件,以及PGP加密電子郵件,但拒絕透露他們使用的具體方法。每一次,記者和線人重新建立聯系后都會使用事先設定的問題和答案來相互驗證身份。Obermayer說:“我會問‘天氣晴朗嗎?’他應回答‘月球上在下雨’,或其他莫名其妙的回答,這樣我們就知道對方依然是那個人。”
泄密的規模究竟有多大?
實際泄密的文件尚未被公布——國際調查記者聯盟(ICIJ)已宣布,將于下月公布泄密文件涉及的完整公司名單——它們到底包含多少數據尚不得而知。據報道,全部泄露信息包括上述律師事務所的1150萬份內部文件。其中包括但并不局限于電子郵件、合同、抄本和掃描文件。總計包括480萬封電子郵件、300萬條數據庫信息、200萬份PDF文件、100萬張圖片和32萬份文本文件。所包含信息的總量甚至比維基泄密事件和愛德華·斯諾登泄密案更龐大。全部信息累計有2.6TB字節。這批文件數據生成的時間跨度長達數十年,從1977年一直到2015年。據ICIJ透露,“這些數據顯示,上述律師所與超過1.4萬家銀行、律師事務所、公司法人和其他中間人合作,為其客戶設立空殼公司、基金會和信托。”
最受這些頂級富豪們歡迎的十大避稅天堂。文件顯示,逾11.3萬(每兩家就有一家)家企業在英屬維京群島注冊。
如何協調幾百家媒體的報道?
文件曝光了有哪些跨國銀行請求為其客戶建立殼公司以及數量,其中Experta公司和信托服務的請求數量居榜首。Obermayer拒絕透露他們的舉報人具體是如何一次性將數百GB甚至上TB的的數據傳送給《南德意志報》的,這顯然遠遠超過電子郵件的上限,但如果通過郵寄加密硬盤的方式卻很容易匿名轉交。Obermayer只是簡略地說:“我學到了很多關于如何安全地傳輸大文件的知識。”在聯系上ICIJ后,ICIJ的技術人員為這些文件專門設計了一種“雙因素認證保護搜索引擎”、以及一個通過加密電子郵件與其他媒體(包括BBC、衛報、Fusion和幾十家外語媒體)共享的URL地址。這一網站甚至包括實時聊天系統,方便記者們交換意見,查找自己看不懂的外語文件的翻譯版。“如果你想要查閱巴西相關文件,可以找一位巴西記者,”Ryle說,“你還能看到誰已經起床開始工作,并進行公開通信。我們鼓勵每個人告知其他人他正在做什么。”不同的媒體機構最終分別在華盛頓、慕尼黑、倫敦、約翰內斯堡和利勒哈默爾組織了各自的面談。
令人驚訝的是,雖然這些信息被如此廣泛地分享,要將數據庫中的信息公諸于眾還需等待——或許,部分原因在于它是如此的龐大且難以駕馭。Obermayer承認,雖然發生大規模泄密事件的傳聞風聲四起,但數據本身并未泄露出去。“去年秋天,我一度非常緊張,擔心太多人知道了,”他說,“有幾個地方曾出現傳聞,但范圍并未擴大。”Ryle說,媒體組織并不計劃像維基解密一樣發布完整數據庫,因為這樣做會暴露無辜個人的敏感信息,他們的報道只關注公眾人物。在和包括上述律師事務所在內的調查對象取得聯系前幾周,Obermayer采取了最后一個預防措施:他摧毀了和舉報人聯系的電話和筆記本電腦硬盤。“這樣做似乎有點夸張,”他說,“但穩妥總比后悔好。”他說,直到現在,他依然不知道舉報人的真實身份。“我不知道此人的名字或身份,”Obermayer說,“但我得說,我很了解他/她。有段時期,我與之交談的時間比我和我妻子還要多。”
如何分析1150萬份文件?
為了讓參與調查的記者能夠分享到原始數據,首先需要將其轉化成數字格式,這個過程中需要使用高性能計算機,并需要能夠在成千上萬的細節中搜尋熟悉名字的算法。為了能夠對泄露文件內容進行報道,掌握數據的人必須確保這些數據可被計算機讀取,而且能夠被搜索。“異類數據很難讀取或進行交叉對照,”倫敦大學學院的計算機學副教授Gabriel Brostow告訴《連線》雜志說,“表格、數字、PDF格式文件幾乎都無法讀取。”《南德意志報》、ICIJ與軟件公司Nuix合作,對文件進行初步分類和整理。Nuix的高級顧問Carl Batton對《連線》解釋說,要攻克這些數據,首先需要將它們存儲在私人服務器上,切斷與外部世界的連接。數據隔離完成后,下一步是給它們編索引。Batton說:“我們會把信息中包含的文本和所有元數據提取出來,然后我們再從大數據和分析的角度,使用Nuix的技術對其進行調查。”
處理這些數據最大的挑戰在于,一開始,大量的文本根本無法被機器識別。最終使用了“光符識別”(OCR)技術將數據轉化成可以被計算機讀取并搜索的文本。文本提取完成后,就可以插入索引和數據庫。據Batton估計,最終的數據庫大小只有原始數據的30%。“經過我們處理后,ICIJ和《南德意志報》可以對數據進行關鍵詞搜索,我們也可以找出其中的關鍵:比如姓氏、名字和數字,”Batton說,“我還可以用分析工具查找這些名字與文件的關聯。”一旦信息索引完成,再應用算法在龐大的新信息庫中尋找特定關聯。最后,再將這些自動生成的信息與人工創造的數據結合起來。《南德意志報》在一篇評論中解釋說,“記者們負責提供重要政客、國際罪犯和著名職業運動員等相關名單。”然后用專門創造的搜索工具對名單上名字進行搜索。這家德國報紙還提到,“涉及政治獻金丑聞的名單包含了130個名字,涉及聯合國經濟制裁的名單包含600多個名字,然而,強大的搜索算法只用了短短幾分鐘就完成了這些名單與1150萬份文件的對比。”
文件顯示,在全球空殼公司和影子銀行的排行中,中國香港是最活躍的地區,當中的離岸公司高達37675家。可以說,此次泄密如平地一聲驚雷震驚了各大 OFCs,特別是以信息私密性而著稱的 OFCs(比如 BVI、開曼群島、瑞士、 新加坡等),也把 BVI、開曼、庫克群島及其他 OFCs 推到了全球媒體的聚光燈下。為避免公眾產生“數據庫所涉及所有 人和公司都在避稅/逃稅”這樣的誤解,ICIJ 在其網站上專門公布了一個“Offshore Leaks Database FAQs” 的問答, 詳 細地闡述了其選擇披露的考量因素。ICIJ 表示,出于尊重隱私 的考慮,并不打算公布合法使用 OFCs 及境外工具的任何信息,特別是個人信息,只有涉及到公眾人物及已經證實與違法犯罪有牽連,才會公開相關信息。公眾【不可假定】數據庫中所有公司和個人都在避稅或逃稅,相反,大多數都在合法、合理地使用境外公司和境外信托。
另外,ICIJ僅公布基本的公司信息,公司的詳細信息和個人信息 不在公布范圍內,比如,會議記錄、稅務存檔、銀行賬戶記錄、財務交易記錄、電子郵件和其他通信往來、個人的護照信息、個人的電話信息等。