研究人員克里斯·維克里(Chris Vickery)發現,某配置錯誤的數據庫導致1.91億條投票記錄被泄露。然而,該數據庫似乎不存在所有者,它本來就是公開的,任何發現它的人都能得到這些數據。
數據庫里有什么?
維克里在 Databreaches.net 上分享了他的發現。雙方試圖通過數據庫的位置和細節找到其所有者,但并沒有效果,所以他們找到了 《CSO》 雜志專欄作家、自由程序員史蒂夫·拉根(Steve Ragan)尋求幫助。
拉根從數據庫本身入手,解決這個問題。與此同時,維克里給他發送了來自數據庫的條目,相關的投票記錄和個人信息都非常準確。維克里也在數據庫里找到了自己的投票記錄,史蒂夫問他作何感想。
維克里說:“我的第一反應是不敢相信。”
“我要查證一下,所以很快定位到了德克薩斯州的類目,然后搜索了自己的名字。我對結果感覺很憤怒。一個奇怪的、在互聯網上隨機找到的數據庫里居然堂而皇之地列著指向我的信息。擁有這1.91億萬條記錄的人怎么會如此粗心大意?”
數據庫中包含選民的全名、家庭地址、郵寄地址、選民身份號、州選民身份號、性別、出生日期、注冊日期、電話號碼、是否接受打來的選舉電話、政治關系、自2000年以來的詳細投票歷史。此外,數據庫的字段里還包含選民的預測分數。
大多數的選民信息都是公共記錄,而只有幾個州的法律對此有所限制。比如在俄亥俄州,選民信息是張貼在網絡上的。其它的州給找到選民信息增加了成本,但它們并不是無法獲取的。基本上而言,選民數據僅限非商業性使用。
不論如何,每個州對此類數據都還是有控制條款的。
需要指出的是,阿拉斯加、阿肯色、科羅拉多州對選民信息沒有任何限制。
在加州,選民信息只能被用于政治目的,不能被提供給非美國公民。南達科他州有一條和本文主題緊密相關的法律:
來自州選民注冊數據庫的選民注冊信息不能被用于或銷售于任何商業目的,禁止將其公開置于互聯網上。
維克里發現的數據庫內不包含個人社保賬號或者駕照好嗎,但這個數據集合已經夠大了。
同樣,大多數州和數據經紀人都要在給出選民數據之前確認對方不會將其用于商業目的,也不會用它們做任何違法州法律的事情。
由于維克里發現的數據庫可以被互聯網上的任何人訪問到,這些數據實際上已經被置于不受限制的境地。
拉根將自己的個人投票數據發給了幾位選舉領域的線人和專家。其中一位解釋了這個數據庫存在的原因和它在選舉期的作用。
Shallman Communications 公司的人口政治顧問馬克倫·齊爾伯(Maclen Zilber)稱:“這份文件里包括所有選民基本檔案中的信息:地址、出生日期、全部選舉記錄、一些基本的人口統計信息。競選團隊使用這些數據讓宣傳更有效率:確保宣傳對象最后真會去投票。這其中的大多數數據都屬于公開記錄,但條件是只能用于競選目的。”
“一些主要的投票數據公司會給每位選民打分:他們是否最后會出門投上一票、是否支持特定政黨,甚至一些更有利可圖的問題,比如他們對特定政治議題的態度如何。數據庫中出現這類預測評分表明,它屬于某家投票數據公司,而不是政府。”
誰是數據庫的所有者?
拉根的團隊聯系了幾家政治數據公司,以確定該數據庫的所有者。Databreaches.net 的負責人也做了同樣的事情。然而,這些努力都失敗了。
拉根團隊聯系到的公司如下:Catalist 、Political Data 、Aristotle 、 L2 Political 、NGP VAN 。 Databreaches.net 則聯系了 Nation Builder 公司,對方表示托管該數據庫的 IP 地址不屬于本公司,也并不屬于他們托管的客戶。
拉根團隊聯系的每家公司都否認數據庫屬于自家。比如 NGP VAN 公司,該公司使用的都是 Windows 數據庫,這讓其自然排除了嫌疑,因為泄露的數據庫基于 Linux 。
團隊之后聯系了另一家政治數據公司 i360 ,結果也不成功。此外,他們還就此事聯系了 DSPolitical 、 TargetSmart 、 Data Trust 公司。
目前,拉根團隊已經收到了 TargetSmart 、 Salted Hash 、 Data Trust 公司的回復,數據庫并不屬于他們,他們也并不使用該 IP 地址。如果收到 DSPolitical 公司的回復,團隊將在網上更新狀態。
數據庫的編譯方式?
上周,除了確定數據庫的所有者之外,拉根團隊也研究了其編譯方式。這樣,如果數據庫的所有者無法確定,公眾至少可以知道數據的來源,供應商也可以與客戶溝通,請他們注意這個問題。
事實上,這個問題研究起來有些復雜,因為發生了希拉里“數據門”事件。拉根團隊聯系到的很多人都認為兩起事件之間有一定的聯系。
然而,本故事和希拉里競選“數據門”事件無關。
NGP VAN 公司發生的“數據門”事件起源于軟件配置錯誤,它導致桑德斯的競選團隊能夠看到希拉里的選民評分。只有競選公司給選民的打分泄露出來,選民的個人信息并未遭到泄露。
事實上,桑德斯和希拉里的競選團隊共享的正是同一個 DNC 選民數據庫。其中一方上傳了信息,“數據門”故障導致另一方能夠看到這些數據。
維克里發現的這起事件更嚴重,因為數據庫泄露的并不只是評分,而是1.91億注冊選民的完整信息。問題在于,似乎沒人在乎這件事,也沒有人宣稱認領數據庫所有權。
許多州和縣選舉辦公室在給出選民數據時是收費的。有些時候,選民數據是免費的,但如果涉及到收費,總花費可能非常高昂。比如,2012年,在阿拉巴馬州拿到300萬份選民注冊記錄的費用高達2萬9千美金。這樣的開銷在競選預算里真的不算一筆小錢,因此競選管理者會轉向各種政治數據公司,以更低的成本購買數據。
競選團隊的其中一個選擇是 Nation Builder 公司。當維克里第一次發現該選民數據庫時,他和 Databreaches.net 的負責人認為 Nation Builder 公司可能是這些數據的來源。然而該公司否認了這一點。他們還表示,相關 IP 不屬于他們托管的客戶。
電子地圖和大數據
泄露的數據是否真的來自 Nation Builder 公司?考慮到數據庫的組織模式和文件格式,答案是肯定的。維克里給出的選民個人數據顯然來自 Nation Builder 公司的數據集合。
在美國,很少有廠商會存儲全國選民的檔案。對少數幾家會這樣做的公司而言,每個選民的文檔都包含一個簽名組件,和數字指紋類似,它是與負責管理的供應商相對應的。
要分辨選民數據的來源,可以比較其文件結構:供應商對各個區域的命名、各個區域的出現順序。另一個明顯的區別因素是選民身份號:它是供應商給每個美國選民分配的代碼。
每個供應商處理選民文件的方式都很獨特,它們給選民分配代碼的方式也有所不同。
在拉根的選民記錄中,選民身份號和區域的命名方式直接將泄露數據的來源指向了 Nation Builder 公司。如果將拉根的記錄和 Nation Builder 的其它文件結構比對,就會發現在nbec_precinct_code中存在明顯的相似情況。
這個代碼只屬于 Nation Builder 公司。它是 Nation Builder Election Center Precinct Code 的簡寫。拉根的這個代碼是 18097-Marion-Center ,它代表著俄亥俄州的馬里恩縣,城中心。
至于選民身份號,拉根的這個號碼由數字、字母和破折號組成:058a902b-4e1d-4989-8fdb-4976f48fbfb6。
在拉根聯系到的選舉公司中,很多公司都很快得出結論稱 Nation Builder 是數據的泄露源頭,其中一人表示,任何對 Nation Builder 公司有所了解的人都顯然能夠給出這樣的判斷。
National Builder 是始作俑者嗎?并非如此
盡管 National Builder 否認與 IP 地址及數據庫泄露事件有所聯系,但他們完全有可能知道誰開發了它們。不過,需要大量核對紀錄才能確認這一點。這是因為,希望訪問 National Builder Election Center 的開發者或者競選團隊需要注冊自己的聯系方式,比如姓名和電子郵件地址。
然而,Nation Builder 沒有識別其客戶的義務,一旦給出數據,他們不能控制接下來發生的事情。簡而言之,盡管該公司提供了這些泄露的數據,數據泄露事件卻并不是他們的責任。
需要說明的是,應該追究的是開發并錯誤配置了數據庫的人,而不是 Nation Builder 。目前該數據庫的開發者還不能確定。
此外,沒有方法能夠確定數據庫已經被放到網上多久。對很多美國公民而言,這可能是個很大的問題。
根據選民數量和其它證據可以大致判斷數據庫的更新日期應當是2014年二月至三月間,但除非聯系到該數據庫的擁有人,無法徹底確定這一時間。
數據遭到濫用的可能性值得關注。對那些不經常分享個人信息的人而言,數據曝光顯然是個問題。
還有其它長期問題。數據庫里的政治關系、出生日期等個人數據可以被用于進行針對性的網絡釣魚。
大多數人了解由財務紀錄驅動的釣魚攻擊,或者那些針對零售行業和物流行業的攻擊。然而基于政治的釣魚攻擊成功率可能會更高,特別是在2016大選期間。
維克里和 Databreaches.net 負責人已經和聯邦執法機構聯絡,請求其幫忙找到數據庫的擁有者,或者將數據從公眾視野中刪除。此外,他們還聯絡了加利福尼亞州檢查長。
截止至發文時,該數據庫仍舊處于活躍狀態。