在曝光了超過65萬名顧客的個人信息之后,連鎖酒吧Wetherspoon決定刪除它所存儲的幾乎所有客戶的信息,以降低風險。畢竟,你所沒有的數據是不需要進行合規性檢查的,也不需要在GDPR主題訪問請求中進行披露或者是在數據泄露后進行道歉。
事實上,數據的毒性是如此之大,以至于加州律師協會互聯網與隱私法委員會主席Joshua de Larios-Heiman建議將其視為鈾而非石油。“廢鈾棒該怎么處理?”當它們變成了有毒資產的時候,要想擺脫它們真的很難。如果你處理不當,人們就會起訴你,”他說。
如果你已經開始考慮這方面的風險,你需要知道你的組織存儲了哪些數據,以及如果沒有這些數據,你的情況是否會更好?
不要收集你不需要的數據
有很多人為生產的數據,你可能無法從中獲得任何價值,而保留這些數據還會增加你的風險。微軟Azure和企業安全副總裁Julia White表示:“如果人們還沒有發現他們不想要的東西,并且出于GDPR的原因而清除這些東西,我會感到震驚。”
ACLU高級技術研究員Jon Callas表示,不要被存儲成本的下降所迷惑而認為保存數據是廉價的。
“保存數據的成本比你想象的要高,收益也更低。雖然它可能是有用的,并有助于分析。但它也很有可能是有害的--比如會因違約而導致損失慘重,或者在訴訟中被傳喚,”他表示。“隨著時間的推移,它有用的幾率會下降,但危害值卻保持不變。如果你丟失了某人五年前居住的地址,歐盟不會在意你保存的是否是你不想要的不準確數據,它也不會對你的生意有幫助;但丟失它的危害卻依然不變。在某一點上,這些線將會交叉。而你應該在數據交叉之前把它們扔掉。”
Callas指出,傳票或主題訪問請求的成本遠遠高于存儲媒體的成本。“某些事情發生的可能性,以及因為你擁有一些數據而導致你被拖入其他事情的可能性,都高于這些數據的價值。”當你說,‘我只會保存我知道有理由保存的數據’時,你必須采取的程序也會把你置于一個截然不同的境地。”
高風險的數據
Veritas的高級主管Jasmit Sagoo告訴記者,數據中心中所存儲的大約三分之一的數據可能是冗余的、過時的或瑣碎的。
“這些數據幾乎沒有商業價值,應該主動刪除,尤其是考慮到數據的暴露程度和風險水平時,”他說。“例如,前雇員和前客戶的數據風險是很高的。它可能包含個人身份信息,因此只有出于法律原因時才值得保存這些數據。財務記錄尤其容易受到黑客攻擊,這是需要謹慎管理的敏感數據的另一個例子。”
如何找到那些不需要且應該刪除的數據?“作為一個起點,企業需要能夠識別數據中的特定細節,準確定位風險區域及其潛在價值,”Sagoo說。“了解存儲的內容,訪問者以及訪問頻率也很重要。只有這樣才能了解存在哪些數據,并開始根據定制的數據保留策略對其進行分類。對這些文件的刪除應該至少每季度執行一次。”
ISG的首席分析師Blair Hanley Frank表示,有些數據你永遠不應該儲存起來并用于分析。“任何在2019年仍然以純文本形式存儲用戶密碼的機構都是在自找麻煩。”
刪除與不再使用的生產系統相關的數據。例如,Weatherspoon泄露的用戶數據便是來自一個老網站,因此它就不應該繼續存在。Adobe的密碼數據泄露也是來自一個較老的非生產系統。Frank指出:“企業不能僅僅因為它們是遺留IT基礎設施的一部分,就忽視過時或很少使用的系統。”
你需要特別注意跟蹤已提取的客戶數據庫副本(通常為XLS或CSV文件),尤其是將其交付給開發人員作為示例數據使用的時候。
你應該在這些地方使用屏蔽數據。通過屏蔽數據,你可以保留數據的相關統計分布,以便在沒有暴露風險的情況下用于測試。
Delphix的董事Benjamin Ross指出:“盡管非生產開發和測試環境是至關重要的,但它們也極大地增加了風險程度,而且往往是GDPR合規性的軟肋。”
不要標識信息;及時刪除
只應該出于當前的業務原因而保存數據,而不是模糊地希望機器學習系統能從中發現一些有用的東西。Callas指出,就連人工智能初創企業的投資者Andreessen Horowitz也對收集大量數據的價值提出了質疑。“有一種神秘的信念認為,擁有這種‘數據護城河’將具有可持續的競爭優勢,而實際上作為投資者,他們早就已經從歷史的長河中認識到,這不是真的,”Callas說。“你可能認為這件事會讓你的企業變得更好,但事實并非如此。”
微軟研究院的高級研究員Mary L. Gray表示,當你在考慮將其用于訓練機器學習模型的數據集中時,尤其不能用蘋果來識別個人信息(PII)。“現在我們有了GDPR,對于PII公司可以收集什么,允許誰可以訪問它有非常嚴格的限制,必須有審計來說明PII將在哪里、何時以及如何被重新調整用途并出售給收集它的公司之外的某個實體,以及公司可以保存多久,“她說。
并且“去標識”數據也并不能保證安全,因為只要有了足夠多的數據,你會發現你仍然可以識別出個人--即使你不想這么做。她警告說:“認為‘去標識’收集的數據都是無法識別的,這是無稽之談。
以數據為中心的科技行業還沒有想出如何放棄數據,更不用說確定哪些數據是可以完全停止收集的了。”該行業最終同意了使用散列PII:相當于在它上面運行了一個黑色標記,”她表示。“但他們依然可以收集我們所做的一切。如果你可以預測自己在做什么和在哪里做什么,那么你仍然是在創造一個數字足跡,這與你在圖片中使用PII時的樣子沒有太大不同。”
盡管刪除明顯的標識(如姓名和出生日期)很簡單,但“未標識”的數據仍然可以包含PII,比如用戶會將全名添加到未標記名稱的字段,諸如此類的情況,她補充說。
“這就是為什么數據泄露很難被堵住的原因,”Gray解釋說。“你可以獲取一組電子郵件地址、一組地理位置元數據以及一組搜索查詢的數據集,并對這些數據進行組合,以便在搜索字符串上生成名稱,生日和重新識別人員的位置并與特定電子郵件地址相關聯。”
Frank警告說,這些潛在的有害數據甚至可能減慢你的數據策略。“擁有一大堆本質上無用的信息,會增加人們花在構建和測試模型上的時間,從而使分析有用數據變得更加困難。要解決這個問題,企業應該積極判斷這些信息所帶來的價值,并測試這些數據是否真的具有預測價值,”他表示。
微軟云計算和人工智能集團執行副總裁Scott Guthrie建議,盡量減少你存儲的數據,并盡可能多地使用匿名。“如果你在網絡搜索中使用了遙測技術,那么你是否存儲了進行網絡搜索的人的確切住所?”或者你是否在街道或其他單位上對它進行了匿名化,是否無論你的數據是否被泄露,你都不會侵犯隱私?”
如果你沒有數據,沒有人可以不恰當地使用它。
“不要問,‘我為什么要扔掉這些數據?而要問:‘我為什么要留著它?’”Callas說。“除非你知道自己為什么想要保存數據,否則你應該扔掉它,因為我們生活在一個需要收集更多數據的世界里--數據越新鮮則越便宜。”它可能是你在網站上的一個選擇,一個填寫調查問卷的獎勵,或者一個測試版軟件程序的遙測。(你應該立即刪除任何你不能證明你確實需要的數據。)
扔掉PII也可以得到統計數據,“不管怎樣,這就是你想要的,”他指出。
“如果一個交通機構正在運行的一項調查,因為他們想要知道人們在做什么,為你真正想要的準確數據付費是有意義的,但你需要通過一些數據研磨機把原始數據處理掉,然后在一年內處理掉這些磨碎的數據,”Callas說。“如果你只是想弄清楚要修復哪條道路,你就不需要關于那條路的數據--或者特別是--如果數據顯示你應該修別的路的話。而關于你剛剛修復的道路的每一項數據都是有害的:沒有好處,只有壞處。”
對數據的保存時間要有一個明確的策略,比如日志文件的保存時間不要超過一周(調試時除外)。callas建議建立一些“強制功能”,以確保做出這些決定。“如果我說,‘如果你不告訴我為什么要保存它,十年后我就會刪除你放在我數據倉庫里的所有東西。’那么我就會讓你思考為什么要把東西放進數據倉庫了。”