BigData——大數據,無疑是近年來互聯網上的熱詞。越來越多企業開始熱衷大數據,我們也享受著大數據帶來的便利。在網上沖浪時,我們總能看到切中自己興趣的產品推薦;打開一個網頁,網頁中的廣告是近期有購買計劃的產品;在網站上搜索,返回的搜索頁面有很多有價值的“相關推薦”……在我們根本未意識到時,智能設備便處于聯網之中,相關數據被悄然發送到第三方。
這一切的背后,是網絡服務商對用戶的上網行為進行深度分析的結果,這都離不開大數據的技術支持。然而,大數據帶來方便快捷的同時,其弱點也逐漸凸顯,那就是越來越為人所關注的隱私問題。通過數據挖掘,人類所表現出的數據整合與控制力量遠超以往。1995年,歐盟出臺的隱私法例將“個人資料 ” 定義為可以直接或間接識別一個人的信息。很顯然,當時立法者考慮的是那些帶有身份標識號的文件資料等。如今,“個人資料 ”這一定義所包含的內容已經遠遠超出當年那些立法官員的想象,甚至可以輕易地超過19年前他們通過這項法例時整個世界的數據量。這期間到底發生了什么?
首先,這個世界每年所創造的數據量在以指數形式增長,去年,這一數字則達到了2.8ZB,聽起來就很可怕的數字,而且據知名信息行業咨詢服務商IDC 稱,這一數字將在2015年翻一番。
其次,這些數據中的3/4是由個體人在創造或移動數字文件時貢獻的。舉例來說,一個標準的美國上班族每年可以貢獻180萬MB的數據量。盡管這其中的大部分數據都是不可見的,似乎也并不攜帶任何個人信息,但事實并非如此。現代數據科學已經發現幾乎任何類型的數據都能用來識別創造它的人,每一個現實中的人在信息世界總能被刻畫出來。毫無疑問,可以獲得的個人數據量越多,其中的信息量就越大。只要擁有了足夠多的數據,我們甚至可能發現有關于一個人的未來信息。去年,來自美國羅徹斯特大學的亞當·薩迪克和來自微軟實驗室的工程師約翰·克拉姆發現他們可以大致預測一個人未來可能到達的位置,最多可以預測到80周后,其準確度高達80%。
為此,他們收集了32000天里307個人和396輛車的GPS數據并建造了一個“大規模數據集”。兩人想象了一下這一研究成果的商業應用,他們說到時候會出現這樣的廣告:“需要理發嗎?4天后你就會在這家發廊周圍100米內,屆時它將會有優惠活動哦!”大數據帶來了很多便利,影響決策,也改變了生活。但大數據分析和應用,有時候往往偏離了其精神實質。人類不是機器,生活有時候并不需要十分精確,未知也是一種美好。