“有了足夠的數據,數字就可以自己說話。”沒門兒。
大數據的鼓吹者希望人們相信,在一行行的代碼和龐大數據庫的背后存在著有關人類行為模式的客觀、普遍的洞察,不管是消費者的支出規律、犯罪或恐怖主義行動、健康習慣,還是雇員的生產效率。但是許多大數據的傳道者不愿正視其不足。數字無法自己說話,而數據集——不管它們具有什么樣的規模——仍然是人類設計的產物。
大數據的工具——例如ApacheHadoop軟件框架——并不能使人們擺脫曲解、隔閡和錯誤的成見。當大數據試圖反映人們所生活的社會化世界時,這些因素變得尤其重要,而人們卻常常會傻乎乎地認為這些結果總是要比人為的意見來得客觀些。偏見和盲區存在于大數據中,就像它們存在于個人的感覺和經驗中一樣。不過存在一種值得懷疑的信條,即認為數據總是越大越好,而相關性也等同于因果關系。
例如,社交媒體是大數據分析的一個普遍的信息源,那里無疑有許多信息可以挖掘。人們被告知,推特網的數據顯示人們在離家越遠的時候越快樂,而且在周四晚上最為沮喪。但是存在許多理由對這些數據的含義提出質疑。
首先,人們從皮尤研究中心獲悉,美國上網的成年人中只有16%使用推特網,因而他們絕對不是一個具有代表性的樣本——與整體人口相比,他們中年輕人和城市人的比例偏多。
此外,人們知道許多推特賬號是被稱作“機器人”程序的自動程序、虛假賬號或是“半機器人”系統(即得到機器人程序輔助的人為控制賬號)。最近的估計顯示,可能存在多達2000萬個虛假賬號。因此就算人們想要踏入有關如何評估推特網用戶情緒的方法論雷場之前,請先問一下這些情緒究竟是來自真人,還是來自自動化算法系統。
“大數據將使我們的城市變得更加智能和高效。”在一定程度上是的。
大數據可以提供幫助改善城市的寶貴見識,但是它對人們的幫助僅此而已。因為數據在生成或采集的過程并不都是平等的,大數據集存在“信號問題”——即某些民眾和社區被忽略或未得到充分代表,這被稱為數據黑暗地帶或陰影區域。因此大數據在城市規劃中的應用在很大程度上取決于市政官員對數據及其局限性的了解。
例如,波士頓的StreetBump應用程序是一個比較聰明的以低成本收集信息的途徑。該程序從開車經過路面坑洼處的駕駛員的智能手機上收集數據。更多類似的應用正在出現。但是如果城市開始依靠僅來自智能手機用戶的信息,那么這些市民只是一個自我選擇樣本——它必然導致擁有較少智能手機用戶的社區的數據缺失,這樣的社區人群通常包括了年老和不那么富有的市民。
盡管波士頓的新城市機械辦公室作出了多項努力來彌補這些潛在的數據缺陷,但不那么負責的公共官員可能會遺漏這些補救措施,最終會得到不均衡的數據,從而進一步加劇已有的社會不公。人們只要回顧一下曾經過高估計了年度流感發病率的2012年“谷歌流感趨勢”,就可以認識到依賴有缺陷的大數據可能給公共服務及公共政策造成的影響。
在網上公開政府部門數據的“開放政府”計劃——如Data.gov網站及“白宮開放政府計劃”——也存在同樣的情況。更多的數據未必會改善政府的任何功能,包括透明度和問責,除非存在可以使公眾和公共機構保持接觸的機制,更不用說促進政府解釋數據并以足夠的資源作出反應的能力。所有這些都非易事。事實上,人們身邊還沒有很多技能高超的數據科學家。各大學目前正在爭相定義這一行當、制訂教程和滿足市場需求。
“大數據對不同的社會群體不會厚此薄彼。”幾乎不是這樣。
對大數據所號稱的客觀性的另一個期待是對于少數群體的歧視將會減少,因為原始數據總是不含社會偏見的,這使得分析可以在大規模的水平上進行,從而避免基于群體的歧視。然而,由于大數據能夠作出有關群體不同行為方式的論斷,它們的使用通常恰恰就是為了實現這個目的——即把不同的個體歸入不同的群體中。例如,最近有一篇論文指科學家聽任自己的種族偏見影響有關基因組的大數據研究。
大數據有可能被用來搞價格歧視,從而引發嚴重的民權擔憂。這種做法在歷史上曾被稱為“劃紅線”。最近,劍橋大學對臉譜網5.8萬個“喜歡”標注進行的大數據研究被用來預測用戶極其敏感的個人信息,如性取向、種族、宗教和政治觀點、性格特征、智力水平、快樂與否、成癮藥物使用、父母婚姻狀況、年齡及性別等。
記者湯姆 福爾姆斯基這樣評價該項研究:“此類容易獲得的高度敏感信息可能會被雇主、房東、政府部門、教育機構及私營組織用來對個人實施歧視和懲罰。而人們沒有任何抗爭的手段。”
最后考慮一下在執法方面的影響。從華盛頓到特拉華州的紐卡斯爾縣,警方正在求助于大數據的“預測性警事”模型,希望能夠為懸案的偵破提供線索,甚至可以幫助預防未來的犯罪。
不過,讓警方把工作專注于大數據所發現的特定“熱點”,存在著強化警方對聲譽不佳的社會群體的懷疑以及使差別化執法成為制度的危險。正如某位警察局長撰文指出的,盡管預測性警事算法系統不考慮種族和性別等因素,但是如果沒有對差別化影響的考慮,使用這種系統的實際結果可能“會導致警方與社區關系惡化,讓公眾產生司法程序缺失的感覺,引發種族歧視指控,并使警方的合法性受到威脅。”
“大數據是匿名的,因此它不會侵犯我們的隱私。”大錯特錯。
盡管許多大數據的提供者盡力消除以人類為對象的數據集中的個體身份,但身份重新被確認的風險仍然很大。蜂窩電話數據看起來也許相當匿名,但是最近對歐洲150萬手機用戶的數據集進行的研究表明,只需要4項參照因素就足以挨個確認其中95%的人員的身份。研究人員指出,人們在城市中走過的路徑存在唯一性,而鑒于利用大量公共數據集可以推斷很多信息,這使個人隱私成為“日益嚴重的擔憂”。
但是大數據的隱私問題遠遠超出了常規的身份確認風險的范疇。目前被出售給分析公司的醫療數據有可能被用來追查到個人的身份。關于個性化醫療有很多談論,人們的希望是將來可以針對個人研制藥物和其他療法,就好像這些藥物和療法是利用患者自己的DNA制作出來的。
就提高醫學的功效而言,這是個美妙的前景,但這本質上依賴于分子和基因水平上的個人身份確認,這種信息一旦被不當使用或泄露就會帶來很大的風險。盡管像RunKeeper和Nike+等個人健康數據收集應用得到了迅速發展,但在實踐中用大數據改善醫療服務仍然還只是一種愿望,而不是現實。
高度個人化的大數據集將成為黑客或泄露者覬覦的主要目標。維基揭密網一直處在近年幾起最嚴重的大數據泄密事件的中心。正如從英國離岸金融業大規模數據泄露事件中看到的,與其他所有人一樣,世界上最富有的1%人口的個人信息也極易遭到公開。
“大數據是科學的未來。”部分正確,但它還需要一些成長。
大數據為科學提供了新的途徑。人們只需看一下希格斯玻色子的發現,它是歷史上最大規模網格計算項目的產物。在該項目中,歐洲核子研究中心利用Hadoop分布式文件系統對所有數據進行管理。但是除非人們認識到并著手解決大數據在反映人類生活方面的某些內在不足,否則可能會依據錯誤的成見作出重大的公共政策和商業決定。
為了解決這個問題,數據科學家正在開始與社會科學家協作。隨著時間的推移,這將意味著找到把大數據策略和小數據研究相結合的新途徑。這將遠遠超越廣告業或市場營銷業采用的做法,如中心小組或A/B測試(即向用戶展示兩個版本的設計或結果,以確定哪一個版本的效果更好)。確切地說,新的混合式方法將會詢問人們做某些事情的原因,而不只是統計某件事情發生的頻率。這意味著在信息檢索和機器學習之外,還將利用社會學分析和關于人種學的深刻認識。
技術企業很早就意識到社會科學家可以幫助它們更加深刻地認識人們與其產品發生關系的方式和原因,如施樂公司研究中心就曾聘請了具有開拓精神的人類學家露西 薩奇曼。下一階段將是進一步豐富計算機科學家、統計學家及眾多門類的社會科學家之間的協作——不僅是為了檢驗各自的研究成果,而且還要以更加嚴格的態度提出截然不同的各類問題。
考慮到每天有大量關于人們的信息——包括臉譜網點擊情況、全球定位系統(GPS)數據、醫療處方和Netflix預訂隊列——被收集起來,人們遲早要決定把這樣的信息托付給什么人,以及用它們來實現什么樣的目的。人們無法回避這樣的事實,即數據絕不是中立的,它很難保持匿名。但是人們可以利用跨越不同領域的專業知識,從而更好地辨別偏見、缺陷和成見,正視隱私和公正將面臨的新挑戰。