最近,在哈佛大學舉行的一次會議上,學者和業內人士討論了大數據在不久的將來要面臨的倫理挑戰。
在哈佛大學舉辦的Societal Impact through Computing Research 研討會上,一位與會者分享了自己與一位六個月前,剛搬到哈特福德,康涅狄格州的保險公司的IT領導人之間的一次會面。這位IT領導人“完全依賴于他的導航 系統,”這位與會者說,只有使用GPS設備才能在城市里找到方向。沒有它,他甚至不知道哪里是北。
你很容易認為,導航技術的好處超越了這位保險公司高管對于城市路線的知識缺乏。但我明白這個人想要表達的觀點:大數據——使GPS設備可以提供實時方向, 正在改變我們理解世界的方式。當一個GPS設備告訴我們向右轉時,我們就向右轉。并且,因為我們非常愿意將新技術融入到生活,我們也冒著風險——有時我們 的方式真的錯了,倫理上也錯了。
這是圓桌討論會上提出的觀點之一。(參與的10位學者和/或行業專業人士都要求匿名,以確保開放和坦誠的對話。)這一對話讓我深思大數據倫理,和CIO的 職責。在應對大數據項目時,IT的領導人經常被要求考慮業務問題而不是技術解決方案。但是一旦業務目標得以確定并實現,這一大數據項目將會對社會帶來什么 影響?
語義錯誤
擁有更多數據的優勢是顯而易見的,但當社會變得如此依賴數據,在不加深思和考慮后果的情況下,信任數據并以此作為行動的依據,又會帶來什么后果?
我在自己關于大數據分析的報告中發現,錯誤分析結果也會讓研究人員相信,例如,認為失業率在下降,因為他們的社交媒體軟件分析程序誤將Steve Jobs 名字中的 “Jobs”當作為 “工作”的意思。
這一錯誤解讀導致了錯誤的結果,但是有大量的大數據分析入侵私人生活的案例。比如,Target公司的懷孕預測(teenage pregnancy)事件,還有最近在Gartner Catalyst會議上聽到的,一家大型金融機構的客戶流失預測。這一銀行發現了一種客戶準備離開的規律,但未能意識到這些他們想要挽留的許多客戶,其實 是想在申請離婚前,進行財產轉移的配偶。
在這些例子中,都是語義錯誤造成的。 (我們能稱之為一個數據質量的問題嗎?) 與會者之一,一位計算機科學的博士生說:“我曾經是一名數據科學家,我的同事們都很聰明,但他們提出的解決方案,完全沒有實際意義。”一些大數據項目在真 空中進行,完全無法和現實世界相關聯。
當數據導致歧視
當涉及到大數據的倫理問題時,語義錯誤只是冰山一角。更大的擔憂是這種對于數據的盲目信仰會導致,取消分析審查或缺乏批判性思維。例如,當方案合適,但有潛在的倫理問題時,企業要如何選擇?當大數據幫助企業維持成規或歧視性政策而不是消除它們時,又會發生什么?
這聽起來也許有點匪夷所思,但是實際情況已經證明了大數據會加強歧視。來自卡內基梅隆大學的研究人員最近發表了一篇有關谷歌公司的在線廣告系統將更多的高 薪工作廣告發送給男性,而不是女性的文章。為什么這么做?谷歌公司在向新聞媒體,如《紐約時報》和《華盛頓郵報》提供的一份聲明中說:“廣告客戶可以選擇 他們的目標客戶,而我們有相關政策說明這類基于利益的廣告是允許的。”
數據和分析已經成為創新的溫床。這可能意味著,正如一位與會者指出的,對于企業而言,更容易在事后獲得諒解,而不是事先獲得許可。 “即使你想獲得許可,法律體系也沒有相應的流程。法律體系還沒有趕上技術,”這位與會者,是哈佛大學伯克曼互聯網與社會中心的律師。
即使這樣的流程存在,數據科學家也不是律師,反之亦然。也許,正如那位博士生所說的那樣,也許是時候結束數據分析的討論,開始討論大數據的倫理問題和法律后果。“數據分析最終將不可避免地必須在法律領域或政治舞臺上做出評判,”他說。
大數據倫理不僅是學術
如果你認為大數據倫理純粹僅是學術討論,事實并非如此。這一話題在最近在紐約舉行的Strata + Hadoop World 大會上也被提及。
DJ Patil,美國科學和技術政策辦公室的首席數據科學家,站在臺上,發出號召。“我的請求是,每個培訓、每個課程、每一個大型開放式網絡課程、每個大學課 堂、每個專業學位、每個公司的項目都有內在的數據倫理課程,—不是附加的,是內含的—培訓每個數據科學家,每個計算機科學家,每個數據工程師,每個數據運 算的人,”他說。“我們必須明確這個項目應該是怎樣的。”
隨后,Patil開展了一場眾人參加的、兩部分的有關數據倫理的對話,與會者來自銀行,醫療和零售行業。
當一位與會者問Patil應該如何做,他說:“正確的方式:我們聚在一起,承擔職責,作為團體,對問題進行定義。錯誤的方式:一群不在這一領域工作的人聚在一起,寫下定義,然后說, ‘這是你的新倫理標準。倒霉的家伙。’”