隨著基于大數據的自動化決策科技在個人對健康、教育、工作、信用、商品和服務的取得上,扮演著逐漸重要的角色,甚至是“生殺予奪”的權重時,我們就應該對大數據、自動化決策過程的影響高度重視起來。
大數據時代,
甲骨文和谷歌如何操控陪審團
5月9日,甲骨文訴谷歌侵犯專利案的主審法官Alsup對陪審團成員說,“你們需要調整社交賬號中的隱私設置”。
其實,法官是希望陪審團成員能將賬號設為“僅朋友可見”,這樣訴訟雙方的律師團隊就沒法在臉譜、領英、推特等社交平臺上找到他們,研究他們,進而用各種辦法影響甚至操控他們。
在美國,甲骨文訴谷歌案備受關注,涉及的賠償金額可能高達93億美元。在此對案情做簡單介紹:甲骨文公司于2010年控告谷歌開發的Android系統侵犯了Java專利,陪審團發現谷歌的確使用了至少37個Java的接口程序(API),但地方法院的法官認為接口程序并不受版權保護。2014年,上訴法院推翻了該判決,隨后最高法院拒絕受理谷歌的上訴,使得該案又重新回到地方法院的手上。現在,地方法院需要審理的焦點是,谷歌使用Java接口程序的做法是否屬于“合理使用”(fair use)。如果是,谷歌就可免于支付高額的賠償。
其實早在今年3月份的審前聽證會上,法官Alsup就建議甲骨文和谷歌的律師團隊同時承諾不對陪審團成員開展社交網絡研究。在Alsup看來,“如果通過搜索發現一名陪審員最喜歡的書是《殺死一只知更鳥》,律師很容易就能根據這本書的內容或風格,甚至利用這本書作者剛剛去世這個事實,類比地構造出一些論據或者提問的角度,來迎合這名陪審員……同樣的手法可以運用于陪審員對貿易、創新、政治的態度……用如此算計好的方式來討好陪審員無疑是一種出格的行為。更重要的是,法官不掌握陪審員個人偏好等信息,因此無法辨識出律師的伎倆。”
谷歌響應法官的提議,決定不用自己的技術研究陪審團,但由于甲骨文拒絕了法官的建議,自然谷歌也不用做出任何承諾。最后,Alsup法官只能要求兩家公司律師團隊對陪審員做的任何研究,都必須向他本人如實披露。同時,為了盡可能地避免陪審團被影響、操控,才有了文章開頭發生的那一幕。
大數據時代,你可能面臨的歧視
隨著移動互聯網的普及,社交生活網絡化的泛濫,我們每個人在享受信息技術帶來的便利時,每分每秒也在留下自己的數字足跡(digital footprint),包括現在或過去任何一個時點所在的位置、移動軌跡等等,平臺、應用等商品和服務提供者有能力搜集并分析利用,以了解我們的活動范圍、生活習慣、各種偏好,并最終描繪出我們每個人的“數字畫像”(digital profiling)。正如法官Alsup所擔心的,互聯網公司把基于大數據的精準定位和營銷,“創造性”地用到庭審訴訟雙方的辯論中,很可能會左右陪審團的判斷,控制庭審的結果。
事實上,描繪出個人的數字畫像進而“投其所好”,還是大數據一種“相對保守”的利用方式。畢竟在微信朋友圈中,是看到豪車還是飲料的廣告,頂多成為我們吹牛或自嘲的談資。但隨著基于大數據的自動化決策科技 (automated decision-making) 在個人對健康、教育、工作、信用、商品和服務的取得上,扮演著逐漸重要的角色,甚至是“生殺予奪”的權重時,我們就應該對大數據、自動化決策過程的影響高度重視起來。
例如,當大數據和算法判斷求職者為男性時,為其推送高薪主管職位消息的概率遠大于同等條件的女性求職者;利用大數據計算參與恐怖主義活動的概率,并采取各種不同程度限制出行或監控的措施;在缺乏直接信用記錄和數據的情況下,基于其他信息(如電話賬單、教育背景、社交網絡等)預估信用評分,最終導致特定群體的人無法申請小額貸款;信用卡發卡銀行降低某人信用額度的原因并非基于該持卡人的消費與還款記錄,而是基于該持卡人被歸為“同一類型”之消費者所共同擁有的記錄與特征等等。
2016年1月6日,美國聯邦交易委員會公布報告《大數據:吸納或排他的工具?》(Big Data: A Tool for Inclusion or Exclusion? Understanding the Issues)中還舉了這樣一個例子:
2012年,當桑迪颶風肆虐美國時,短短時間,推特上產生了超過2000萬條相關的消息,其中包含了大量關于颶風和受災人群的信息。為了做到救災資源的有效配置,美國當局決定對推特上的消息進行實時分析,以此判斷哪些地區、哪些人群最需要幫助。可是事后分析回顧發現,因為電力供應受到嚴重影響,導致重災區人群無法發出大量的網絡消息,所以恰恰是受災最重地區的推特消息最少。對推特消息的分析形成了不準確的數據視圖,無法正確指向受災最重的地區以及最需要幫助的人群。
被大數據歧視了怎么辦?
為避免大數據可能帶來的歧視或偏差,美國政府從2014年開始發布了多份報告,希望引起社會各界對此問題的重視。2014年5月1日,美國白宮發表報告《大數據:抓住機會、保存價值》(Big Data: Seizing Opportunities, Preserving Values)。報告建議:“聯邦政府主要的公民權利和消費者保護機構,包括司法部、聯邦貿易委員會、消費者金融保護局和公平就業機會委員會,應當主動研究有可能對特定階級帶來歧視性影響的大數據分析的做法和結果,并制定計劃調查和解決違反法律的此類事件。”
上文提到的美國聯邦交易委員會的報告建議,在進行分析之前,首先要確保數據具有代表性;企業必須謹防數據模型中隱藏的偏差,厘清統計關聯性和因果性之間的區別;企業需要詳盡審視相關模型所依賴的因子,把握好預測分析與公平性之間的平衡關系;在流程建設上,允許消費者能訪問自身數據并就錯誤或遺漏提出異議。
2016年5月4日,美國白宮發布報告《大數據:關于算法系統、機會、公民權利的報告》(Big Data: A Report on Algorithmic Systems, Opportunity, and Civil Rights)。報告提出通過算法和系統的設計來實現平等權利(a principle of “equal opportunity by design”),并建議研究機構和行業一起,開展算法審計和對大數據系統的外部測試以保證人們被公平對待。
歐洲在這方面走在了其他國家的前面。將于2018年5月25日正式生效的歐盟《一般數據保護條例》,在第22條明確規定了對于僅僅以自動化方式(包括數字畫像)做出的、對個人能夠產生法律效果的或其他類似的顯著影響的決定,個人有權免受這樣決定的制約。
在我國,大數據和自動化算法高歌猛進,與此同時,我們是不是也應該放慢下腳步,仔細想想如何將其可能的負面影響降到最低?