導語
近年來,大數據研究方法逐漸應用于社會學科領域,運用大規模用戶數據,社科領域研究者得以從新的視角理解用戶媒介使用習慣、語言、與情感。然而,在大數據研究不斷普及的背景下,如何規范大數據研究的倫理準則,如何保證研究對象的隱私權,以及如何研究現有互聯網公司的倫理問題,這些問題看似遙遠,但是卻直接影響大數據研究者的行為準則。此外,回答與大數據研究、實踐相關的倫理問題,將有助于增加普通公眾對大數據的了解。本期【大數據與社會】欄目將以案例討論的形式梳理在大數據研究和實踐中所涌現出的若干問題,解釋大數據研究的潘多拉魔盒是如何被打開的,而它又將如何改變我們的生活。
作為大數據資源的管理者,社交網站擁有豐富的用戶數據資源。傳統意義上,網站運營者的主要角色在于提供社交平臺、優化服務與產品、吸引更多用戶加入。然而,在近年來出現的部分用戶行為研究中,社交網站的研究人員通過大規模用戶實驗研究用戶行為習慣超越了其傳統單純的網絡運行者角色。一方面,該類研究為社會學科補充了大規模實驗的實證結果;然而另一方面,用戶行為實驗,尤其是涉及操控用戶社交媒體內容的實驗,也觸碰到了社交網絡使用者的權利。其中,Facebook的一項關于情緒感染(emotional contagion)的實驗更是引發了社會科學內部對于大數據研究倫理的廣泛討論。
在《美國國家科學院》2014年6月17日院刊中,Facebook首席數據科學家亞當·卡拉默(Adam Kramer),康奈爾大學交流與信息科學學院教授賈米·古伊洛瑞(Jamie Guillory)和杰弗瑞·漢考克(Jeffrey Hancock)通過修改689,003名Facebook用戶可以接觸到的好友新鮮事的情緒帖研究情緒在社交媒體上的傳播與擴散方式。
在為期一周的實驗中(2012年1月11日-2012年1月18日),研究人員通過用戶ID隨機選取689,003名Facebook英語版用戶,并將其分為兩組。一組減少刷新好友新鮮事時顯示的正面情緒帖占比,另一組則減少刷新時顯示的負面情緒貼占比。
研究人員發現當好友正能量新鮮事被有意減少后,用戶在發帖時會使用更多比例負面詞匯和更少比例正面詞匯。當減少負能量新鮮事時,則出現相反的表達方式。與此同時,研究者還發現一種退出效果(withdrawal effect):越少接觸情緒性狀態的人,在接下來的日子里也會減少感情流露。這項發現與此前認為“閱讀朋友Facebook上正面情緒狀態會帶來負面影響”的觀點相左,基于此發現,研究人員認為負面影響的產生原因是接觸正面情緒不足所導致的。
該研究證實:情緒可以通過情緒傳染(emotional contagion)的形式傳遞給他人,使他人在無意識中感受到同樣的情緒。此外,大規模社交網絡的情緒傳染還證實面對面的交流和非言語上的暗示并非情緒傳染的必要條件,即情緒傳染可以通過社交媒體,如Facebook,經由線上社會網絡進行。
然而,由于該實驗過程涉及操縱用戶的好友消息推送(譯者注:通過推送包含積極或消極情緒的好友消息,Facebook用戶被動接受了研究者處理過的信息),Facebook的實驗也引發了學術界和社會對其法律和道德層面的激烈探討。最為廣泛的批評在于:被動接受負面信息的用戶很有可能收到了負面情緒的不良影響,在其不知情的情況下體會到了情緒感染導致的焦慮(anxiety)。
鑒于論文發表后強大輿論批判, Facebook的數據實驗團隊強調,所有的數據分析全部基于計算機算法,他們沒有閱讀或篡改用戶發布的內容,只是調整了新鮮事的排列順序。好友的其他新鮮事和狀態,在進入其個人主頁后仍能看到。實驗的目的旨為提升用戶體驗,以使用戶在facebook上看到的內容更具相關性。
然而,該研究的爭議性依然持續發酵,該研究的第一作者亞當·卡拉默(Adam Kramer)最終不得不在其博客中公開向Facebook用戶道歉,并保證今后將不會在用戶不知情的情況下進行類似實驗。
對Facebook實驗倫理的討論不僅限于該個案本身,牛津大學互聯網研究所教授拉爾夫·施羅德(Ralph Schroeder)撰文質疑Facebook實驗背后更廣泛的大數據研究倫理問題,并延伸討論了我們應當如何應對大數據研究對公眾的影響。
施羅德教授援引赫胥黎在《美麗新世界》一書中展現的在信息繁盛的文明中日漸被動、麻木的社會。借此警示:社會研究所使用的大數據,因其對數據學習前所未有的深度和廣度,對我們的生活越來越有影響力。這一特質很容易會被掌握了大數據影響力的企業或機構利用,借此操縱人的好惡。
施耐德教授認為,當下熱議的大數據道德問題的關鍵在于數據多大程度上屬于用戶私人數據(an essential infrastructure for citizens),假如實驗者所操縱的是用戶的私人數據而非公共數據,那么類似研究將不可避免地侵犯用戶利益。
關于大數據研究,施耐德教授還提出了兩種不同導向:第一種研究為學術導向(Academic Research),另一種則是應用導向(AppliedResearch)。兩種研究都利用大數據增加對人類社會的理解,區別卻在于前者意圖創造可推廣的知識(generalizableknowledge);后者則致力于向特定受眾(particular audience)提供可應用的知識(implementing knowledge),從而影響用戶決策行為。兩種不同導向雖然有重合之處,但是對于我們理解研究倫理卻又不同的指導意義。
按照施耐德教授的定義,Facebook研究可以歸類于致力于提供可推廣知識的學術導向研究,盡管涉及研究倫理及侵犯用戶隱私等問題,該研究為行為科學研究提供了一定實證支持。然而,對于大數據的使用和操控的另一種導向:應用導向通常更加隱蔽,但同樣威脅用戶權利,甚至可能操控用戶商業、政治等決策行為。
Google搜索與印度大選:搜索引擎可能操控我們的決策
羅伯特·愛潑斯坦(Robert Epstein)是美國行為研究和技術研究所(AmericanInstitute for Behavioral Research and Technology)高級心理學研究員及科學美國人心靈雜志(Scientific American Mind)的特約編輯。他也是馬薩諸塞州的劍橋行為學研究中心的創始人和名譽主任。他的團隊抽取了2014年印度人民議會選舉最后投票前4556位中間選民,樣本來自美國和印度具有有效投票資格的印度選民。
該實驗使用了模擬搜索引擎,隨機將被試分為不同組,每一組所接受的搜索引擎結果經過研究者設計為偏向于某個特定競選人。在實驗前后,研究被試均被問及其投票偏好(voting preferences)。通過該實驗,研究人員希望發現:有傾向的搜索結果是否可以改變選民意見和偏好?如果有,將在多大程度上改變中間選民的偏好?
研究發現:1)有偏倚的搜索排名可以改變20%或更多的中間選民的投票取向;2)這種轉變在某些特定人口群體中比例更高達60%;3)搜索排名的偏好可以很隱蔽,以至于人們無法意識到自己被操縱。
愛潑斯坦團隊將這種現象歸因于搜索引擎的操縱效應(SEME,譯者注:Search Engine Manipulation Effect)。在現實選舉中,很多選舉都由于競選團隊實力不相上下,最終多數黨以小幅優勢取勝,因此,該研究的意義在于證實了:單憑對搜索結果排名的操控,一家搜索引擎公司便有實力影響選民決策、操縱競選結果。
雖然該研究使用的是模擬搜索引擎,但是研究者希望借由該模擬結果引起公眾對索索引擎操縱效應的警惕:由于當下對搜索引擎公司監管并不完善,研究者認為這些公司有可能影響,甚至已經開始影響政治選舉的結果。借由操縱搜索排名偏好該公司所青睞的候選人,從而操縱猶豫不決的選民是一個極其微妙但是卻行之有效的政治操縱方式。更為令人警惕的是該種操縱對于民主制度將有可能造成威脅。
有趣的是,在愛潑斯坦團隊研究的過程中,谷歌并非不知情,甚至有可能派出員工參與該研究的實驗中。據愛潑斯坦在接受媒體采訪時介紹,當研究團隊在第二個實驗中從互聯網招募志愿者時,兩個IP地址都來自谷歌的總部。
學術界對于搜索引擎可能的操縱行為早有預警,作為互聯網信息的接口,學術界對于搜索引擎未來是否會淪為政治派系斗爭的工具有著諸多顧慮。
Introna和Nissenbaum撰文指出互聯網具有科技和政治的二重性。一方面,互聯網是科技發展的產物;另一方面,互聯網作為新興媒體,同傳統媒體一樣可能會遭受政治派系的影響和操控。
在搜索引擎的案例中,政治偏見的產生可能體現于搜索引擎和被搜索信息的關系里:即網頁是否能夠收錄于搜索引擎結果中,又能夠被給予怎樣的排名。這兩個過程中算法的不公開性都會為政治偏見的產生提供溫床。從微觀層面講,大多數搜索者并不了解搜索引擎的收錄和排名機制。信息的不對稱使得搜索者無法做出理性的決策,他(她)們只會根據偏好或者隨機進行選擇。
Introna和Nissenbaum強調,搜索引擎的算法不公開和商業導向會導致其違背互聯網成立之初所確立的基本原則和最初理想。網頁搜索算法的重要地位使得它不應該單由市場所控制。搜索引擎是市場的市場,當人們在搜索一個特定市場時,實際上是處于信息市場當中。而搜索引擎會在信息市場中傾向于選擇突出更受歡迎和金錢能力更強的網站。如果單單由市場所控制,隨著互聯網變得更普遍,這種偏見問題就會更尖銳。因此,兩位研究者提倡在搜索引擎的市場機制以外引入其他制約機制,規范搜索引擎的運行。
結語
在學術研究領域,大數據所帶來的勇敢新世界不斷擴展著社會研究的邊界,為研究者提供全新的視角,更大規模的樣本,增加我們對人類社會結構與人類情感行為的理解。于此同時在實踐與應用領域,大數據也對商業公司提供了更多的機遇,尤其是大規模的用戶數據資料為企業提供了細分用戶市場、剖析用戶行為偏好的資源。然而,正如傳統社會研究與社會應用,大數據研究與實踐同樣應當受倫理與法律的雙重制約。當大數據的弄潮兒打開大數據的潘多拉魔盒,看到一個“勇敢新世界”(brave newworld)的同時,更應該意識到與之并存的危機。大數據不僅僅是生硬死板的數字,其背后是用戶的日常生活,社會交往,甚至是情感表達。定義哪些數據是用戶的私人數據,界定商業公司實踐操作的邊界和尺度。這些必須,也必將會成為大數據研究的重點課題之一。