精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

警惕大數據中的“陷阱”

責任編輯:editor007

作者:大數據文摘

2016-01-18 21:11:06

摘自:百度百家

一部分研究者因為其“嵌入式”的研究身份,建立了與社交網站平臺密切的合作關系,從而獲得了一般研究者無從獲得的數據、算法、資源

導語:關于社會大數據的研究近年來不斷擴大、繁榮,發展為集社會學、計算機學、物理學、心理學等多個學科于一身的交叉學科。與此同時,新的數據獲得渠道、數據處理方法和工具也不斷被研究者們引入社會研究領域。然而,正是因為該領域的快速興起,社會大數據的研究方法往往未能得到足夠的重視和討論。未成形的方法規范、模糊的樣本收集范圍及邊界等諸多問題導致類似研究難以復制,更難以像傳統社會學研究方法一樣可以通過實證研究結果的梳理總結得出系統的理論。本期【大數據與社會】將梳理總結關于大數據研究“陷阱”的文章,介紹大數據研究實踐中所勘測到的“雷區”。

1948年11 月3 日,哈里 杜魯門贏得美國總統選舉的第二天, 芝加哥論壇報發表了新聞史上錯得最荒謬的頭條之一:“杜威擊敗杜魯門”。這個頭條來源于電話樣本調查,但是卻在抽樣過程中由于對杜魯門支持者采樣過少而導致了錯誤的估計。此次事件并沒有全盤否定民意調查方法本身,但是卻啟發調查者使用更成熟的技術、制定更嚴格的標準,從而使得今天的民意調查更加準確、在統計意義上更加嚴謹。

現在,我們停滯在一個相似的技術轉折點,人類行為研究所使用的私人和社會網絡數據不斷。強大的計算機資源和可使用的大型社交媒體數據集結合,涌現出一個研究群體:他們使用機器學習,自然語言處理,網絡分析和統計學對人口組成與人類行為進行前所未有的大規模測量。然而,越來越多的證據表明,基于大數據的預測和分析卻曲解了現實社會現象。在社會大數據的研究逐漸成為“顯學”的同時,社會學家需要與不同領域的學者增強方法領域的合作,從簡單地使用大數據研究社會問題,過渡到優化大數據社會研究的操作、共同探討符合學術標準并且行之有效的研究規范。

Derek Ruths 和 Jurgen Pfeffer 均來自于計算機研究領域,他們發表在《科學》(Science)雜志上的一篇《基于社交網站的大規模行為研究》(Social media for large studies of behavior)[1] 卻深入探討了社交媒體的研究通常出現的問題,并討論了如何為大數據研究方法制定更高的標準規范

樣本代表性:大數據≠全部

許多以大型社交媒體數據為基礎的人類行為研究都潛藏著一個假設:足夠大的數據樣本量能排除由平臺本身帶來的“噪音”。然而,不同的社交媒體平臺各自有大量不同的總體統計偏差。例如Instagram(譯者注:大型圖片分享及社交網站)對18到29歲的成年人,美國非裔,拉美裔,城市居民,特別有吸引力,而Pinterest(譯者注:同樣是圖片分享網站)主要用戶是女性,25到34歲,平均年收入10美元。兩個平臺用戶具有不同的特征,然而,這樣的樣本代表性差異卻從未被研究者嚴肅地糾正亦或是承認。此外,很多基于社交媒體的研究傾向于用社交網站的社會網絡特征歸納總結人類行為。然而,發展中國家互聯網使用率甚至還不足50%。用戶主要以發達國家為主的社交媒體顯然無法代表全世界更大范圍的人類群體。根據社交網站所得出的“大數據”,其邊界也需要更加審慎地界定。

數據“黑匣子”:被操控的數據

在《黑匣子: 操縱金錢與信息的秘密算法》(譯者注:原著名為The Black Box Society: The Secret Algorithms That Control Money and Information,由哈佛大學出版社出版)一書中,作者Frank Pasquale警告公眾:“(網站)可以包容、排斥、排名的權力決定了何種公眾言論可以長期存在,何種會日漸式微。”

在大數據領域,網絡平臺同樣具有操縱研究的能力和渠道。近年來,基于社交媒體數據的研究層出不窮,不少研究者都使用了網站所提供的應用數據接口(即API,Application Programming Interface)獲得數據。

通過API獲得社交媒體數據主要有兩種渠道:搜索接口(Search API),即通過搜索一周內所發布的相關信息;另一種為即時接口(Streaming API),即通過保證接口開放接受即時信息,對于非商業伙伴的研究人員而言,網站返回的即時接口數據僅為全部數據量的1%。當研究人員日益依賴于兩種API獲得研究數據,并通過此類數據獲得對人類網絡活動、情感、組織方式認識的同時,該類數據是否具有可靠性、代表性也成為開始大量使用社交媒體數據前必須回答的問題。

Gonza lez-Bailo n等人在《大型社交網絡抽樣調查偏差評估》(Assessing the bias in samples of large online networks)這篇文章中對比了來自搜索接口和即時接口獲得的不同樣本,并對比不同數量的標簽(hashtag,推特等社交網絡媒介中出現在#符號后用來標注主題的詞語)對研究結果的影響。他們抽取了兩個相關信息的獨立樣本,樣本A在英國采集,使用了搜索應用程序接口(Search API)和六個#話題標簽,其中五個來自2011年的樣本,一個是2012年新建的“動員”話題標簽(#12M15M)。樣本B1在西班牙采集,使用了即時接口(streaming API)和更廣泛的70個#話題話題標簽。為了更直接的對比A、B兩樣本,團隊還從樣本B中提取了一個只使用六個#話題標簽的縮略版樣本B2。

該研究發現通過推特應用數據接口所獲得的用戶社會網絡結構特征很大程度上受不同接口類型以及獲得樣本過程中使用的標簽數量影響。該研究對于使用社交媒體進行社會研究的學者有很大的啟發意義:當研究者越來越依仗社交媒體平臺獲得研究數據時,當下流行的社會大數據取樣方式很有可能導致研究結果與實際社會結構、用戶行為有偏差。

Derek Ruths 和 Jurgen Pfeffer也同樣提出,被全世界范圍研究人員廣泛只用的Twitter用戶數據,并不能準確表現其用戶的數據。更惡劣的情況是:社交平臺管理者會通過不公開的算法操縱數據的抽樣和過濾方式使得研究者無所適從。

一部分研究者因為其“嵌入式”的研究身份,建立了與社交網站平臺密切的合作關系,從而獲得了一般研究者無從獲得的數據、算法、資源。類似的研究往往能夠得出關于大規模人類行為的結論,獲得一定程度的學術影響(編者注:參考上一期大數據與社會Facebook關于情緒感染的研究,http://bigdatadigest.baijia.baidu.com/article/265887 )。 然而,類似的研究往往無法復制,其研究人員對于數據來源、算法細節也往往諱莫如深。

人類行為?機器行為

很多研究者都會基于社交網站的大數據得出對人類行為和網絡結構的結論,然而,類似的現象的出現很可能只是對平臺設計者意圖的再現,而非對人類行為的科學觀測。Derek Ruths 和 Jurgen Pfeffer 認為,社交網站的設計者其實對人類行為的部分規律了然于心。譬如社交活動的同質性(“物以類聚,人以群分”),傳遞性(“我朋友的朋友就是我的朋友”)和鄰近性(“鄰近者形成一條紐帶”)都被社交媒體平臺的設計者們所熟知并加以運用(譯者注:如Linkedin,求職類社交應用頻繁地好友推薦使得用戶的好友來源很大程度上來自平臺的推薦而非自發的尋找)。因此,社會心理學的研究應該從平臺的驅動作用剝離開來、區別對待。然而很不幸,現有的研究者并沒有類似的嘗試。

線上社交平臺的開發者正在構建工具去服務一個特定的、實際的目的,這些嘗試往往不能夠代表線下的公眾行為,更不能為研究者提供質量上乘的研究數據。比如,谷歌等搜索引擎會根據智能聯想推測用戶搜索詞相關的關鍵詞,并引導用戶搜索推薦的組合(編者注:研究者會基于網站搜索數據得出對用戶搜索行為的研究,及log analysis),然而基于此類數據的研究可能與用戶真實的搜索意圖恰好相反。這些設計往往有其合理的應用價值,但是作為研究數據,類似的設計卻掩蓋了人類行為的其他方面,基于此類平臺的量化研究也很有可能錯失對人類行為的全面體現。

此外,盡管平臺設計者們致力于監管用戶的規范使用,但是在所有的線上社交平臺都存在大量的“僵尸號”,即大規模人為甚至機器操縱的用戶賬號,服務于商業與廣告營銷等目的。在分析社交網站大數據時,排除或糾正類似的“雜音”是極其困難的。

研究方法的桎梏

在社交大數據必須經由平臺提供的現狀下,研究者無法排除抽樣不具代表性、噪音干擾等諸多問題。因此,在匯報關于大數據的社會行為研究結果過程中,研究者需要著重強調研究中潛在的偏差(biases)。然而,即便研究者意識到利用社交網站數據存在的偏差,相關領域的研究也往往由于研究方法本身不夠嚴謹而存在質量問題。

代表人群(proxy population)錯配:每一個社交媒體研究的問題都定義了一個興趣人群,例如,通過社交網站研究加州地區(UC schools)大學生的投票偏好。研究者往往通過 facebook用戶的個人資料設置來確定研究群體(編者注:用戶可以在資料中標注自己在加州就學)。然而從真實的研究群體到社交媒體所選擇的表征群體,卻往往存在嚴重的誤差。最近的一項研究表明,這種代理效應在推特的政治傾向研究中已導致錯誤的估計[3]。

方法和數據不具可比性:絕大多數社交媒體平臺禁止研究者保存或分享他們所獲取的研究數據。 因此,在傳統研究領域中可以實施的數據比較在大數據研究中十分鮮見。此外,研究者也很少公開其研究方法中所使用的代碼。這些都導致新方法在未經對比檢驗的情況下就得以發表(甚至聲稱比其他方法“更好”)。介于現有社交網站平臺關于用戶隱私可以理解的保護手段,研究人員最有可能的解決辦法是盡可能增加方法和結果的比較。

多重假設檢驗:現有的學術氛圍通常只會歡迎積極發現(positive findings) ,當多組研究都成功就某一個社會問題建模或預測時,由于無法看到負面結果,我們也無從評價哪一些積極發現是由于隨機性的巧合產生,哪一些是真正具有意義的積極發現。該問題不僅僅出現大數據研究領域,解決這一問題需要研究者不僅僅報告積極結論,同時也回報負面結果,并在同一個研究中使用多個數據來源,從而得以在該研究內部計算顯著性得分。

總而言之,現有的大數據研究領域在代表性、抽樣方法及研究方法等多個方面都仍然具有很多問題。基于此,對大多數研究者而言,我們需要具有的是對于數據質量及偏差更細致的考察,確立更加規范的標準。因而,更準確及有效的分析將很大程度上依賴于我們對待海量數據的審慎態度。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 洪泽县| 房产| 陇川县| 孝昌县| 巴彦县| 肃北| 唐海县| 南澳县| 巴青县| 贵定县| 镇原县| 扎囊县| 德钦县| 津市市| 运城市| 柳州市| 缙云县| 左贡县| 望江县| 邢台县| 九江县| 平利县| 靖宇县| 泾阳县| 张家口市| 蒙阴县| 开江县| 临泽县| 翁牛特旗| 益阳市| 商丘市| 平江县| 正阳县| 通州市| 滦南县| 花垣县| 衡水市| 弥渡县| 阿拉善左旗| 玉山县| 盐亭县|