精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數據的“不完全代表性” 期待全數據革命

責任編輯:editor005

作者:王馥芳

2015-03-26 13:57:10

摘自:中國社會科學報

2014年3月,《科學》雜志在“政策論壇”欄目發表了Laser等人的一篇題為《谷歌流感寓言:大數據分析陷阱》的論文,引起了人們對大數據的警惕。“大數據思維”本質上是“技術性思維”的互聯網化,主要試圖利用機器的無限運算以及多元回歸能力完成數據的模式化分析。

大數據

2014年3月,《科學》雜志在“政策論壇”欄目發表了Laser等人的一篇題為《谷歌流感寓言:大數據分析陷阱》的論文,引起了人們對大數據的警惕。論文作者援引2013年2月《自然》雜志發表的一篇論文所提供的數據指出,谷歌所預測的有關流感類疾病的就醫比例,是美國疾病防控中心所獲得的數據的兩倍多。前者的結論基于與流感相關的大數據搜索得出,而后者的數據依據對全美各個實驗室的流感監控報告得出。

谷歌流感趨勢預測失真的事實讓學者們開始思考這樣一個問題:鑒于這是對大數據的補充性使用,我們到底可以從這個預測錯誤中得到什么教訓?Laser等人得出的結論是:盡管搜索或者社會媒體等提供的數據可以被用于預測,但是,大數據遠未到完全取代傳統方法、假設或者理論的時候。

“不可重復性”危機

Laser等人認為,造成谷歌流感趨勢預測失真的兩個重要因素是數據自大(data hubris)和搜索運算動態性(algorithm dynamics)。數據自大是指:大數據不僅僅是補充性的,而且可以完全替代傳統的數據采集和分析方法。搜索運算動態性是指:數據運營商為支持其商業模式、改善其服務質量、適應用戶行為的改變將對搜索運算方法產生各種影響。以谷歌流感趨勢預測為例,因其致力于不斷地測試和改善搜索體驗,故搜索運算方法一直在變,而這不僅是谷歌眾多工程師反復決策的結果,同時也是其分布在世界各地的數以億計的客戶的搜索行為所致,并最終影響其預測結果。每一次數據運算收集和運算方式的改變,都在影響數據生成和收集的連貫性。另外,一些有影響力的搜索主體,還會試圖通過操控數據生成過程的方式來達到自己獲取經濟、政治或者社會收益的目的。如此,數據生成和收集之間將出現斷裂。

搜索運算動態性因此可能導致大數據研究的“不可重復性”危機。可重復性是指科學研究被重復實施時得到的結論與原研究結論之間的一致性程度,它是科學與非科學的分界線。目前,幾乎所有的大數據研究都面臨“不可重復性”危機。數據搜索方式的頻繁改變,使人們無法獲取連貫的大數據。這使其研究不可被證偽,因此有效性大打折扣。

大數據的“不完全代表性”

大數據所面臨的另外一個挑戰是,其本質上具有“不完全代表性”。社會各界對于“大數據”的一個較為廣泛的看法是:數據量越大越好。但這并非絕對。事實上,大數據的價值在很大程度上取決于其連貫性與代表性。

大數據概念的提出,使得所有依靠傳統方式收集到的數據變成了“小數據”。但受制于數據生成、收集、遴選和加工等因素的局限性,所有數據本質上都受到“不完全代表性”的困擾。作為“小數據”的范例樣本,語料庫的“不完全代表性”屢屢受到學術界詬病。語料的收集實際上就是對其的有原則選擇,而選擇總是意味著喪失一些重要信息。如此一來,語料庫總是有局限性。

必須指出的是,大數據本質上也是“不完全代表性”的。這主要體現在以下四個方面。

其一,大數據在很大程度上是外部事件驅動以及數據服務商商業模式主導的結果。大數據的代表性與用戶搜索行為的代表性密切相關。但是,現在用戶的搜索行為在很多時候都受到外部事件驅動。Laser等人觀察到,不僅如此,服務商還會根據各自的商業模式有意識地對用戶的搜索行為進行誘導。

其二,大數據有可能受到數據運營商的操縱。在大數據產業鏈上,一個公開的秘密是,數據運營商時刻都在利用各種軟件監控網民的搜索行為和習慣。這種監控越成功,用戶的搜索行為越受到操控,最終得到的大數據也就越缺乏代表性。

其三,大數據在某些情況下可能只是諸多無效信息的無度膨脹。大數據所收集到的海量信息,很可能都是人類各種轉瞬即逝行為的碎片或痕跡,而后者只是各種外部因素和內部因素,如情緒、欲望、從眾效應等合力作用的結果,在很大程度上可能與用戶的基本行為模式或者價值體系背離。

其四,真正有價值的數據是認知無意識數據,但限于目前的大數據挖掘技術,這部分數據仍不可能被挖掘出來。甚至在將來的很長一段時間內,我們也還沒有能力挖掘人類認知無意識活動的技術性留痕。

期待全數據革命

此外,大數據還面臨其他挑戰。如大數據生成的有效性問題。Laser等人指出,很多引起大眾關注的大數據都不是由專門為科學分析需要而設計的、可以收集到有效而可靠資料的各種數據收集工具的產物。又如道德問題。在大數據時代,每個人都是大數據的貢獻者,當我們瀏覽網頁、網購、掃描二維碼、使用微博和微信以及安裝手機應用程序時,我們的個人信息、消費習慣、偏好、社交圈子等,均已經被大數據生成工具捕獲,從而在不自知的情況下泄露了隱私。大數據對用戶隱私的侵害,可能給用戶的資金、財產安全,甚至個人安全造成潛在的威脅。再如大數據對“小數據”的完全排斥問題。這主要表現在:傳統的“小數據”所提供的信息通常不包含在大數據之中。Laser等人觀察到,谷歌流感趨勢預測忽視了很多傳統統計方法可以獲取的信息。

Laser等人指出,鑒于大數據所面臨的各種危機和挑戰,在當下我們應該聚焦于“全數據革命”而不是“大數據革命”。全數據革命的核心思想是,我們應該認識到世界的關鍵變化在于:創新性地分析從所有傳統和新媒介獲取的數據,以更為深入透徹地理解世界。由于創新的數據分析方法關涉到創新性的思維或者認知模式,因此,全數據革命的核心在于以巨延性的“大認知”代替“大數據思維”。廣義上,“大認知”指的是一種大大超越人類認知極限的、以理解世界整體為最終目的的巨延性概念化活動。狹義上,其指的是一種大大超越人類認知極限的、以理解某個特定區域(如國家或者地區)或者領域(如某一行業或者某一專業領域)之方方面面為最終目的的巨延性概念化活動。

目前,大數據產業鏈條業已形成,其包括數據需求、挖掘、生成、存儲、管理、查詢、提取、處理以及展示處理分析結果和應用等多個環節。其中,大數據處理環節至關重要,并涉及一系列難題:數據可靠性甄別、數據測量、數據有效性判斷、數據之間關聯性和依存性判斷、數據的模式化以及數據的價值判斷等。這些難題是單純的“大數據思維”所無法解決的。

“大數據思維”本質上是“技術性思維”的互聯網化,主要試圖利用機器的無限運算以及多元回歸能力完成數據的模式化分析。但此概念的認知陷阱在于:錯把技術性思維當成思維的全部。事實上,思維是個外延極其廣泛的概念,它既有技術維度,又有心理、認知、社會、政治及文化維度。鑒于大數據在數據量方面的巨延性,因此,要真正實現對大數據的創新性分析,我們需借助在概念化方面有著同樣巨延性的“大認知”。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 大名县| 沅江市| 太谷县| 景东| 太谷县| 永德县| 依安县| 聂荣县| 恩平市| 永寿县| 苗栗县| 泗洪县| 克山县| 忻州市| 乌拉特后旗| 南川市| 齐河县| 平度市| 通化市| 梁平县| 普洱| 安远县| 延长县| 务川| 福州市| 武陟县| 嘉义县| 和政县| 桐梓县| 汕头市| 福清市| 时尚| 蓬安县| 孙吴县| 临西县| 延长县| 阿拉善右旗| 会泽县| 渭南市| 太保市| 准格尔旗|