隨著大數據時代的到來,網絡數據的真實性問題日益受到關注。相較以抽樣調查為主的小數據時代,在大數據時代,如何進行正確的數據清洗和數據分析,以便從海量信息源中獲取真實而有價值的信息內容,并生成指向性清晰的決策指導,成為哲學社會科學界和自然科學界共同面臨的課題。
數據來源:確保具備大數據品質
在中國人民大學新聞學院教授喻國明看來,高品質數據來源是確保大數據分析真實、可靠的首要條件。“根據國內外的相關技術發展情況分析,當前比較權威、可靠的大數據來源主要有兩個,一是掌握多方面的社會運行數據的政府部門,二是在某一領域擁有數據采集能力的大型公司,如數字移動、網購、社交媒體、搜索引擎、輸入法軟件等公司。”
喻國明認為,大數據時代的一個重要特點,就是全方位、立體式的數據分析成為可能。“不過,單個部門或企業所掌握的大數據往往類別單一,對其的分析結論難免陷于零散、維度單一。”另外,從嚴格意義上講,大數據不是政府、企業的“私有財產”,它與社會個體的權利和隱私密切相關,應當屬于全社會。
那么,目前民間進行的大數據分析“靠譜”嗎?上海交通大學輿情研究實驗室主任謝耕耘介紹,如果對大數據來源進行分類,可以分為政府、大企業的定點監測,以及民間依靠軟件等技術手段的數據挖掘。對此,喻國明這樣評價:相對于政府部門與大型網絡企業的大數據采集能力,僅僅從信息海洋中簡單挖掘、撈取的部分所謂的“大數據”,遠遠不具備真正的大數據品質。
北京郵電大學互聯網治理與法律研究中心主任李欲曉更愿意將大數據分析結果看作一種數據產品。“衡量其價值,關鍵在于它是否面向特定客戶群提供了所需數據產品類型。”目前,社會各界已經意識到大數據時代的到來,許多機構和個人也在積極開發相關軟件和產品,這個過程的最大價值,便是提升了全社會的大數據處理能力。
數據分類:建立更多有效標簽
謝耕耘認為,通過搜索引擎的分析軟件進行數據挖掘,是當前許多民間研究機構獲取所謂“大數據”的主要途徑。目前,付之應用的諸如“爬蟲”等大數據挖掘軟件,其作用是非常有限的——往往在只挖掘到幾千條數據時,就被相關網絡平臺為防止機器人挖掘而設置的障礙所攔截,并被要求反復輸入驗證碼。“因此,這種依靠軟件來執行的數據挖掘方式,往往需要數十臺、上百臺服務器,以及高容量的帶寬和大量的IP地址。”其挖掘所獲得的大數據,通常是局部的、不完整的,難以推斷整體狀況。
從這個意義上看,盡管目前從事大數據分析的人力、機構很多,但真正做出可信服的研究成果的團隊并不多。在李欲曉看來,當前的大數據分析尚未成熟,仍處于“成長期”。
喻國明認為,大數據由不同數據集構成,若想全面、立體式反映某一個體、事物、事件,其關鍵在于對不同數據集進行關聯分析,而關聯分析的前提是建立標簽。“對每一個數據文本做標簽,就像圖書分類一樣。幾十萬冊的圖書,有了分類,才能夠有序管理。面對大數據的海量信息,有了標簽,就可以輕松找出需要的信息。”盡管不可能存在一個100%包容性的大數據庫,但對數據進行快速、有效的處理與整合,無疑能為未來深入、真實、可靠的分析夯實基礎。
“有些標簽是自然形成的。例如,通過社交媒體的個人資料,就可以輕松分出年齡、性別、職業等不同標簽。還有一些標簽,則要通過網絡行為分析才能認定。例如,在分析個人言論的社會特征時,可根據網絡發言使用的詞頻、語義進行計算,并依此為網民貼上早起群體、晚睡群體,時尚型消費者、保守型消費者,高收入者、低收入者等標簽。”喻國明認為,在大數據時代,一個文本碎片被打上的有效標簽越多,其可被利用的價值越大。
數據分析:以小數據為“校準”
中國社會科學院新聞與傳播研究所研究員姜飛做了一個有趣的比喻,“在大數據時代,數據信息好比貨幣,要像研究貨幣一樣研究信息數據。”在他看來,“信息貨幣”一旦不可信,也容易發生“金融危機”;要提高大數據分析的可信度,就要找到一個“校對的準繩”。
喻國明認為,傳統的抽樣調查在發布結論時,需同時公布調查是否遵守了“21條規則”(包括數據來源、調查方法、資助者等),以保證調查報告不會產生誤導。未來,大數據分析也應該同步公布數據來源、數據量、數據截取的時間區間等有關數據品質的指標。“如果數據來源是通過‘爬取’軟件獲取,那么公布‘爬取’量有多大,可以在一定程度上幫助受眾判斷數據分析的真實度、可信度。”
另外,盡管小數據是小范圍的、片段的,但它有一個核心價值,即能夠提供準確的結構性分析,擁有可靠的統計學價值。喻國明表示,“大數據雖然信息豐滿,但整體構造難以看清,因此,小數據能夠成為大數據判斷結構性位置的校標。”
李欲曉還表示,大數據時代來勢迅猛,關涉企業社會責任、個人社會規范等方面的法律法規正在完善。未來,在數據來源、數據分析、結論校準等方面,應陸續出臺相關的法律法規和學術規范,以保障大數據在國家治理中發揮更大作用。