一、大數(shù)據(jù)信息有效性不足
雖然信息時代使得人們面對的信息規(guī)模擴大和溝通效率提高, 但是這并不意味著有價值的數(shù)據(jù)信息獲取就變得更加迅捷和容易。
首先,有價值的數(shù)據(jù)信息獲取面臨挑戰(zhàn)。網(wǎng)絡(luò)信息資源在擴大人們信息來源渠道和提高信息獲取效率的同時,也不可避免的會促使人們遭受大量虛假、無用數(shù)據(jù)信息的困擾。信息大爆炸造成的信息環(huán)境污染和“噪音信息”的蔓延增加了人們識別、判定和利用有效信息的困難。
其次,有價值的數(shù)據(jù)信息整合面臨挑戰(zhàn)。使用大數(shù)據(jù)面臨的一大挑戰(zhàn)就是如何將社會經(jīng)濟各個主體之間的數(shù)據(jù)信息能夠方便和有效地整合在一起。要想讓大數(shù)據(jù)更有效地服務(wù)于人類社會,就必須將存在于社會各個主體中多種格式的海量數(shù)據(jù)通過統(tǒng)一的數(shù)據(jù)格式構(gòu)建融合人、機、物三元世界的統(tǒng)一信息系統(tǒng)。最后,有價值的數(shù)據(jù)信息生成存在算法演化問題。在現(xiàn)實中,大數(shù)據(jù)往往是根據(jù)各個社會經(jīng)濟主體行為被動產(chǎn)生的,但是數(shù)據(jù)生成者的商業(yè)模式等行為會影響大數(shù)據(jù)的生成機制,導致其提供的信息不具有時間前后的可比性。以谷歌公司為例,其商業(yè)模式的主要目標是更快速地為使用者提供準確的信息。為此,谷歌不斷改進搜索算法,使用者可以通過后續(xù)谷歌推薦的相關(guān)詞快捷地獲得有用信息。這一模式改變了數(shù)據(jù)生成機制,容易出現(xiàn)數(shù)據(jù)使用者搜索的關(guān)鍵詞并非其本意的現(xiàn)象。
二、大數(shù)據(jù)樣本選擇困難
人們希望通過海量數(shù)據(jù)信息的收集減少信息不對稱,但是這些龐大的數(shù)據(jù)可能對我們解決問題并不會起到正面的作用。當前,大數(shù)據(jù)使企業(yè)或者機構(gòu)獲取每一個客戶的信息、構(gòu)建客戶群的總體數(shù)據(jù)成為可能。但是,這種大數(shù)據(jù)并不一定就是我們所要研究對象的全部數(shù)據(jù)總體。如果我們誤將掌握的海量數(shù)據(jù)當作所要研究對象的數(shù)據(jù)總體,那么基于大數(shù)據(jù)分析得出的結(jié)論就很有可能是錯誤的。因此,在分析和研究某個問題時,我們不能迷信大數(shù)據(jù)的作用。
以“谷歌流感趨勢”(GFT) 項目為例,2008 年11 月谷歌公司啟動該項目,目標是預測美國疾控中心(CDC) 報告的流感發(fā)病率。2009 年,GFT 團隊在《自然》雜志發(fā)表文章報告,只需分析數(shù)十億搜索中45 個與流感相關(guān)的關(guān)鍵詞,GFT 就能比CDC 提前兩周預報2007-2008 季流感的發(fā)病率。但是,2014 年美國《科學》雜志報道,2009 年GFT 沒有能預測到非季節(jié)性流感A-H1N1;從2011 年8 月到2013 年8 月的108 周里,GFT 有100 周高估了CDC 報告的流感發(fā)病率。其中,2011-2012 季期間,GFT 預測的發(fā)病率是CDC 報告值的1.5 倍多;2012-2013 季期間,GFT 流感發(fā)病率是CDC 報告值的2 倍多。另外,2007 年美國爆發(fā)的次貸危機也是一個例證。自20 世紀90 年代起, 美國無論是抵押貸款和信用卡的申請還是資產(chǎn)證券化產(chǎn)品的定價和評級,都是建立在較為成熟的大數(shù)據(jù)基礎(chǔ)上的。但是,金融機構(gòu)仍然做出了系統(tǒng)性錯誤的金融決策,成為金融危機爆發(fā)的導火索。
三、大數(shù)據(jù)數(shù)據(jù)處理技術(shù)更新緩慢
大數(shù)據(jù)雖然可以通過擴大數(shù)據(jù)樣本規(guī)模和提升數(shù)據(jù)處理能力來管理日常經(jīng)營性的風險,但是代表金融創(chuàng)新風險等未來事件是無法用歷史數(shù)據(jù)進行預測和分析的。
首先,大數(shù)據(jù)處理技術(shù)面臨數(shù)據(jù)生成者學習行為的挑戰(zhàn)。大數(shù)據(jù)處理技術(shù)和評估標準影響數(shù)據(jù)生成者行為,同樣數(shù)據(jù)生成者行為也會影響大數(shù)據(jù)處理技術(shù)和評估標準。以我國大數(shù)據(jù)重要來源之一的社交媒體為例,這種大數(shù)據(jù)來源的有效性是有前提條件的,即人們在社交媒體分享的信息都是真實的、自發(fā)的、不受大數(shù)據(jù)處理技術(shù)和各種評估標準的影響。但是,人們在互聯(lián)網(wǎng)時代運用網(wǎng)絡(luò)學習的能力是不斷提高的。如果人們通過學習大數(shù)據(jù)處理技術(shù)和各種評估標準而相應(yīng)改變社交媒體的信息,就會導致大數(shù)據(jù)生成機制發(fā)生質(zhì)變。因此,在對大數(shù)據(jù)進行技術(shù)處理時,簡單地認為數(shù)據(jù)生成者都是無意識地生產(chǎn)大數(shù)據(jù),忽略了數(shù)據(jù)生產(chǎn)者行為背后趨利避害的動機,可能就會得出錯誤的判斷和結(jié)論。
其次,大數(shù)據(jù)處理技術(shù)面臨去冗降噪挑戰(zhàn)。在現(xiàn)實中,大數(shù)據(jù)一般來自于不同的社會主體,以動態(tài)數(shù)據(jù)流的形式產(chǎn)生,人們在方便獲取數(shù)據(jù)的同時,也會使得虛假數(shù)據(jù)、無效數(shù)據(jù)等噪聲數(shù)據(jù)的生產(chǎn)成本降低。面對大數(shù)據(jù)中包含眾多不同形態(tài)的噪聲數(shù)據(jù),如何通過數(shù)據(jù)處理技術(shù)的革新來挖掘有價值的信息是我們自始至終都要面臨的一項技術(shù)挑戰(zhàn)。這如同人類社會醫(yī)學技術(shù)創(chuàng)新與病毒變異之間的“競賽”一樣是長期存在的。