大數據的利用價值取決于元數據的可靠程度。
一方面,中國現階段由于數據管理的相關法律欠缺,加之法律層面沒有將企業、政府甚至個人所擁有的合法數據界定為其重要資產,并且社會文化中收集、管理數據的意識不夠,不重視對數據的保存和利用,從而忽視保護數據的真實性等,以上種種原因直接導致未來使用大數據的可信度。
另一方面,大量從社交媒體、社區互動等數據源收集來的數據,本身不一定可靠。很多信息發布隨意性強,公開的數據找不到數據引用來源,有些個人或企業受利益驅使,刻意偽造數據等。這些都構成大數據使用過程中的障礙。
解決方案可以從依法保護各種公共數據的真實性,制定政策促進和鼓勵企業、政府機構通過市場機制對各自擁有和掌握的數據進行買賣、交易等活動入手,從而帶動全社會重視各種數據的真實性和可靠性。試想,誰會花大價錢去買假數據或水分很高的數據呢?企業擁有真實的數據,建立了可信賴的品牌效應,它就擁有了大數據的專業市場。這個就是市場機制倒逼個人、企業和政府機構對數據采取誠信負責的態度,促使政府依法懲處數據造假、篡改數據等非法行為,最終從文化、習慣和日常行為上減少和杜絕各種數據欺詐行為。
大數據可靠性是所有國家面臨的挑戰,非中國特有。例如美國石油研究院及其游說團體,為了推動一個從加拿大阿爾伯塔到得克薩斯州的石油項目立項,刻意利用推特這個社交平臺造勢,造成好像幾十萬用戶都一邊倒地支持這個項目的印象,試圖以此影響政府決策,結果最終被高人識破,露出馬腳。證據就是很多“支持”來自臨時注冊的水軍賬戶,這些“用戶”平時在社交平臺上不活躍,僅僅在短時間內使得“支持率”大幅度攀升。如果僅靠這種被刻意扭曲了的“社會輿情數據”來做政府決策顯然不靠譜。好在在美國,由于類似做法的組織者(例如企業、機構等)要為此承擔相應的法律責任(公開欺詐罪和誤導罪),加之雇用大量水軍人工成本太高,這種行為無論從法律還是經濟的角度來看都不可能長久。
長久以來,政府機構、企業多方收集各種數據,以滿足自身業務的需求,而這些數據往往淹沒在該組織的內部系統里,大多時候并沒有充分利用和管理起來,慢慢就形成了人為的數據割據與封鎖。政府、企業對內沒有進行數據挖掘工作,對外又拒絕數據分享,最終直接導致整個社會大數據重復儲存,無法整合,利用率低下,或者無法共享專業大數據。
在美國,類似的問題也很突出。據麥肯錫全球研究院估計,以醫療管理行業為例,由于同樣的病人數據同時儲存于醫院、診所、保險公司等不同地方,在無法即時分享數據的情況下,同樣的數據又經過不同機構的病人管理系統、承銷系統、索賠管理系統、供應商系統等進行操作,僅此重復程序和管理造成的直接行政費用一年就高達1000億到1500億美元。
要使得全社會可以依法使用、分享儲存于各種政府機構互不關聯的公共數據,最終還是要靠法律和規章,包括申訴程序。要提高全社會現有大數據的利用率,需要政府和企業通力合作。對政府而言,可以馬上做到的就是在保障國家安全和公民個人隱私的前提下,依法開放公共數據,進而通過推出以數據創新為基礎的公共服務,向企業和社會個人銷售數據產品。政府可以支持鼓勵國有企業依法對公眾出售其有商業價值的數據。對企業而言,可以通過合法的途徑和方式獲取、收集、購買數據產品,進行數據交易。最終市場機制使數據依法在全社會自由流動,創造出最大社會價值。