大數據活在“云端”,唯有云計算能讓大數據找到自己的軌跡和存在的真正價值。但是,大數據并不全是飄在天上的浮云,它也需要能源源不斷輸送數據的“根”。
那么,大數據的“根”在哪里?
共享是大數據的“根”
大數據與云計算,或許就像一枚神奇的金幣的正反面,讓許多人感覺“云里霧里”、亦真亦幻,卻又能真切地感受到金幣的光芒。
什么是大數據?按照維基百科的定義,大數據是指無法在可承受時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。它的基本特點可以概括為海量的數據規模、快速的數據流動和動態的數據體系、多樣的數據類型、巨大的數據價值。如果將單個或局部領域的數據及其挖掘處理視為小數據,那么關于某一主體的大數據就是由成千上萬、相互關聯、相互交織的小數據匯聚而成的。小數據的充分融合,就是大數據形成的根基。譬如一滴水,唯有與別的水滴融合在一起,才能形成水流,才能匯成江河、海洋,才能發揮水的價值。這種融合就是共享。沒有小數據的共享,就沒有大數據生長的“根”。
要從海量的數據中快速地分析、挖掘出有用的信息,單臺計算機已難以勝任,必須采用分布式架構,依托云計算的分布式處理、分布式數據和云存儲、虛擬化技術,即透過網絡將龐大的計算處理程序自動分拆成無數個較小的子程序,再交由多部服務器所組成的龐大系統經搜尋、計算、分析之后將處理結果回傳給用戶。這就是與大數據相依相存的云計算。顯然,如果沒有數據的共享,云計算也是“無米之炊”。
當然,數據能否共享,涉及到數據的開放性、法律邊界、數據價值實現等問題,還面臨諸多現實障礙。
誰阻礙了數據共享?
當我們沉醉于大數據的奇妙與魔法無邊的時候,現實世界卻給了我們一記響亮的耳光——大家沮喪地發現,許多政府公共信息仍處于零散、分割、封閉狀態。
各級政府部門在履職過程中掌握了大量的數據信息,其中涉及企業或個人的數據最為豐富。目前普遍認為比較有用的企業信息大致包括四個方面,一是反映企業基本情況的,二是反映企業真實經營狀況的,三是反映企業及企業主資信狀況及守法情況的,四是反映企業融資、財產抵質押、對外擔保等情況的。這些涉及企業的各種信息資源散落在不同的政府管理部門,總體處于彼此分割、孤立、封閉狀態,沒有實現數據之間的共享、連接和融合,更談不上大數據價值的體現。
盡管近年來,各級政府都在積極搭建公共信用信息平臺,推動社會征信體系建設,特別是在相關文件出臺后,步伐進一步加快,各部門也大多建立了自身的信息管理系統,但部門之間信息不共享或共享不充分仍是常態。即使有一些全國性、地區性的統一信息平臺,所含企業信息也非常有限,且不完整、不及時。
這種信息割裂的狀態,不僅不利于大數據的發展,從眼前看,則對具體運用大數據的相關主體的發展形成阻礙。比如,銀行業在服務實體經濟特別是小微企業過程中,面臨的突出瓶頸之一,就是信息瓶頸。銀行業開展小微企業信貸業務面臨的最大困惑是信息不對稱。信息的不對稱使銀行在發放小微企業貸款時難免如履薄冰,顧忌甚多。因此,能否切實掌握和了解反映企業真實經營狀況、企業及企業主資信狀況等相關信息,在很大程度上決定了銀行對小微企業放貸的意愿以及介入小微企業信貸領域的深度。
目前客觀存在的企業信息共享“難”,根源在于部門利益。相關部門在參與公共信用信息平臺建設時,出于種種原因,往往叫得響、做得少。一些部門出于商業利益,將自身所擁有的大量公共信息視為“私有財產”,以有償作為提供信息的條件;或以維護商業秘密、涉及部門機密為由,不愿將擁有的、本屬于公共資源的企業信息與其他部門共享,或者象征性地扔幾根“骨頭”,人為造成了企業信息的分割、殘缺,也造就了許多“僵尸”信息平臺;有些信息的共享按說不應存在障礙,只因為一些數據擁有的部門感覺“吃力不討好”,缺乏主動提供數據的動力。
當然,也不排除個別地方政府從局部利益出發,對可能影響當地企業發展的行政處罰類負面、失信信息的公開加以阻擾,影響信息數據的共享。深層的原因,則是社會信用體系建設法制化步伐緩慢,公共信息征集機制不健全,對相關部門提供、公開相關政務信息缺乏有效的約束,以及信用信息使用在公開與保密之間的法律邊界不清晰。
小數據不能共享,大數據必是空談。所以,看大勢、顧大局、破本位,推進小數據共享,是政府部門在大數據時代應有的思維。