“大數據是數字化生存時代的新型戰略資源,是驅動創新的重要因素,正在改變人類的生產和生活方式。大數據來源于政府、企業、網絡與開源數據(每個人)。我們研究大數據的科學問題還需要時間,大數據應用問題更需要時間。”7月9日,發展中國家科學院院士、中科院虛擬經濟與數據科學中心主任石勇在以“新金融規范、創新與發展”為主題的首屆紫金峰會上表示。該峰會由浙江大學和泰然集團聯合主辦。
大數據面臨的三大挑戰
“十三五”規劃綱要提出:實施國家大數據戰略。把大數據作為基礎性戰略資源,全面實施促進大數據發展行動,加快推動數據資源共享開放和開發應用,助力產業轉型升級和社會治理創新。
“去年的大數據戰略說的很清楚,首先是提高采集、有效整合,深化政府數據和社會數據關聯分析、融合利用,然后是統一共享交換平臺,研究制定數據開放、保護等法律法規,完善大數據產業鏈,加快關鍵技術攻關,促進大數據軟硬件產品發展。”石勇表示。
同時,他指出,目前大數據仍面臨著三個挑戰:第一,在云存儲和云計算基礎上,如何利用信息技術等手段對非結構化和半結構化數據進行有效處理已成為各國大數據專家共同關注的前沿科研問題;第二,如何探索大數據復雜性、不確定性特征描述的刻畫方法及大數據的系統建模,這一問題的突破是實現大數據知識發現的前提和關鍵。第三,研究數據異構性與決策異構性的關系對大數據知識發現與管理決策的影響,由于大數據本身的復雜性,這一問題無疑是一個重要的科研課題,對傳統的數據挖掘理論和技術提出了新的挑戰。
《大數據時代》結論不完整
“大數據背后是 數據科學 ,而數據科學是關于數據收集、管理、轉換、分析與應用的科學,其核心是研究從數據中獲取知識。很多人看過《大數據時代》這本書,但書中的三個結論都是不完整的。”石勇表示。
據了解,該書提出,大數據應該既要全體,又要抽樣,大數據的抽樣比小數據的抽樣更具有普適性;大數據應從粗糙中尋求精確;大數據應從相關關系中把握因果關系與必然關系。
對此,石勇稱,“大數據應該分析全部,我們能群體嗎,這是反科學的。但是大數據來了以后,數據量大了樣本就大。大數據粗糙中尋找精確。大數據的主要原理在于預測,這是科學的方法。”
此外,石勇還提到了大數據與金融決策的關系,大數據的應用等。目前中國大型的商業銀行和保險公司的數據量已經超過100TB,中國金融行業已經形成共識——數據是重要資產。中國金融行業已步入大數據時代的初期階段,并且呈現快速發展勢頭,未來的金融業將開展新一輪圍繞大數據的IT建設投資。
“優秀的數據分析能力是當今金融市場創新的關鍵,資本管理、交易執行、安全和反欺詐等相關的數據洞察力,成為金融企業運作和發展的核心競爭力。”石勇說。
而在大數據的應用方面,石勇說,“我國的個人征信評分系統是世界第一的”。據介紹,我國的個人征信系統基于8.5億消費人的記錄,服務于日常金融活動。截至2010年5月31日,個人征信系統查詢次數達6.5億次,實現了真正意義上的基于大數據挖掘的金融工程理論與實踐。