大數據在科學研究和產業領域的應用價值是不容小覷的,同時大數據也會有消極的一面。要認識其中的風險,以便規范、規避問題,使其有序發展。
不能過度神話大數據的應用價值。任何一個科學研究都有前提假設,任何一個科學問題,都是在一定條件下認識和思考的。在任何時候都不應把一個簡單、有限事物的價值過度夸大。面對大數據,應當關注其便捷性和有效性,理性分析自身的需求和應用價值。
大數據從本質上要求信息開放,而信息開放是一個復雜問題。有些涉及行業內部競爭,受到商業因素影響,企業不愿意開放;有些涉及個人或者行業本身的隱私或機密,無法開放。在大數據應用的過程中,對互聯網用戶隱私權和數據的保護,是開放信息時的重要考慮因素。
在思考這一問題時,國家應該具體問題具體分析。政府應該審慎分析哪些領域的數據能開放,考慮開放共享后數據的管理、數據的質量、數據的隱私和數據的保護等問題。
有些信息涉及個人信息、產業核心機密,甚至國家戰略安全,應該加強保護,更有效發揮它的價值;有些科學界的數據、大型實驗項目的成果,開放后能夠促進學術交流,提升研究效率,則應該鼓勵開放。
大數據的價值挖掘
如何發展大數據已經成為國家、社會、產業的一個重要話題。目前,歐美、日韓等國已經將大數據上升為國家層面的戰略。將一個問題提升到國家和政府層面,說明其存在對社會和國家的綜合價值。
從大數據應用的角度來看,大數據涉及重要的領域資源問題。地球信息科學、金融、信息技術、物理領域都在積極推進大數據應用落地。利用大數據提供個性化、規模化的教育,對人身體機能進行分析進而提升癌癥治療效果等,這些關系到重大民生領域的應用也備受關注。
廣泛應用決定了大數據技術的發展是國家多行業、多領域的共同任務。目前,各界對大數據的理解還不夠成熟,這需要政府、學界和產業合作推進各界對這一問題的認識。
挖掘大數據的價值,推動大數據的發展,政府需要發揮作用。大數據是一個眾多關鍵行業關注的問題,從國家角度來看,大數據是一種重要的戰略資源。
同時,學術界要和產業界共同支持和鼓勵大數據的發展。只有學術和產業價值融合,才能真正發揮大數據的應用價值。雖然學術界和產業界關注的價值點并不完全一致,但仍存在一些共性。發現和利用其中的共性,對解決發展大數據戰略中出現的問題很重要。
跨界合作是積極且有意義的嘗試,學術界可以致力于基礎技術的研究,盈利模式的分析則由企業去完成。同時,學術界和產業界在某些交叉領域形成競爭也是一種良性的模式。一些大企業會對前沿技術和數據積累追蹤最新的學術成果,甚至自己做學術研究,學術界也在積極推進產業化思考。
目前,我國互聯網產業在經過一段時間后,已經具備一定的數據分析基礎,在很多領域具有結合實踐發展的能力。但是大數據的價值密度是比較低的,有針對性地選擇和分析,才能使數據的價值最大化,或者說使隱含的價值被人們逐步認識和挖掘出來。這應是學術界和產業界共同努力的方向。
大數據的科學問題
大數據是指利用現有分析工具無法在合理時間內處理的數據,意味著數據海量、傳播速度快捷、種類豐富。大數據的本質是一個科學計算問題。
物聯網的興起、移動計算技術的發展、各類傳感器等嵌入系統的廣泛應用都使得人類取得的數據量在短時間內激增。每18個月,甚至每10個月,需要處理的數據量就會翻一番。在這一背景下,現有的數據分析工具在數據的表示方法、計算模式、價值挖掘技術等領域遇到了瓶頸。
一方面,極大的數據量使傳統的商業數據庫在處理價值密度低的大數據時,需要付出極高成本;另一方面,從數據計算角度看,傳統計算機采用的算法復雜度非常高。傳統計算機的計算方式依賴于機器復雜的算法,在面臨極大規模的數據時,數據計算的能力受到了挑戰。
這種高成本的數據處理、復雜化的數據計算,使得小樣本空間下計算的優劣判定方法在大數據時代發生變化。這種挑戰敦促學者嘗試在研究過程中找到科學計算的特性,在信息處理模式、數據多樣性表示方法上取得突破。
目前在研究大數據時,廣泛采用的是Hadoop技術架構,是并行機制,即通過簡單的編程來完成一個整體核心計算。在大數據時代,數據不斷增長提出的增量計算要求,數據量巨大造成的近似計算要求,都讓傳統的應用軟件和計算方法不堪重負。
增量計算要求、近似計算要求和歸納計算要求共同構成了大數據計算的科學問題。學者應該充分理解這些計算的特性,找到數據的關聯關系,以便為大數據的分析和預測提供方法和手段。
大數據的產業價值
大數據的發展,既包括科學問題,也存在產業價值和經濟價值問題。在大數據問題上,產業界與學術界的關注點不盡相同。互聯網公司密切關注的是如何利用大數據形成新的產業鏈條。目前,百度、谷歌、阿里巴巴等公司正在積極研究如何利用大數據推動新的商業模式,產生新的商業鏈條,包括通過電子商務來建立產品的關聯關系,利用大數據進行有效的電子商務分析等。
面對新技術應用時,學術界和產業界都會形成各自的態度和方案,這一點是正常的。學術界會關注如何解決科學計算的問題,產業界可能更加關注大數據如何創造新的產業價值以及經濟價值。
在探索大數據的經濟價值時,產業界的逐利性決定了部分企業不會致力于研究大數據的技術應用問題,也不會去思考大數據的長遠發展問題,只是通過炒作概念,利用大數據進行投機。對這一現象,我們也不必過度擔心。
聰明的投資者會對大數據的核心價值作出判斷,審慎地分析大數據和自己的關系,市場終將用腳投票。同時,學術界不會因為市場存在炒作而忽略對問題的理解,改變對研究問題走勢的判斷。