大數據從“概念”走向“價值”,基于大數據的推薦與預測逐步流行,數據科學將興起,安全與隱私成為重要問題,大數據產業成為戰略性產業——這是中國計算機學會大數據專家委員會對“大數據”2014年十大趨勢預測中的內容。在這份預測中,還包括數據商品化與數據共享聯盟化,大數據生態環境逐步發展等。同時,大數據專家委員會預測,2014年,互聯網和電子商務、金融(股市預測、金融分析)、健康醫療(流行病監控和預測等),生物信息、制藥等方面將會有令人矚目的應用。剛剛過去的2013年,大數據在醫療、金融、電子商務和城市管理等方面應用較多。
“大數據”從2012年預熱,到2013年被各行各業所提及,各種輿論聲音紛雜,有人認為這是一個機遇,也有人認為這會是一場“泡沫”。2014年,大數據將面臨的問題有哪些?
數據開放仍是大問題
數據應用的前提是數據開放,這已經是共識。中國工程院院士、中國互聯網協會理事長鄔賀銓指出,中國人口居世界首位,但2010年中國新存儲的數據為250PB,僅為日本的60%和北美的7%。目前我國一些部門和機構擁有大量數據但寧愿自己不用也不愿提供給有關部門共享,導致信息不完整或重復投資。2012年中國的數據存儲量達到64EB,其中55%的數據需要一定程度的保護,然而目前只有不到一半的數據得到保護。
去年12月14日,在中國計算機學會青年科學家論壇(YOCSEF)上,中科院地理科學與資源研究所研究員、中國工程院院士孫九林先生回顧了我國科學數據開放共享歷程:2003年,科技部在財政部的支持下設立了科技基礎條件平臺建設專項,科學數據共享工程作為重要組成部分納入科技基礎條件平臺建設;2008年,科技部發布973計劃資源環境領域數據匯交管理辦法;2009年,第一批科學數據共享項目驗收,轉入運行服務階段;2011年,國家科技基礎條件平臺組織首批認定。
孫九林介紹了美國在數據開放方面的做法。美國政府提供政策和經費保障,使數據信息中心群成為國家信息生產和服務基地,保障數據信息供給不斷,利用網絡把數據和信息最便捷、及時地送到包括科學家、政府職員、公司職員、學校師生在內所有公民的桌上和家庭中,把全社會帶進了信息化時代。
“讓每一位公民在數據、信息、知識、理論、決策、效益的各個環節上發揮才華,讓民眾把數據信息流動過程中和應用過程中的各種價值充分挖掘出來,國家為他們才華的發揮和價值的挖掘帶好路、服務好、創造好環境。”孫九林認為這就是美國政府選擇的數據信息共享的“大循環”道路。該思路在利益分配上的基本點就是讓全社會受益,讓整個國家受益。
目前,我國還沒有國家層面的專門適合數據共享的國家法律,只有相關的條例、法規、章程、意見等。
針對于大數據利用的前端——數據共享的問題,孫九林認為,十多年的數據共享取得了很大的成效,特別是全社會的共享理念得到共識,但存在的問題仍然很突出:缺少國家層面的政策,已有分散的若干意見約束力不夠,高層管理人員對數據開放共享的深刻意義的認識有待提高;現有國家數據共享平臺難以滿足國家發展和科技創新對數據資源的需求;缺少數據開放共享的專職隊伍和相應的數據專家以及管理人才;缺少對專職數據共享服務人員的合理評價機制和標準等等。
急需“國家大數據戰略”宏觀統籌
“不要被大數據(Big Data)的 Big 誤導,大數據更強調的不是數據大,而是數據挖掘。”在第十屆國家信息化專家論壇上,鄔賀銓院士指出,大數據需要更強調數據挖掘利用,關鍵的是要有國家大數據戰略。
鄔賀銓提出,需要制定國家大數據發展戰略,大數據是一個應用驅動性很強的服務,其標準和產業格局尚未形成,這是我國跨越發展的機會,但切忌一哄而起在目的不明的情況下到處建設大數據中心,到處搞“數據房地產”,而是需要從戰略上重視大數據的開發利用,將它作為轉變經濟增長方式的有效抓手。同時,我國需要盡快制定“信息保護法”和“信息公開法”,既要鼓勵面向群體而且服務于社會的數據挖掘,又要防止針對個體侵犯隱私的行為,提倡數據共享又要防止數據被濫用。
中國計算機學會專家委員會指出:大數據時代有兩點非常有利于中國信息產業的發展,第一是大數據技術發開源為主,迄今為止沒有形成技術壟斷;第二點,中國的人口和經濟規模決定了中國的數據資產規模全球最大。因此,政府、學界、產業界和資本市場應該通力合作,在確保國家數據安全的前提下,最大程度地開放數據資產,釋放大數據的巨大價值。
目前已經有一批企業開始用數據創業。在國外已經有不少用數據提供服務、做數據分析、進行可視化研究的公司,有些已經取得不錯的業績,甚至有很好的前景而拒絕大公司收購。有人預測,如果國內互聯網創業者,能從海量的“垃圾”信息中嗅出些端倪,找到某個切入點,沒準能成為行業的佼佼者。不過,現在在國內找出個像樣的“大數據”初創公司并非易事;但也有人認為,正是有這樣的空白存在,才讓人看到機遇。
各國大數據人才緊缺
大數據人才無疑是緊缺人才。Gartner咨詢公司預測,大數據將為全球帶來440萬個IT新崗位和上千萬個非IT崗位。麥肯錫公司預計,美國到2018年深度數據分析人才缺口將達14萬~19萬人,能夠分析數據幫助公司獲得經濟效益的技術及管理人才有150萬人的缺口。中國能理解與應用大數據的創新人才更是稀缺資源。
IDC(互聯網數據中心)發布預測報告稱,2017年大數據技術和服務市場將增至324億美元,實現27%的年復合增長率。此外還預測基于大數據的決策解決方案將開始取代或影響知識工作者角色,這勢必引發人才轉型。
面對大數據人才的短缺,各國如何在培養數據科學家和數據工程師?《2013中國大數據技術與產業發展白皮書》是由中國計算機學會大數據專家委員會歷時半年多編寫的,其中專門梳理了對大數據人才的培養。
在我國,香港中文大學從2008年起設立“數據科學商業統計”科學碩士學位;復旦大學從2007年起開設數據科學討論班,2010年開始招收數據科學博士研究生,并從2013年起開設《數據科學》課程;北京航空航天大學于2012年設立大數據工程碩士學位。
在美國,加州大學伯克利分校從2011年開設《數據科學導論》;伊利諾伊大學香檳分校從2011年起舉辦“數據科學暑期研究班”;哥倫比亞大學從2013年起開設《應用數據科學》課程,并從2013年起開設相關培訓項目,還計劃從2014年起設立碩士學位,2015年設立博士學位;紐約大學從2013年秋季起設立“數據科學”碩士學位……在英國,鄧迪大學從2013年起設立“數據科學”科學碩士學位。
大數據專家委員會認為,從目前各國的人才培養來看,數據科學家應掌握數學、統計學、數據分析、商業分析和自然語言處理等學科技能,具有較寬的知識面,具有獨立獲取知識的能力。復旦大學的課程設置強調了數據科學家是研究數據的科學家,而不僅僅是一個數據工程師或者數據分析師。