一堆毫無交集的數據,經過一番交融薈萃,催生出全新的應用,激發出全新的商業模式,孕育出新的產業,培育出新的經濟增長點,顛覆著傳統的經濟活動…… 數據挖掘顯現的這一系列價值,正在推出一個以數據挖掘為核心的大數據價值輸出新時代。影響所及,無所不達。
日前,一場圍繞數據挖掘的全球賽事——2017中國國際大數據挖掘大賽在我國首個大數據試驗區貴州宣布啟動。“相對于采集、儲存,數據挖掘是大數據走向應用創造價值的關鍵。”大賽組委會一位負責人表示。
貴州只是全球大數據浪潮的縮影。無論中國的西部,還是美國的硅谷,“挖掘”的聲音在全球同步響起,洶涌澎湃。數據資源的開放,挖掘工具的進步,商業前景的清晰,數據挖掘成為新一輪市場熱點,愈發受到資本的追捧。
數據價值輸出新時代
“如果把大數據比作石油,那么挖掘就是勘探、鉆井、提煉、加工。核心是把數據資源變現成商用價值。”一位曾參與國家大數據行動計劃綱要起草的專家表示,數據資源已經成為國家戰略性資源,我國必須盡快在大數據挖掘這個關鍵點有所突破。
目前國際主流的做法是把大數據鏈條分為數據獲取、預處理、存儲、挖掘或分析、可視化五個關鍵環節,挖掘被認為是核心。“真正的大數據就體現在大數據的深度挖掘應用。”中科院院士、北京理工大學副校長梅宏在一次大數據論壇上表示。
“這實際上是數據價值在不斷提升的體現。”上述國家大數據行動計劃綱要起草專家分析說,以前是對于數據資源的利用,更多是信息的獲取,例如企業通過經營數據的分析統計,總結過去的經營活動。而現在不再局限于信息獲取,同時實時數據資源的挖掘,可以優化業務模塊,可以催生新的業務模塊,這是顛覆性的。
全球知名咨詢公司德勤發布的《2016分析趨勢報告》認為,數據挖掘的威力和價值正在凸顯出,它幫助人們作出更明智的決策,優化企業和社會運轉。“商界正在積極尋找可以讓他們贏得優勢的科學方法。”
“我們已經走進數據價值輸出的時代。”該專家表示,“大數據依靠挖掘而呈現的巨大商業價值,正在成為推動經濟變革的新引擎。”
挖掘需要更多的數據
豐富的數據源是進行大數據挖掘的前提。德勤最新發布報告《2017德勤技術趨勢》指出,數據資源正在指數級的增長,到2020年,全球的數字預計將達到44澤字節(zetta bytes)。”盡管數據資源在全球呈指數級增長,但是數據資源的開放和共享程度卻亟待提升。“從國際上看,政府數據開放還處于初期階段,主要通過制定戰略或政策文件形式指導開放。”中國信息通信研究院互聯網法律研究中心主任工程師楊筱敏說。
楊筱敏說,2015年我國密集發布了多個相關文件,其中最主要的是國務院《促進大數據發展行動綱要》。綱要對相關政策進行了梳理,提出在開放前提下加強安全和隱私保護,在數據開放的思路上增量先行,提出在2018年底前建成國家統一的數據開放平臺。
“目前我國信息數據資源80%以上掌握在各級政府部門手里,‘深藏閨中’是極大浪費。”2016年5月9日的全國推進簡政放權放管結合優化服務改革電視電話會議上,國務院總理李克強要求盡快實現政府數據開放。
實際上,嗅覺靈敏的貴州、寧夏等省份,早在幾年前就開始布局大數據。貴州甚至是全國第一個大數據綜合試驗區,政府數據開放是其重要的試驗內容。貴州在2014年開始大數據行動,第一步就是打造一個數據開放共享的“聚通用”云上貴州平臺。到了2016年下半年時候,貴州突然加大了推進力度,啟動“數據‘聚通用’攻堅會戰”。
貴州省大數據發展管理局副局長康克巖介紹,2017年元旦前夕,貴州省法人單位、人口、空間地理、宏觀經濟四大基礎數據庫數據匯入共享平臺,貴州率先實現50%以上政府數據“云上”開放共享。
記者梳理發現,北京、上海、浙江、青島、武漢地已建立了專門的政府數據開放平臺。最近,河北省和安徽省均表示要在2018年底前初步建成政府數據開放平臺。
在此次大賽啟動會上,來自貴陽、北京、上海、深圳、廣州、杭州等17個國內政府數據開放先行城市的代表,共同發布了《共同促進數據開放及應用行動宣言》,呼吁共同努力促進政府數據開放。
“新礦工”挖掘新未來
隨著數據資源越來越多,數據形態越來越豐富。康克巖在分享貴州數據開放經驗時表示,在進行海量數據匯集過程中,有一個難題就是數據格式不統一、標準不統一。形態各異的數據正是大數據的顯著特征。海量的圖片、聲音和視頻甚至互聯網上的閑言碎語——《2017德勤技術趨勢》將這種非結構化的數據稱之為暗數據。
德勤在報告里宣稱,這些暗數據是比以往任何時候都更有價值的數據源,當然,對挖掘技術的要求也越來越高。不過這并沒有阻擋市場的熱情,越來越多大數據企業和數據科學家加入到“暗數據挖掘”戰。移動信息化研究中心2月10日發布的《2016中國大數據市場研究報告》顯示,國內大數據企業此前主要聚焦在技術壁壘較低的應用、可視化等環節,而在存儲和挖掘等環節,極少有企業切入。但是到了2016年,看到了利好消息。
該報告顯示,從2013年到2016年,數據挖掘在大數據產業鏈中的分布情況從4.1%上升到9.2%。該報告也顯示,從大數據主要產業鏈市場份額占上看,數據存儲約占12.5%,存儲14.7%,應用7.9%,挖掘占比最高,為17.3%。報告認為產業鏈縱向各環節均屬藍海市場,而挖掘高風險與高收益并存。麥肯錫更是對數據挖掘大唱贊歌。麥肯錫全球研究所一份報告指出,到2025年,物聯網11.1萬億美元的年產值中60%將來自于對數據的整合和挖掘。
事實上,國內資本看好大數據挖掘這片市場,多數大數據創新企業在A輪或A輪以前可以融到數千萬的啟動資金,極大程度的催熟創新企業的成長。知名風投看好,作價千萬提前布局,這其中不乏有IDG資本、經緯中國、達晨創投的身影。聚焦于數據挖掘的昆侖數據曾獲得達晨創投數千萬元的A輪融資。資本的熱捧下,人工智能(AI)、深度學習等大數據挖掘技術和工具的概念也烈焰高漲。時代呼喚新的“礦工”,尋找新的挖掘技術和工具,成為搶占大數據風口的制高點,關于數據挖掘的賽事也成為外界觀察大數據脈動的風向標。“2017年大賽將聚焦數據挖掘及應用,清晰展現大數據價值路徑。”上述大賽組委會負責人士表示,“以貴陽為代表的貴州,在政府數據開放領域形成領先全國的態勢,為大數據挖掘大賽提供了很好的基礎和支撐。