自2009年大數據概念提出以來,越來越多的國家開始從戰略層面重新定義大數據。2016中國大數據產業峰會透露,未來5年,大數據產業規模將以每年50%以上的速度增長。那么,大數據時代真的到來了嗎?大數據應用過程中還存在哪些問題?日前記者走訪了我國大數據行業領軍企業之一的成都數之聯科技集團。
降低數據挖掘“門檻”,大數據賦能當“授人以漁”
“我想這個時代還遠沒有到來。”作為《大數據時代》的譯者,成都數之聯科技集團CEO兼首席科學家周濤認為,當前大數據應用主要是在互聯網和金融行業,這些只是大數據產業的冰山一角,未來會進一步向工業和農業等傳統產業滲透。
不過,對于當前我國傳統企業來說,大數據應用常??偸?ldquo;余音繞梁”,卻又難以“觸手可及”。“在傳統制造企業中,產品需求、生產流程、銷售渠道、售后評價依舊是傳統的‘拍腦袋’,尚未實現智慧化生產、精細化運營、個性化營銷。”周濤舉例說,比如農業領域就依然停留在粗放的耕種土地、收獲糧食和進入市場銷售模式。在周濤看來,目前我國傳統企業普遍面臨的大數據應用困境,多為數據存儲管理和分析挖掘的能力瓶頸。
“正是數據挖掘技術門檻高,使得數據和價值分離的問題嚴重。”數之聯董事長兼財務總監傅彥認為,“雖然有小部分互聯網企業具備數據挖掘技術,但傳統企業考慮到數據安全問題,不愿意把數據拿出來。面對這些問題,我們的解決方案是:通過開放數據挖掘能力,降低傳統企業將數據轉化為價值的門檻,對傳統企業進行大數據賦能。”
如何不拿出企業數據,卻依然借助大數據賦能?
數之聯首席技術官方育柯介紹,數之聯在2012年成立后,為政府、企業和機構提供集數據采集、存儲、管理、分析、挖掘和應用為一體的大數據價值發現全產業鏈服務,重點解決數據價值挖掘、數據變現問題。企業的iCloudUnion大數據價值發現與應用創新平臺更強調開放數據挖掘過程,平臺上集成了100多個機器學習算法,適配到hadoop、spark等分布式處理框架,使得能夠快速處理大規模的數據。“有了這個平臺,我們可以通過托拉拽快速完成大型數據挖掘算法和模型開發工作。”他舉例說,在公司分析富士康SMT生產線上不同環節的加工數據項目中,為了解哪個環節容易導致產品不良率比較高,平臺僅用數小時便搭建起一個集成學習模型,并通過該模型,將之前進料階段準確率實現了大幅度提升。
“經過初級培訓的人在幾個小時內就可以完成高級算法工程師要幾周才能完成的編程工作。”方育柯說,平臺的價值在于可以幫助客戶實現自主的數據價值發現和應用創新能力,真正做到授之以魚不如授之于漁,對傳統企業進行大數據賦能。
警惕重復建設“先手棋”,產業布局需科學統籌
去年以來,“國家大數據戰略”的發展目標被寫入十八屆五中全會公報中,我國大數據產業發展明顯加快,一些大數據產業發展規劃或智慧城市項目也在各地紛紛上馬。然而,“下先手棋”的大規模產業布局是否就意味著發展領先?
方育柯注意到,大數據產業發展中存在的資源浪費、重復建設應當引起關注。一方面,很多地方在推大數據產業項目時基礎設施先行,投入大量資金建設IDC(互聯網數據中心)、IPC(工業個人計算機)等,使得國內的計算資源和數據平臺的容量遠大于需求量;另一方面,部分政府、企業在數據開放過程中,要么開放范圍有限,要么開放的數據是過于宏觀或“高度”匯總的小數據,對大數據的價值挖掘幫助有限,“這好比空有一身功夫的‘武林高手’,只能在小武館里施展才華。”
談及數據開放之于大數據產業發展的重要性,他以數之聯發展歷程為例:團隊在2001年開始做數據挖掘、機器學習的科研時,數據挖掘僅在國外少量企業應用,這階段團隊分析的數據主要是企業的結構化數據或者電子表格數據,規模一般都不會超過10萬;2006年前后,團隊與電信部門合作,通過機器學習的方式智能識別垃圾短信時,逐漸開始處理非結構化的數據,但依然是文本方式,數據規模約在千萬級別;2009年后,隨著移動互聯網、物聯網的發展,大數據概念迅速流行起來,數據量從之前的TB發展到PB、EB、ZB等,數據產生速度、數據類型、數據價值都在快速增長。
方育柯建議,地方產業布局時,在考慮后續大數據項目或者智慧城市期間,應強調數據驅動的智慧城市建設,科學、統籌、合理規劃大數據相關產業發展規劃,盡量依托現有IT設施資源,避免重復資源建設,開展輕量級的大數據解決方案,“不要為了發展大數據而發展大數據,應該本著開放數據資源、分析數據價值、創新數據應用的原則,推動大數據在政府和企業尤其是傳統企業中的有效運用。”
“大數據的核心要素是數據、技術、人才。”他認為,對于數據,可以優先推動政務數據開放,鼓勵企業數據開放;對于技術,優先扶持大數據技術創新類企業,提升傳統企業大數據技術能力;對于人才,制定大數據人才引進策略,尤其是三、四、五線城市,因為這些地區是未來大數據的價值寶藏。