最近,電子科技大學教授,云基地大數據實驗室合伙人周濤在接受采訪時提出,對于普通企業要通過修煉成為大數據企業,關鍵要做好7個步驟:
1.要實現數據化。企業要為此做好計劃,到底需要保存什么樣的數據,以人為中心的數據還是以產品為中心,還是更關注企業運營,需要做好這樣的計劃,然后再將企業生產經營中的數據保存下來,即便是現在看來沒什么用的數據,未來也可能產生巨大的價值。比如說像售樓處、體驗店客戶的來訪數據,就有必要完整的記錄下來。包括怎么過來的,一個人來還是幾個人,有老人和小孩嗎,穿什么樣的衣服等等,還有客戶的情緒,看了什么,問了什么問題,最后買了什么東西,都是非常重要的數據。
另外,企業內部人力資源的各個方面也都可以記錄下來,這些可以進行挖掘和分析的數據。他舉例說,長虹公司在自己的生產線設置了很多傳感器,監測溫度、濕度、震動、噪音、顆粒等等因素,希望了解到生產過程中哪些因素會對員工產生明顯影響。他們此前都認為溫度和顆粒可能對于員工操作和產品質量影響最大,但是事實上最終數據分析的結果,溫度是沒有什么影響的,恒溫的控制對于生產效率和合格率的貢獻并不像想象中那么大,反而是噪音對于員工情緒以及生產的影響非常重要。要成為大數據企業,第一步企必須要實現數據化。
2.企業要自己培養一些大數據理念,或者是小數據挖掘的團隊。做大數據,企業的規模不一樣,要求也不一樣。如果企業規模足夠大,比如說是電信運營商或者電力、銀行這樣的行業,可能會形成一個大數據的團隊。如果不是,比如說就是簡單的服務企業,那么形成理念就可以了。現在我們認為比較好的數據科學家,也不是說就是特別擅長或適應網絡,這樣的人不重要了,重要的是要有武器,什么樣的問題來了知道怎么解決。
關鍵我們認識是要培養四種理念:
(1)除了結構化數據以外還有文本、音頻、圖像、遙感、網絡、行為軌跡、時間數據,這些數據怎么處理,它存在的大挑戰是什么。
(2)一定要懂預測,因為絕大部分的大數據應用回到預測中,預測里面很多方法都是基準學習的,而基準學習目前最火的方向是集群學習。
(3)要走分布式存儲計算,這絕對不是說我知道給Hadoop 、Mapreduce、Hbase就夠了,關鍵問題是首先要知道怎么樣去搭一個混合式的,你的數據來了,我到底是應該犧牲我的一致性還是犧牲操作性,大概的成本多少,哪些數據挖掘的重要算法我要把他Hadoop、Mapreduce實現,哪些算法要通過SPTA,可變邏輯治理是在硬件里面,從而替代CPU、GPU。
(4)需要整個數據向外的發展,知道哪些數據可能在外部產生什么樣的重要價值,或者外部的數據能夠在你的企業產生什么樣的重要價值。企業應該培養出這四個能力,建立起企業數據挖掘的人才團隊。
3.企業一定要做好自己的外部數據儲備。我們都說“書到用時方恨少”,很多的企業,比如說像服裝銷售這樣的傳統行業,我要進的貨在淘寶、天貓上賣的怎么樣?在淘寶、天貓哪一個店鋪怎么樣?它的競爭品牌是什么樣售價,怎么樣銷售的?對于這樣一些數據,如果到需要的時候才去找,往往都來不及了。同樣的道理。比如銀行給中小企業發放貸款的時候,希望了解到它的用水、用電、生產、交通數據,例如通過攝像頭就能知道這個企業到底有多少車運行,這些數據可能對于中小企業發放貸款決策都很重要。但是當你要發貸款的時候,再去問已經沒有機會了,或者說成本太高了。我們建議,企業應該學會通過公共渠道或者數據交換的方法,根據自己的業務需求來量身定做自己的外部數據和戰略數據。
4.企業要建設自己的大數據管理與應用平臺。對于很多企業,做大數據并不是意味著要自己去建設數據中心。隨著云計算和云數據中心出現,使用外部數據中心的成本已經非常低了,數據存儲的費用也是在成倍的下降。但是,企業要做大數據,必須要在IT基礎設施方面具有比較好的數據處架構,要用大一些工具比如數據分布式存儲、Hadoop等等。很關鍵的企業不僅要具備一個數據中心的硬件,還要考慮和企業業務方向結合,不僅就是包括了數據的采集、數據庫架構,向上的分析模塊,再往上的API數據出口,以及橫向的一些業務模塊和出口這些東西。要做成企業的大數據管理應用平臺,我們強調一定要從企業的業務出發,量體裁衣,企業首先必須要搞清楚自己的業務形態是什么。
5.大企業一定要有數據偵測的能力,需要有創新思維的人隨時思考這些問題,比如企業占有的數據到底在外部能夠產生什么樣大的作用。就像我們經常拿雅昌藝術中心的例子,它存了很多藝術品的數據,所以最后它可以發布藝術指數。同樣國家電網也發布兩個指數,一個叫重工業用電指數,一個叫輕工業用電指數。淘寶網有它的CPI指數,還有很多企業的一些數據,實際上都可以發揮想象不到的價值。
6.一個大數據企業包括未來現代化企業,一定要有開放共享的態度。一方面需要企業把自己的很多問題社會化,另一方面企業要盡量去通過一些平等辦法,通過數據交換的方式互相共享形成數據化。
7.企業還要做好數據方面的戰略投資。我認為有三種比較先進的模式。
一種模式叫做產業鏈布局,比如說海爾、長虹可以投物聯網,對物聯網企業創新進行投入。比如說中信集團可以關注醫療,在這個方面尋找相關的數據應用。
第二個方面就是技術,你要知道哪些是硬技術創新,特別是在基礎術設施層面的,比如加速存儲,云計算的一些技術,比如數據挖掘,垂直應用分析,這個方面集中了很多創新也可以形成很大的規模。
第三種模式是數據集方面的投資,我們知道阿里巴巴投資高德是為了數據,它投資新浪微博不僅是要投錢還要花錢買數據,所有這一切本質還是想把數據流動起來做更大的事情。這種投資就是集成數據,強調數據流動性。這些投資里面有幾點是需要注意的,一是要去關注企業的數據價值,其次要關注早期的投資,去長期指引而不是短期追逐回報率,最后還要多關注傳統行業。
周濤教授提出,大數據的本質不在于數據量有多少,也不在于是否是異構的數據,而是在于數據是關聯的,整體的數據可以流動起來。他認為,跨領域關聯,通過一加一產生遠大于二的價值才是大數據的精髓。
當然,數據本身并不產生價值,只有通過大數據的分析去解決難題才是價值,而大數據對于企業營銷的作用是可大可小的,不過在這個把大數據作為概念的時代,企業還是要做好布局大數據的準備,向大數據企業修煉。