提到“大數(shù)據(jù)分析”,人們近兩年對這個詞并不陌生,國內媒體對于有關“大數(shù)據(jù)”及“數(shù)據(jù)分析”概念的大范圍炒作,使得人人都知道意識到了“大數(shù)據(jù)”時代的到來。無論在哪家企業(yè)的商業(yè)模式里,大數(shù)據(jù)分析近乎成為了一種標配,而似乎一夜之間,國內各型各色的數(shù)據(jù)分析企業(yè)也如雨后春筍般冒了出來。
的確,大數(shù)據(jù)時代已經(jīng)到來。
根據(jù)調查,去年全球大數(shù)據(jù)和業(yè)務分析總收入約為1229億美元,同比近三年內數(shù)據(jù),呈現(xiàn)較大增幅趨勢。毫無疑問,隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)分析技術對各行各業(yè)商業(yè)化運作都已產(chǎn)生重大影響。 尤其在一些垂直領域,包括汽車、家裝、電子產(chǎn)品等行業(yè)在全球市場大數(shù)據(jù)分析技術運用的最多,這部分全球收入共占據(jù)約228億美元。
在中國,我們熟知的很多知名企業(yè)都已經(jīng)將大數(shù)據(jù)分析技術運用在自己的服務中。例如,阿里通過分 析 用戶購物習慣進行商品類目推薦,滴滴通過數(shù)據(jù)計算為用戶置配車輛,京東利用商品庫存分析進行倉儲管理。更多的中小企業(yè)也開始意識到大數(shù)據(jù)分析的重要性,并加入到大數(shù)據(jù)分析的行列之中。
但是隨著“大數(shù)據(jù)”和“數(shù)據(jù)分析”概念炒作的升溫,也讓很多企業(yè)CIO/CTO們對其產(chǎn)生“畏懼”。一方面,企業(yè)發(fā)展中不可避免的充斥著很多無從分析的非結構化數(shù)據(jù)。在大數(shù)據(jù)分析中這類數(shù)據(jù)雖然至關重要,但目前我國絕大多數(shù)的數(shù)據(jù)分析公司還尚不具備對其分析的能力。而傳統(tǒng)的結構化數(shù)據(jù)分析在國內仍存在不科學、周期長、性價比低及無法產(chǎn)生直接經(jīng)濟效益等弊端。另一方面,由于大數(shù)據(jù)分析具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流動、多樣的數(shù)據(jù)類型和價值密度低等特征,企業(yè)通過部署及使用大數(shù)據(jù)工具可以獲取更精準的資源,從而提高自身利潤率和競爭優(yōu)勢。因此,在龐大的市場需求下。盡管不少數(shù)據(jù)分析公司不具備大數(shù)據(jù)分析的能力,還是被驅使著進入到這片紅海之中,這也使得目前國內市場數(shù)據(jù)分析公司水平良莠不齊。
而企業(yè)即使了解大數(shù)據(jù)分析所能帶來的紅利,也因對大數(shù)據(jù)分析缺乏基礎認知,不能真正選擇適合自身業(yè)務的數(shù)據(jù)分析模式。很多企業(yè)級的客戶自身在進行大數(shù)據(jù)分析時,仍以結構化數(shù)據(jù)分析為主,忽略了相對內涵豐富的非結構化數(shù)據(jù)。
國內企業(yè)進行結構化數(shù)據(jù)分析通常采取“招標+外包”的傳統(tǒng)模式。企業(yè)級客戶按照歷史經(jīng)驗應先建立起自己的數(shù)據(jù)分析KPI(關鍵績效指標),然后以此為參照將整個數(shù)據(jù)分析任務外包給第三方數(shù)據(jù)公司,經(jīng)過數(shù)月的分析后,由數(shù)據(jù)公司將分析結果返還給甲方企業(yè)。企業(yè)依據(jù)分析結果再進行策略調整。
在面對如今數(shù)據(jù)爆炸的時代,傳統(tǒng)數(shù)據(jù)分析在商業(yè)運用中暴露的諸多弊端,主要可以歸結為以下七條:
第一, 非結構化數(shù)據(jù)往往內涵更為豐富并且至關重要。目前我們所認知的數(shù)據(jù)分為兩大類,一類可以用數(shù)據(jù)或統(tǒng)一的結構加以表示,被稱之為結構化數(shù)據(jù),例如數(shù)字、符號等,而無法用數(shù)字或統(tǒng)一結構表示的另一類信息則被稱為非結構化數(shù)據(jù),如文本、圖像、聲音、網(wǎng)頁等。
企業(yè)以往使用的傳統(tǒng)數(shù)據(jù)分析系統(tǒng)僅僅只能對結構化和關系性的數(shù)據(jù)進行處理分析,這部分數(shù)據(jù)一般是已知且容易理解的,通過抽樣讀取很小一部分數(shù)據(jù)集來對整個數(shù)據(jù)集進行預判。而在企業(yè)發(fā)展過程中,所產(chǎn)生的數(shù)據(jù)其存在形式往往各式各樣,非結構化數(shù)據(jù)分析正是基于企業(yè)海量數(shù)據(jù)處理分析,所得出的結果也更為精準。
第二,KPI非數(shù)據(jù)驅動生成,缺乏科學性。國內企業(yè)數(shù)據(jù)分析前制定KPI標準常常以人為經(jīng)驗得出,而不是由數(shù)據(jù)驅動并且實時生成的,因此造成的結果則是KPI常年不變,并且缺乏科學性。在最終數(shù)據(jù)分析上會存在較大誤差。
第三,數(shù)據(jù)分析時效性差。國內企業(yè)在進行大數(shù)據(jù)分析時采用第三方外包的方式,整個周期至少也要數(shù)月的時間,往往返還回結果時,企業(yè)內部的相關數(shù)據(jù)已經(jīng)完全改變了。
第四,浪費了企業(yè)內部的分析師資源。不少企業(yè)都用有自己的內部分析師,采用外包的方式,完全浪費了這部分資源,企業(yè)從經(jīng)濟效益上很不劃算。而且在數(shù)據(jù)銜接上,由于第三方數(shù)據(jù)公司并不清楚企業(yè)的詳細情況,通過數(shù)據(jù)分析無法真正了解數(shù)據(jù)背后所蘊含的實際原因。
第五,數(shù)據(jù)安全性無法保障。外包的數(shù)據(jù)安全性問題一直是國內企業(yè)CTO的老大難問題,因為一些企業(yè)核心數(shù)據(jù)會涉及到商業(yè)機密,企業(yè)若想確保數(shù)據(jù)以安全的方式交予第三方大數(shù)據(jù)公司,往往需要耗費額外的時間和經(jīng)濟成本。
第六,數(shù)據(jù)分析結果不能與企業(yè)經(jīng)濟效益直接掛鉤。由于第三方數(shù)據(jù)公司的介入,國內企業(yè)在得到數(shù)月的分析結構后,從內部執(zhí)行上并不能很好地將分析結果運用到企業(yè)經(jīng)濟效益的改善上,數(shù)據(jù)分析最終成為了一堆沒用的數(shù)字。
第七,第三方大數(shù)據(jù)公司分析能力有限。國內大部分第三方公司由于缺乏動態(tài)、數(shù)據(jù)驅動的數(shù)據(jù)分析工具,更多時候也僅是依照經(jīng)驗制定KPI和進行數(shù)據(jù)分析,這樣分析出的結果同樣缺乏科學性。
正是基于上述弊端,才使國內企業(yè)陷入了數(shù)據(jù)分析的困局。其實,非結構化數(shù)據(jù)的分析,是每個企業(yè)都是非常渴望的。但由于受國內技術的制約以及工具的缺乏,公開市場上鮮有出色的分析平臺。大數(shù)據(jù)分析的核心技術只掌握在一些頂尖企業(yè)和專業(yè)數(shù)據(jù)分析公司手中,通常價格不菲。而DataMesh(商詢科技)所研發(fā)的智慧數(shù)據(jù)分析專家系統(tǒng)(MeshExpert)正是基于這樣背景下應運而生的數(shù)據(jù)分析工具的代表。MeshExpert是利用大數(shù)據(jù)分析核心語言Hadoop框架搭建的數(shù)據(jù)分析軟件,不但能夠一站式解決非結構化數(shù)據(jù)的清洗,建模和標記,處理傳統(tǒng)數(shù)據(jù)分析不能處理的半結構化和非結構化數(shù)據(jù)。而其易操作,上手快等特點,更方便幫助企業(yè)進行內部分析師的培訓,充分整合企業(yè)自身資源。不僅如此,系統(tǒng)還可根據(jù)算法實現(xiàn)自我學習,幫助企業(yè)得到精準、實時、有效的數(shù)據(jù)分析結果
我們相信,在未來的大數(shù)據(jù)分析技術中,非結構化數(shù)據(jù)分析將逐漸取代傳統(tǒng)的結構化數(shù)據(jù)分析技術,通過海量的數(shù)據(jù)分析來為企業(yè)應對更為復雜的商業(yè)模型,從而替企業(yè)提高市場洞察力并創(chuàng)造價值。