大數據的四大本質屬性解讀
4V之一是指Volume,即體量大,但須注意數據體量與當時的技術及應用場景有關。
4V之二是Variety,即數據類型多,一個大數據任務,一定要有各種各樣類型的數據在一塊處理,包括文本的,格式化的,非格式化的,視頻的、音頻的等等。
4V之三是Velocity,即數據的時效性,今天的大數據在明天就不一定是大數據。
4V之四是Value,即數據價值, Value應具有兩個特性,一個是商業價值高,另一個是價值密度低。
1C則是Complex,即數據足夠復雜才能稱之為大數據。
全球大數據分析技術現狀
目前,中國與美國在大數據分析領域的差距,體現在理念和客戶心態上。企業數據分析,中美在理念方面相差2-3年,而在實際執行層面或許有5年左右的差距。此外,國內的企業級客戶在進行大數據分析時,仍以分析結構化數據為主,而對于內涵豐富的非結構化數據,市面上并沒有有效的工具進行分析。同時,在進行結構化數據分析時,仍采用了“招標+外包”的傳統模式,即需要大數據分析服務的企業按照歷史經驗首先建立自己的數據分析KPI(關鍵績效指標),然后將整個數據分析任務外包給第三方大數據公司,經過數月的時間后,大數據公司將數據分析的結果返還給甲方企業。
美國有很多主流的企業已經進入到了以非結構化數據分析以及數據驅動、實時分析、人機互動、結果易讀等為特點的數據分析的新紀元。但由于中國的大數據分析與應用剛剛興起不過三至五年時間,人才比較匱乏,比如新浪微博就曾希望將1億的微博客戶進行精準分析與定位,但每天產出的近1億微博數據幾乎都是文本、圖片及視頻數據,這些數據類型統稱為非結構化數據,也是目前大數據處理過程中的難點。其中尤其以非結構化數據處理人才更是奇缺。
一個有意思的現象是,大型國際IT企業一般通過收購、戰略投資、合作等方式獲得非結構化大數據的處理技術與人才,比如惠普(HPE)大數據,通過開放60個API接口,以獲得部分處理文本、圖像、視頻的能力。相反,有一些小型的初創企業,基于其對某個領域的深入研究,也在大數據的風口博得快速成長。Taste Analytics這家總部位于美國的大數據高新科技公司,以強大的非結構化數據分析能力和創新能力,便引起了筆者的注意。
說得這么玄乎,4V+1C看起來好復雜,其實大數據的本質就是實現數據價值。
大數據:體現應用價值
當前的大數據行業,業界的關注重點已慢慢從基礎設施層,轉移到分析和應用層面。大數據的價值,目前來看主要是應用價值,沒有應用價值或者不能幫助實現應用價值一切都是空談。各大互聯網公司自身有很多研究大數據的專家,針對應用本身進行了很多研究。
上圖為:Taste AnalyticsCEO汪曉宇
盡管都知道數據中蘊含價值,但究竟如何洞察?Taste Analytics的CEO汪曉宇認為大數據不是神話,不是數據科學家和大企業所獨有,“讓人們真正看見大數據分析的價值,同時讓大數據分析工具化,讓這個工具讓所有人使用,沒有應用價值的大數據一切都是空談。”
如何讓大數據體現應用價值?
如果說讓大數據體現應用價值還屬于理念范疇,如何讓大數據分析工具化?讓這個工具為所有人使用,并最終讓大數據體現應用價值則屬于工具與方法的范圍。Taste Analytics推出的Signals非結構數據可視化分析平臺無疑是一個絕佳的方案。
Signals平臺具有實時動態、圖像可視化、非結構化數據分析能力等綜合智能數據分析能力,可用于對每一個企業日常經營的實時智能數據進行分析。其獨特在于強大的非結構化文本文檔數據的深度分析能力,同時靈活的支撐著各種傳統的結構化數據(報表、銷售記錄等)。此外,Signals平臺具有廣泛的適用性,以人為本的設計理念,也方便了各個企業的管理和業務人員自由靈活地使用這個產品,目前可以成熟的分析包括中文在內的12種文字、語音等非結構化數據。
Signals平臺一共提供三層服務:
第一層是數據采集層,它可以幫助企業更快更全的采集到各類第三方數據。目前已集成了上百個數據接口,包括亞馬遜、天貓、Salesforce,ZenDesk, Esty, Yelp、Twitter、Facebook、Apple Store、Google Play Store等,并且這個數字還在飛速擴大。此外,為加強中國市場,Taste Analytics也正在和國內知名的第三方數據提供商進行合作,期望為中國客戶提供更多本地化的數據;
第二層是數據分析層,用于對非結構化和結構化數據進行深度機器分析。Taste Analytics研發了“預測性分析”技術,基于該技術運用,用戶可以享受到結構化和非結構數據的精準分析結果,并對市場行為做出及時預測;
第三層是圖像可視化層。Signals非結構數據可視化分析平臺會把數據分析結果進行可視化輸出,為客戶提供10余種圖像可視化模式,并且支持客戶自定義分析,將包括一共15種不同的可視化分類。Signals非結構數據可視化分析平臺可根據用戶的不同喜好,繼續推出有價值的圖像展示,方便企業的使用。
通過上述三層服務,Signals通過可視化分析結果和簡單易用的使用界面,幫助企業了解新的市場增長點、做出正確的決策,并可把分析能力推送給企業的決策層和領導層,以幫助企業做出決策。
實時交互是第五本質屬性
大數據對于客戶應用價值的體現,還體現在“實時交互”上。汪曉宇說:“大數據時代推崇的是以用戶為中心、體驗至上,這種體現建立在“實時交互”上。實時交互已經逐漸成為大數據的第五項特征。”
因此,Taste Analytics研發的Signals非結構數據可視化分析平臺具備成熟的實時分析包括中文在內的12種文字以及語音等非結構化數據的能力,同時,具有強大的深度分析和預測能力。Signals通過深度學習非結構化的自然語言,根據用戶的用詞、造句、行文方式來理解文字含義,通過對大范圍的用戶、上千萬個消費點進行聚類分析,打破傳統的輿情分析需要企業建立專有模型等問題的桎梏。Signals的服務適用于各種非結構化數據分析場景,只要有聊天記錄、對話記錄和郵件記錄,就可以和數據源直接對接,易用而安全。Signals并通過數據分析結果的可視化輸出,為用戶提供10余種圖像可視化模式。用戶可根據企業內部人員不同決策地位的需要和喜好,自定義分析結果,獲取對自己有價值的分析展示,方便了企業的管理和決策。
大數據價值探索 任重道遠
從筆者觀察來看,大數據價值的探索與挖掘大家都在做著努力,從客戶層面,從梳理自身的需求出發,倒推著技術的解決方案,從技術層面,從滿足客戶需求出發,從技術上做著長遠準備。
Signals非結構化數據可視化分析平臺以文本數據處理方面的獨樹一幟挑戰著非結構化數據分析的難題,但顯然,它正在為大數據價值的探索做著超前的技術準備,雖然,目前算不上“強大“,畢竟在圖像及視頻的處理方面還得繼續努力。但我們看到了Taste Analytics這個大數據公司的快速成長,2015年底,已經完成了全部產品的中國本土化,包括產品使用中文化、云服務部署落地化、技術支持規?;?。并在2016年2月完成了由真格基金領投,聚合數據、華創資本跟投的A輪340萬美元的融資,而這一切都建立在300%的營收增長速度之上。
從Taste Analytics等大數據創業公司的成長,也從另一方面說明了大數據在未來所擁有的價值。但大數據價值的探索,其實還只是剛剛開始,無論是作為整個行業技術短板的圖像、視頻的處理技術,還是用戶本身對需求的認知與梳理,目前都還只是處于初級階段,大數據價值的探索,任重而道遠!