大數(shù)據(jù)時代,快數(shù)據(jù)(fast data)有望給企業(yè)帶來新的機遇。智能手機、傳感器和社交媒體產(chǎn)生了上百億個數(shù)據(jù)節(jié)點,如果你沒有能力對這些數(shù)據(jù)節(jié)點以及物聯(lián)網(wǎng)作出響應(yīng),那快數(shù)據(jù)帶來的商機將與你擦肩而過。
對于很多商業(yè)分析應(yīng)用程序,快數(shù)據(jù)的分析和處理是大數(shù)據(jù)項目中不可避免的難題。每當數(shù)據(jù)科學(xué)家從他們的大數(shù)據(jù)集(靜態(tài)的)挖掘出新內(nèi)容時,業(yè)務(wù)人員立刻就會去想從中賺錢的方法,同樣,動態(tài)數(shù)據(jù)中巨大的經(jīng)濟利益也會促使快數(shù)據(jù)在商業(yè)中受到更多的重視,相信未來快數(shù)據(jù)會在商業(yè)中發(fā)揮更大的作用。
TIBCO這個公司從字面上可以理解為“有信息總線的IT企業(yè)”,它旨在為各種企業(yè)系統(tǒng)(如股票市場和交易應(yīng)用程序)之間提供高速、低延遲的連接。現(xiàn)在該公司致力于發(fā)展物聯(lián)網(wǎng)(IoT)和快數(shù)據(jù)相關(guān)的技術(shù),并將其作為自己的“兩個第二優(yōu)勢”。
TIBCO市場部門高級總監(jiān)告訴我們:“快數(shù)據(jù)首先要解決的是數(shù)據(jù)訪問問題,即首先得訪問到數(shù)據(jù),現(xiàn)在我們正努力捕獲所有不在防火墻保護范圍內(nèi)的數(shù)據(jù),不管來自社交網(wǎng)絡(luò)還是其他有API的來源。
例如,零售商使用BusinessWorks(該公司近期公布的旗艦版數(shù)據(jù)集成平臺)可以通過客戶的智能手機捕獲客戶地理位置數(shù)據(jù),并且可以基于客戶地理數(shù)據(jù)使用實時商品推薦系統(tǒng)。“通過了解潛在客戶的信息,從他們的大數(shù)據(jù)中發(fā)現(xiàn)用戶愛好、特征,然后向客戶推薦他們有可能喜歡的牛仔褲品牌以及類似商品,將客戶介紹到商店,基于對客戶信息的掌握,交易成功率被大大提高了。
當挖掘社交媒體數(shù)據(jù)以獲得分析見解時,速度是至關(guān)重要的。有一篇報道談到過一個名字叫Blab的公司,該公司從社交媒體數(shù)據(jù)中提取信息,用以幫助廣告商或公關(guān)公司作主題預(yù)測,判斷哪些主題會有較好的傳播效果(像病毒一樣被傳播和擴散)、哪些會石沉大海。
Ugam是另一家物聯(lián)網(wǎng)公司,準確的說是一家分析應(yīng)用開發(fā)商,這家總部在Texas的公司從物聯(lián)網(wǎng)和快數(shù)據(jù)中發(fā)現(xiàn)了商機,它通過分析來源于社交網(wǎng)絡(luò)的免費消費者數(shù)據(jù),幫助零售商決定賣什么商品,以及將商品放在貨架的什么位置。當然,數(shù)據(jù)的來源也很重要,因此需要慎重選擇“監(jiān)控”哪些社交網(wǎng)絡(luò)。
Ugam首席創(chuàng)新官Mihir Kittur告訴我們:“實際上,當想要從客戶那兒得到反饋來幫助商品定價、分類時,我們會覺得Twitter有點‘吵’,用戶的抱怨與普通的不相關(guān)信息摻雜在一起,數(shù)據(jù)太雜亂了。不過,Ugam也發(fā)現(xiàn)當把產(chǎn)品評論、Google+、Facebook以及Pinterest的數(shù)據(jù)整合到一起,可以為產(chǎn)品定價和分類提供更好的支持。
零售業(yè)的高速發(fā)展為研究快數(shù)據(jù)理論、了解其獲利能力提供了方便。但當考慮研究快數(shù)據(jù)為人們提供幫助時,沒有哪個行業(yè)能比得上醫(yī)療行業(yè),TIBCO的研究人員致力于構(gòu)建快數(shù)據(jù)應(yīng)用,從醫(yī)院數(shù)字化設(shè)備產(chǎn)生的大量信息中發(fā)現(xiàn)潛在模式。
TIBCO的Been告訴我們:“我們的客戶希望能將醫(yī)療設(shè)備產(chǎn)生的數(shù)據(jù)整合到一起,這樣可以更早地診斷出疾病,更早地為病人提供正確的治療方案,通過大數(shù)據(jù)技術(shù)挖掘數(shù)據(jù)中潛在的信息,了解疾病的傳播,還可以通過對實時數(shù)據(jù)分析發(fā)現(xiàn)疾病的臨床癥狀。”
雖然如今的Hadoop已成為大數(shù)據(jù)代名詞,但Hadoop不可能解決一切大數(shù)據(jù)問題,尤其是針對快速數(shù)據(jù)來說。TIBCO對Hadoop就不太感冒,該公司的首席技術(shù)官Matt Quinn在公司上個年度用戶會議上就告誡人們不要過分依賴“大象”——Hadoop。
Hadoop由于缺乏交互性和實時功能常常被人們抱怨,不過Hadoop也在努力地添加一些新的實時分析功能,也許將來Hadoop也能成為一個快數(shù)據(jù)平臺,還有兩個優(yōu)秀的大數(shù)據(jù)技術(shù)也值得考慮——Apache Spark和Apache Storm。
Spark一直被看作MapReduce的替代者,獲得了多方的追捧。Spark目前已成為Hadoop數(shù)據(jù)平臺中重要的數(shù)據(jù)分析工具,相比MapReduce,Spark不僅更易于編寫代碼(支持Java、Python和Scala),而且速度更快,同時,Spark還為SQL(Shark)預(yù)先構(gòu)建了hook函數(shù),具有實時流媒體(Spark流)、機器學(xué)習(xí)(MLLib)和圖處理(GraphX)等多種功能。
MapR作為Hadoop軟件供應(yīng)商,一直努力改進Hadoop技術(shù)以增強快數(shù)據(jù)的處理能力,MapR最近宣布了它與Databricks合作——將內(nèi)存Apache Spark技術(shù)整合到Hadoop產(chǎn)品中,MapR的競爭對手Cloudera也將Spark加入了Hadoop中,Hortonworks則一直為Spark提供支持,預(yù)計在今年將為Spark提供全面的支持。
Storm在應(yīng)對快數(shù)據(jù)處理方面具有優(yōu)越的性能,使其具有很多追隨者。很Spark一樣,Storm為用戶提供各類的語言支持,包括Ruby、Python、JavaScript、Perl、PHP。
LivePerson是一家使用Storm技術(shù)的公司,為用戶提供基于Web的通信軟件。在近期的一個視頻中,Ido Shilon、LivePerson平臺工程組的團隊領(lǐng)導(dǎo),解釋了該公司如何重建其后端基礎(chǔ)設(shè)施,以及如何使產(chǎn)品有更好的彈性等問題。
LivePerson實時系統(tǒng)的核心技術(shù)是Storm和Apache Kafka,還有Couchbase NoSQL數(shù)據(jù)庫。作為其信息進程初始化的一部分,該公司致力于收集所有會話信息,比如網(wǎng)站用戶來自哪兒,他們使用什么瀏覽器,他們訪問過哪些頁面等等,這些信息先通過Kafka流式處理,然后用Storm進行分析,最后以文檔的形式存儲在Couchbase數(shù)據(jù)庫中。最終,這三款產(chǎn)品將構(gòu)建出它們的“智慧庫”,用于分析信息。
隨著物聯(lián)網(wǎng)的發(fā)展,應(yīng)對快數(shù)據(jù)的困難將越來越大。物聯(lián)網(wǎng)會給我們帶來更多的快數(shù)據(jù),機器產(chǎn)生的數(shù)據(jù)量會超出我們想象,而且這些數(shù)據(jù)既不直觀也不易于使用,但這一切將為那些以數(shù)據(jù)驅(qū)動業(yè)務(wù)的公司帶來更強的競爭力。誰先做好準備,誰就能在競爭中獲得優(yōu)勢。