關(guān)于我們聯(lián)系我們

大數(shù)據(jù)時代 fast data給企業(yè)帶來新機遇

責(zé)任編輯：editor004 |來源：企業(yè)網(wǎng)D1Net 2014-04-17 10:35:24 本文摘自：CSDN

大數(shù)據(jù)時代，快數(shù)據(jù)（fast data）有望給企業(yè)帶來新的機遇。智能手機、傳感器和社交媒體產(chǎn)生了上百億個數(shù)據(jù)節(jié)點，如果你沒有能力對這些數(shù)據(jù)節(jié)點以及物聯(lián)網(wǎng)作出響應(yīng)，那快數(shù)據(jù)帶來的商機將與你擦肩而過。

對于很多商業(yè)分析應(yīng)用程序，快數(shù)據(jù)的分析和處理是大數(shù)據(jù)項目中不可避免的難題。每當數(shù)據(jù)科學(xué)家從他們的大數(shù)據(jù)集（靜態(tài)的）挖掘出新內(nèi)容時，業(yè)務(wù)人員立刻就會去想從中賺錢的方法，同樣，動態(tài)數(shù)據(jù)中巨大的經(jīng)濟利益也會促使快數(shù)據(jù)在商業(yè)中受到更多的重視，相信未來快數(shù)據(jù)會在商業(yè)中發(fā)揮更大的作用。

TIBCO這個公司從字面上可以理解為“有信息總線的IT企業(yè)”，它旨在為各種企業(yè)系統(tǒng)（如股票市場和交易應(yīng)用程序）之間提供高速、低延遲的連接。現(xiàn)在該公司致力于發(fā)展物聯(lián)網(wǎng)（IoT）和快數(shù)據(jù)相關(guān)的技術(shù)，并將其作為自己的“兩個第二優(yōu)勢”。

TIBCO市場部門高級總監(jiān)告訴我們：“快數(shù)據(jù)首先要解決的是數(shù)據(jù)訪問問題，即首先得訪問到數(shù)據(jù)，現(xiàn)在我們正努力捕獲所有不在防火墻保護范圍內(nèi)的數(shù)據(jù)，不管來自社交網(wǎng)絡(luò)還是其他有API的來源。

例如，零售商使用BusinessWorks（該公司近期公布的旗艦版數(shù)據(jù)集成平臺）可以通過客戶的智能手機捕獲客戶地理位置數(shù)據(jù)，并且可以基于客戶地理數(shù)據(jù)使用實時商品推薦系統(tǒng)。“通過了解潛在客戶的信息，從他們的大數(shù)據(jù)中發(fā)現(xiàn)用戶愛好、特征，然后向客戶推薦他們有可能喜歡的牛仔褲品牌以及類似商品，將客戶介紹到商店，基于對客戶信息的掌握，交易成功率被大大提高了。

當挖掘社交媒體數(shù)據(jù)以獲得分析見解時，速度是至關(guān)重要的。有一篇報道談到過一個名字叫Blab的公司，該公司從社交媒體數(shù)據(jù)中提取信息，用以幫助廣告商或公關(guān)公司作主題預(yù)測，判斷哪些主題會有較好的傳播效果（像病毒一樣被傳播和擴散）、哪些會石沉大海。

Ugam是另一家物聯(lián)網(wǎng)公司，準確的說是一家分析應(yīng)用開發(fā)商，這家總部在Texas的公司從物聯(lián)網(wǎng)和快數(shù)據(jù)中發(fā)現(xiàn)了商機，它通過分析來源于社交網(wǎng)絡(luò)的免費消費者數(shù)據(jù)，幫助零售商決定賣什么商品，以及將商品放在貨架的什么位置。當然，數(shù)據(jù)的來源也很重要，因此需要慎重選擇“監(jiān)控”哪些社交網(wǎng)絡(luò)。

Ugam首席創(chuàng)新官Mihir Kittur告訴我們：“實際上，當想要從客戶那兒得到反饋來幫助商品定價、分類時，我們會覺得Twitter有點‘吵’，用戶的抱怨與普通的不相關(guān)信息摻雜在一起，數(shù)據(jù)太雜亂了。不過，Ugam也發(fā)現(xiàn)當把產(chǎn)品評論、Google+、Facebook以及Pinterest的數(shù)據(jù)整合到一起，可以為產(chǎn)品定價和分類提供更好的支持。

零售業(yè)的高速發(fā)展為研究快數(shù)據(jù)理論、了解其獲利能力提供了方便。但當考慮研究快數(shù)據(jù)為人們提供幫助時，沒有哪個行業(yè)能比得上醫(yī)療行業(yè)，TIBCO的研究人員致力于構(gòu)建快數(shù)據(jù)應(yīng)用，從醫(yī)院數(shù)字化設(shè)備產(chǎn)生的大量信息中發(fā)現(xiàn)潛在模式。

TIBCO的Been告訴我們：“我們的客戶希望能將醫(yī)療設(shè)備產(chǎn)生的數(shù)據(jù)整合到一起，這樣可以更早地診斷出疾病，更早地為病人提供正確的治療方案，通過大數(shù)據(jù)技術(shù)挖掘數(shù)據(jù)中潛在的信息，了解疾病的傳播，還可以通過對實時數(shù)據(jù)分析發(fā)現(xiàn)疾病的臨床癥狀。”

雖然如今的Hadoop已成為大數(shù)據(jù)代名詞，但Hadoop不可能解決一切大數(shù)據(jù)問題，尤其是針對快速數(shù)據(jù)來說。TIBCO對Hadoop就不太感冒，該公司的首席技術(shù)官Matt Quinn在公司上個年度用戶會議上就告誡人們不要過分依賴“大象”——Hadoop。

Hadoop由于缺乏交互性和實時功能常常被人們抱怨，不過Hadoop也在努力地添加一些新的實時分析功能，也許將來Hadoop也能成為一個快數(shù)據(jù)平臺，還有兩個優(yōu)秀的大數(shù)據(jù)技術(shù)也值得考慮——Apache Spark和Apache Storm。

Spark一直被看作MapReduce的替代者，獲得了多方的追捧。Spark目前已成為Hadoop數(shù)據(jù)平臺中重要的數(shù)據(jù)分析工具，相比MapReduce，Spark不僅更易于編寫代碼（支持Java、Python和Scala），而且速度更快，同時，Spark還為SQL（Shark）預(yù)先構(gòu)建了hook函數(shù)，具有實時流媒體（Spark流）、機器學(xué)習(xí)（MLLib）和圖處理（GraphX）等多種功能。

MapR作為Hadoop軟件供應(yīng)商，一直努力改進Hadoop技術(shù)以增強快數(shù)據(jù)的處理能力，MapR最近宣布了它與Databricks合作——將內(nèi)存Apache Spark技術(shù)整合到Hadoop產(chǎn)品中，MapR的競爭對手Cloudera也將Spark加入了Hadoop中，Hortonworks則一直為Spark提供支持，預(yù)計在今年將為Spark提供全面的支持。

Storm在應(yīng)對快數(shù)據(jù)處理方面具有優(yōu)越的性能，使其具有很多追隨者。很Spark一樣，Storm為用戶提供各類的語言支持，包括Ruby、Python、JavaScript、Perl、PHP。

LivePerson是一家使用Storm技術(shù)的公司，為用戶提供基于Web的通信軟件。在近期的一個視頻中，Ido Shilon、LivePerson平臺工程組的團隊領(lǐng)導(dǎo)，解釋了該公司如何重建其后端基礎(chǔ)設(shè)施，以及如何使產(chǎn)品有更好的彈性等問題。

LivePerson實時系統(tǒng)的核心技術(shù)是Storm和Apache Kafka，還有Couchbase NoSQL數(shù)據(jù)庫。作為其信息進程初始化的一部分，該公司致力于收集所有會話信息，比如網(wǎng)站用戶來自哪兒，他們使用什么瀏覽器，他們訪問過哪些頁面等等，這些信息先通過Kafka流式處理，然后用Storm進行分析，最后以文檔的形式存儲在Couchbase數(shù)據(jù)庫中。最終，這三款產(chǎn)品將構(gòu)建出它們的“智慧庫”，用于分析信息。

隨著物聯(lián)網(wǎng)的發(fā)展，應(yīng)對快數(shù)據(jù)的困難將越來越大。物聯(lián)網(wǎng)會給我們帶來更多的快數(shù)據(jù)，機器產(chǎn)生的數(shù)據(jù)量會超出我們想象，而且這些數(shù)據(jù)既不直觀也不易于使用，但這一切將為那些以數(shù)據(jù)驅(qū)動業(yè)務(wù)的公司帶來更強的競爭力。誰先做好準備，誰就能在競爭中獲得優(yōu)勢。

關(guān)鍵字：hook函數(shù)Twitter 大數(shù)據(jù)