當前位置：大數據 → 數據分析 → 正文

實時流處理加速大數據分析用戶有哪些期待？

責任編輯：editor005 作者：Craig Stedman |來源：企業網D1Net 2016-11-07 14:56:26 本文摘自：TechTarget中國

對于大多數組織來說，他們沒有時間處理和分析大數據系統中的信息。越來越多的IT供應商在發布支持實時流分析處理的技術和軟件包。

Comcast公司是實時處理應用的領先者。這家電視和電影巨頭把數據科學團隊使用的Hadoop從300個計算節點擴展到了480個。此外，Comcast公司計劃把系統升級，使用Apache Kudu。這是一款開源數據存儲包，專為處理流數據的實時分析應用而設計，目前更新頻率很高。

Kiran Muglurmath是這家公司的數據科學兼大數據分析執行董事，他說，對于他們來說，更新能力是一件大事。我們的Hadoop集群是在今年早些時候搭建的，目前已經承載了PB級信息量，包括從電視機頂盒收集來的數據，這些數據記錄了客戶看電視的活動情況和機頂盒自身運行情況。但是Muglurmath的團隊需要保持數據盡可能實時最新以便有效分析，這就意味著需要通過表掃描作為新信息輸入途徑來更新個人記錄。

Sridhar Alla是該公司負責大數據架構的設計總監，他認為要在Hadoop分布式文件系統（HDFS）及HBase數據庫中實現上述目標會非常耗時，對于PB級別數據處理需要的時間太長了。而Kudu產品在過去三個月來極大地加速了概念驗證項目的處理過程。Alla在Strata+Hadoop 2016全球大會上提到，在測試環境中，Kudu每秒鐘可以掃描超過二百萬行數據，它還能以最快速度把數據寫入磁盤。

實時處理漫長等待的時代要結束了

Kudu技術框架是Hadoop供應商Cloudera公司去年創建的，之后開放了源代碼。Apache軟件基金上周發布了Kudu1.0.0，這是該產品發布的第一個產品版，Comcast公司一直在等待Kudu發布這一版。

Muglurmath在那次會后表示，基于Cloudera擴展的Hadoop集群應該會在十月末完成。Kudu將配置到所有計算節點以及HDFS上，HDFS將會繼續存儲其它類型的數據。數據科學團隊還計劃使用Impala，這是一款基于Hadoop的SQL查詢引擎，也是由Cloudera公司開發，它可以把HDFS和Kudu的數據連接起來做分析。

Dell EMC是IT供應商戴爾技術公司的數據存儲單元，它也在追隨實時流技術的方向以支持其公司內部分析工作。

他們的IT團隊使用Spark處理引擎和其它數據攝取工具處理實時數據與客戶的交互，把數據轉入各種數據庫中，包括：Cassandra，GemFire，MemSQL和PostgreSQL。Darryl Smith是該公司首席數據平臺架構師，他說，系統會針對數據運行自動算法，生成分鐘級的客戶體驗評分，幫助指導戴爾 EMC的銷售團隊在銷售訂購技術支持服務時參考。

客戶交互數據還會存入Hadoop數據湖中，不過那是用于長期分析和趨勢分析的。Smith說，對于客戶評分應用，不能只是把所有數據扔到Hadoop中，然后讓銷售代表去解讀。把實時數據匯集和形成可指導行動的分析建議不是一回事。

這意味著相同的數據被處理和存儲在戴爾EMC大數據架構中的不同位置，但是Smith并不認為這是壞事。他開玩笑說：“這么說并不是因為我是在為存儲公司工作（因此希望推銷多用存儲），如果你可以從數據獲取價值，你可能需要把數據存儲在多個地方，因為你會以不同的方式消費掉這些數據。”

戴爾EMC采用了開源Kafka消息隊列工具作為實時流處理的工具之一，用來把數據推送到MemSQL。MemSQL是專為實時應用設計的一款內存數據庫。MemSQL公司本周發布了5.5版本，更新的版本支持Kafka連接創建數據管道，這意味著數據傳輸只能處理一次，保證交付而且不會丟失數據。Smith說，這種保證對于戴爾EMC這種實時分析處理來說是至關重要的。

容忍一些實時數據丟失

對于eBay公司來說，保證數據交付并不是必須的。這家在線拍賣和電子商務公司使用了另一款開源軟件Pulsar，這也是專門為處理和分析流數據而設計的，可以分析用戶活動數據從而推動eBay網站的個性化服務。在過去三年里構建和擴展實時架構時，eBay的IT團隊認為，他們不需要花額外的開發投入來構建保障交付的數據管道。

Tony Ng是eBay公司用戶行為分析及數據服務技術總監，他說：“在這種情況中，我們是可以容忍丟失一點數據的。”在數據流進來的時候，Ng的團隊確實不需要疲于奔命。例如，目標之一是檢測網站機器人，把它們與真正訪問生成的活動數據區分開來，避免那些數據干擾真實用戶的個性化行為分析。這需要頻繁更新eBay分析算法內置的機器人檢測規則。

該公司實時流處理還使用了Kafka作為傳輸機制，還用了其它幾種開源技術：Storm、Kylin和Druid處理和存儲數據。Ng發現，流式操作與以前eBay批量加載數據到Hadoop集群和Teradata數據倉庫的方式有很大不同。

他說：“對這些數據的處理量是有限制的。這些數據最終會批量清理和整合傳給分析應用，但是問題是需求是實時，我們希望保持實時性。”

Mark Madsen是Third Nature公司負責數據管理和分析咨詢的總裁，他說，把實時數據流和分析放到一起的架構本身就是很復雜的。

用戶還可以使用其它流技術，例如：Spark的Spark流處理模塊和Apache Flink（新崛起可替代Spark的產品）但是，把較多工具組裝到一起通常需要做更多整合工作。Madsen說：“個別IT供應商可以解決一部分問題，但是要解決所有問題是很難的。”

關鍵字：大數據