對于大多數組織來說,他們沒有時間處理和分析大數據系統中的信息。越來越多的IT供應商在發布支持實時流分析處理的技術和軟件包。
Comcast公司是實時處理應用的領先者。這家電視和電影巨頭把數據科學團隊使用的Hadoop從300個計算節點擴展到了480個。此外,Comcast公司計劃把系統升級,使用Apache Kudu。這是一款開源數據存儲包,專為處理流數據的實時分析應用而設計,目前更新頻率很高。
Kiran Muglurmath是這家公司的數據科學兼大數據分析執行董事,他說,對于他們來說,更新能力是一件大事。我們的Hadoop集群是在今年早些時候搭建的,目前已經承載了PB級信息量,包括從電視機頂盒收集來的數據,這些數據記錄了客戶看電視的活動情況和機頂盒自身運行情況。但是Muglurmath的團隊需要保持數據盡可能實時最新以便有效分析,這就意味著需要通過表掃描作為新信息輸入途徑來更新個人記錄。
Sridhar Alla是該公司負責大數據架構的設計總監,他認為要在Hadoop分布式文件系統(HDFS)及HBase數據庫中實現上述目標會非常耗時,對于PB級別數據處理需要的時間太長了。而Kudu產品在過去三個月來極大地加速了概念驗證項目的處理過程。Alla在Strata+Hadoop 2016全球大會上提到,在測試環境中,Kudu每秒鐘可以掃描超過二百萬行數據,它還能以最快速度把數據寫入磁盤。
實時處理漫長等待的時代要結束了Kudu技術框架是Hadoop供應商Cloudera公司去年創建的,之后開放了源代碼。Apache軟件基金上周發布了Kudu1.0.0,這是該產品發布的第一個產品版,Comcast公司一直在等待Kudu發布這一版。
Muglurmath在那次會后表示,基于Cloudera擴展的Hadoop集群應該會在十月末完成。Kudu將配置到所有計算節點以及HDFS上,HDFS將會繼續存儲其它類型的數據。數據科學團隊還計劃使用Impala,這是一款基于Hadoop的SQL查詢引擎,也是由Cloudera公司開發,它可以把HDFS和Kudu的數據連接起來做分析。
Dell EMC是IT供應商戴爾技術公司的數據存儲單元,它也在追隨實時流技術的方向以支持其公司內部分析工作。
他們的IT團隊使用Spark處理引擎和其它數據攝取工具處理實時數據與客戶的交互,把數據轉入各種數據庫中,包括:Cassandra,GemFire,MemSQL和PostgreSQL。Darryl Smith是該公司首席數據平臺架構師,他說,系統會針對數據運行自動算法,生成分鐘級的客戶體驗評分,幫助指導戴爾 EMC的銷售團隊在銷售訂購技術支持服務時參考。
客戶交互數據還會存入Hadoop數據湖中,不過那是用于長期分析和趨勢分析的。Smith說,對于客戶評分應用,不能只是把所有數據扔到Hadoop中,然后讓銷售代表去解讀。把實時數據匯集和形成可指導行動的分析建議不是一回事。
這意味著相同的數據被處理和存儲在戴爾EMC大數據架構中的不同位置,但是Smith并不認為這是壞事。他開玩笑說:“這么說并不是因為我是在為存儲公司工作(因此希望推銷多用存儲),如果你可以從數據獲取價值,你可能需要把數據存儲在多個地方,因為你會以不同的方式消費掉這些數據。”
戴爾EMC采用了開源Kafka消息隊列工具作為實時流處理的工具之一,用來把數據推送到MemSQL。MemSQL是專為實時應用設計的一款內存數據庫。MemSQL公司本周發布了5.5版本,更新的版本支持Kafka連接創建數據管道,這意味著數據傳輸只能處理一次,保證交付而且不會丟失數據。Smith說,這種保證對于戴爾EMC這種實時分析處理來說是至關重要的。
容忍一些實時數據丟失對于eBay公司來說,保證數據交付并不是必須的。這家在線拍賣和電子商務公司使用了另一款開源軟件Pulsar,這也是專門為處理和分析流數據而設計的,可以分析用戶活動數據從而推動eBay網站的個性化服務。在過去三年里構建和擴展實時架構時,eBay的IT團隊認為,他們不需要花額外的開發投入來構建保障交付的數據管道。
Tony Ng是eBay公司用戶行為分析及數據服務技術總監,他說:“在這種情況中,我們是可以容忍丟失一點數據的。”在數據流進來的時候,Ng的團隊確實不需要疲于奔命。例如,目標之一是檢測網站機器人,把它們與真正訪問生成的活動數據區分開來,避免那些數據干擾真實用戶的個性化行為分析。這需要頻繁更新eBay分析算法內置的機器人檢測規則。
該公司實時流處理還使用了Kafka作為傳輸機制,還用了其它幾種開源技術:Storm、Kylin和Druid處理和存儲數據。Ng發現,流式操作與以前eBay批量加載數據到Hadoop集群和Teradata數據倉庫的方式有很大不同。
他說:“對這些數據的處理量是有限制的。這些數據最終會批量清理和整合傳給分析應用,但是問題是需求是實時,我們希望保持實時性。”
Mark Madsen是Third Nature公司負責數據管理和分析咨詢的總裁,他說,把實時數據流和分析放到一起的架構本身就是很復雜的。
用戶還可以使用其它流技術,例如:Spark的Spark流處理模塊和Apache Flink(新崛起可替代Spark的產品)但是,把較多工具組裝到一起通常需要做更多整合工作。Madsen說:“個別IT供應商可以解決一部分問題,但是要解決所有問題是很難的。”