精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據數據分析 → 正文

實時流處理加速大數據分析 用戶有哪些期待?

責任編輯:editor005 作者:Craig Stedman |來源:企業網D1Net  2016-11-07 14:56:26 本文摘自:TechTarget中國

對于大多數組織來說,他們沒有時間處理和分析大數據系統中的信息。越來越多的IT供應商在發布支持實時流分析處理的技術和軟件包。

Comcast公司是實時處理應用的領先者。這家電視和電影巨頭把數據科學團隊使用的Hadoop從300個計算節點擴展到了480個。此外,Comcast公司計劃把系統升級,使用Apache Kudu。這是一款開源數據存儲包,專為處理流數據的實時分析應用而設計,目前更新頻率很高。

Kiran Muglurmath是這家公司的數據科學兼大數據分析執行董事,他說,對于他們來說,更新能力是一件大事。我們的Hadoop集群是在今年早些時候搭建的,目前已經承載了PB級信息量,包括從電視機頂盒收集來的數據,這些數據記錄了客戶看電視的活動情況和機頂盒自身運行情況。但是Muglurmath的團隊需要保持數據盡可能實時最新以便有效分析,這就意味著需要通過表掃描作為新信息輸入途徑來更新個人記錄。

Sridhar Alla是該公司負責大數據架構的設計總監,他認為要在Hadoop分布式文件系統(HDFS)及HBase數據庫中實現上述目標會非常耗時,對于PB級別數據處理需要的時間太長了。而Kudu產品在過去三個月來極大地加速了概念驗證項目的處理過程。Alla在Strata+Hadoop 2016全球大會上提到,在測試環境中,Kudu每秒鐘可以掃描超過二百萬行數據,它還能以最快速度把數據寫入磁盤。

實時處理漫長等待的時代要結束了

Kudu技術框架是Hadoop供應商Cloudera公司去年創建的,之后開放了源代碼。Apache軟件基金上周發布了Kudu1.0.0,這是該產品發布的第一個產品版,Comcast公司一直在等待Kudu發布這一版。

Muglurmath在那次會后表示,基于Cloudera擴展的Hadoop集群應該會在十月末完成。Kudu將配置到所有計算節點以及HDFS上,HDFS將會繼續存儲其它類型的數據。數據科學團隊還計劃使用Impala,這是一款基于Hadoop的SQL查詢引擎,也是由Cloudera公司開發,它可以把HDFS和Kudu的數據連接起來做分析。

Dell EMC是IT供應商戴爾技術公司的數據存儲單元,它也在追隨實時流技術的方向以支持其公司內部分析工作。

他們的IT團隊使用Spark處理引擎和其它數據攝取工具處理實時數據與客戶的交互,把數據轉入各種數據庫中,包括:Cassandra,GemFire,MemSQL和PostgreSQL。Darryl Smith是該公司首席數據平臺架構師,他說,系統會針對數據運行自動算法,生成分鐘級的客戶體驗評分,幫助指導戴爾 EMC的銷售團隊在銷售訂購技術支持服務時參考。

客戶交互數據還會存入Hadoop數據湖中,不過那是用于長期分析和趨勢分析的。Smith說,對于客戶評分應用,不能只是把所有數據扔到Hadoop中,然后讓銷售代表去解讀。把實時數據匯集和形成可指導行動的分析建議不是一回事。

這意味著相同的數據被處理和存儲在戴爾EMC大數據架構中的不同位置,但是Smith并不認為這是壞事。他開玩笑說:“這么說并不是因為我是在為存儲公司工作(因此希望推銷多用存儲),如果你可以從數據獲取價值,你可能需要把數據存儲在多個地方,因為你會以不同的方式消費掉這些數據。”

戴爾EMC采用了開源Kafka消息隊列工具作為實時流處理的工具之一,用來把數據推送到MemSQL。MemSQL是專為實時應用設計的一款內存數據庫。MemSQL公司本周發布了5.5版本,更新的版本支持Kafka連接創建數據管道,這意味著數據傳輸只能處理一次,保證交付而且不會丟失數據。Smith說,這種保證對于戴爾EMC這種實時分析處理來說是至關重要的。

容忍一些實時數據丟失

對于eBay公司來說,保證數據交付并不是必須的。這家在線拍賣和電子商務公司使用了另一款開源軟件Pulsar,這也是專門為處理和分析流數據而設計的,可以分析用戶活動數據從而推動eBay網站的個性化服務。在過去三年里構建和擴展實時架構時,eBay的IT團隊認為,他們不需要花額外的開發投入來構建保障交付的數據管道。

Tony Ng是eBay公司用戶行為分析及數據服務技術總監,他說:“在這種情況中,我們是可以容忍丟失一點數據的。”在數據流進來的時候,Ng的團隊確實不需要疲于奔命。例如,目標之一是檢測網站機器人,把它們與真正訪問生成的活動數據區分開來,避免那些數據干擾真實用戶的個性化行為分析。這需要頻繁更新eBay分析算法內置的機器人檢測規則。

該公司實時流處理還使用了Kafka作為傳輸機制,還用了其它幾種開源技術:Storm、Kylin和Druid處理和存儲數據。Ng發現,流式操作與以前eBay批量加載數據到Hadoop集群和Teradata數據倉庫的方式有很大不同。

他說:“對這些數據的處理量是有限制的。這些數據最終會批量清理和整合傳給分析應用,但是問題是需求是實時,我們希望保持實時性。”

Mark Madsen是Third Nature公司負責數據管理和分析咨詢的總裁,他說,把實時數據流和分析放到一起的架構本身就是很復雜的。

用戶還可以使用其它流技術,例如:Spark的Spark流處理模塊和Apache Flink(新崛起可替代Spark的產品)但是,把較多工具組裝到一起通常需要做更多整合工作。Madsen說:“個別IT供應商可以解決一部分問題,但是要解決所有問題是很難的。”

關鍵字:大數據

本文摘自:TechTarget中國

x 實時流處理加速大數據分析  用戶有哪些期待? 掃一掃
分享本文到朋友圈
當前位置:大數據數據分析 → 正文

實時流處理加速大數據分析 用戶有哪些期待?

責任編輯:editor005 作者:Craig Stedman |來源:企業網D1Net  2016-11-07 14:56:26 本文摘自:TechTarget中國

對于大多數組織來說,他們沒有時間處理和分析大數據系統中的信息。越來越多的IT供應商在發布支持實時流分析處理的技術和軟件包。

Comcast公司是實時處理應用的領先者。這家電視和電影巨頭把數據科學團隊使用的Hadoop從300個計算節點擴展到了480個。此外,Comcast公司計劃把系統升級,使用Apache Kudu。這是一款開源數據存儲包,專為處理流數據的實時分析應用而設計,目前更新頻率很高。

Kiran Muglurmath是這家公司的數據科學兼大數據分析執行董事,他說,對于他們來說,更新能力是一件大事。我們的Hadoop集群是在今年早些時候搭建的,目前已經承載了PB級信息量,包括從電視機頂盒收集來的數據,這些數據記錄了客戶看電視的活動情況和機頂盒自身運行情況。但是Muglurmath的團隊需要保持數據盡可能實時最新以便有效分析,這就意味著需要通過表掃描作為新信息輸入途徑來更新個人記錄。

Sridhar Alla是該公司負責大數據架構的設計總監,他認為要在Hadoop分布式文件系統(HDFS)及HBase數據庫中實現上述目標會非常耗時,對于PB級別數據處理需要的時間太長了。而Kudu產品在過去三個月來極大地加速了概念驗證項目的處理過程。Alla在Strata+Hadoop 2016全球大會上提到,在測試環境中,Kudu每秒鐘可以掃描超過二百萬行數據,它還能以最快速度把數據寫入磁盤。

實時處理漫長等待的時代要結束了

Kudu技術框架是Hadoop供應商Cloudera公司去年創建的,之后開放了源代碼。Apache軟件基金上周發布了Kudu1.0.0,這是該產品發布的第一個產品版,Comcast公司一直在等待Kudu發布這一版。

Muglurmath在那次會后表示,基于Cloudera擴展的Hadoop集群應該會在十月末完成。Kudu將配置到所有計算節點以及HDFS上,HDFS將會繼續存儲其它類型的數據。數據科學團隊還計劃使用Impala,這是一款基于Hadoop的SQL查詢引擎,也是由Cloudera公司開發,它可以把HDFS和Kudu的數據連接起來做分析。

Dell EMC是IT供應商戴爾技術公司的數據存儲單元,它也在追隨實時流技術的方向以支持其公司內部分析工作。

他們的IT團隊使用Spark處理引擎和其它數據攝取工具處理實時數據與客戶的交互,把數據轉入各種數據庫中,包括:Cassandra,GemFire,MemSQL和PostgreSQL。Darryl Smith是該公司首席數據平臺架構師,他說,系統會針對數據運行自動算法,生成分鐘級的客戶體驗評分,幫助指導戴爾 EMC的銷售團隊在銷售訂購技術支持服務時參考。

客戶交互數據還會存入Hadoop數據湖中,不過那是用于長期分析和趨勢分析的。Smith說,對于客戶評分應用,不能只是把所有數據扔到Hadoop中,然后讓銷售代表去解讀。把實時數據匯集和形成可指導行動的分析建議不是一回事。

這意味著相同的數據被處理和存儲在戴爾EMC大數據架構中的不同位置,但是Smith并不認為這是壞事。他開玩笑說:“這么說并不是因為我是在為存儲公司工作(因此希望推銷多用存儲),如果你可以從數據獲取價值,你可能需要把數據存儲在多個地方,因為你會以不同的方式消費掉這些數據。”

戴爾EMC采用了開源Kafka消息隊列工具作為實時流處理的工具之一,用來把數據推送到MemSQL。MemSQL是專為實時應用設計的一款內存數據庫。MemSQL公司本周發布了5.5版本,更新的版本支持Kafka連接創建數據管道,這意味著數據傳輸只能處理一次,保證交付而且不會丟失數據。Smith說,這種保證對于戴爾EMC這種實時分析處理來說是至關重要的。

容忍一些實時數據丟失

對于eBay公司來說,保證數據交付并不是必須的。這家在線拍賣和電子商務公司使用了另一款開源軟件Pulsar,這也是專門為處理和分析流數據而設計的,可以分析用戶活動數據從而推動eBay網站的個性化服務。在過去三年里構建和擴展實時架構時,eBay的IT團隊認為,他們不需要花額外的開發投入來構建保障交付的數據管道。

Tony Ng是eBay公司用戶行為分析及數據服務技術總監,他說:“在這種情況中,我們是可以容忍丟失一點數據的。”在數據流進來的時候,Ng的團隊確實不需要疲于奔命。例如,目標之一是檢測網站機器人,把它們與真正訪問生成的活動數據區分開來,避免那些數據干擾真實用戶的個性化行為分析。這需要頻繁更新eBay分析算法內置的機器人檢測規則。

該公司實時流處理還使用了Kafka作為傳輸機制,還用了其它幾種開源技術:Storm、Kylin和Druid處理和存儲數據。Ng發現,流式操作與以前eBay批量加載數據到Hadoop集群和Teradata數據倉庫的方式有很大不同。

他說:“對這些數據的處理量是有限制的。這些數據最終會批量清理和整合傳給分析應用,但是問題是需求是實時,我們希望保持實時性。”

Mark Madsen是Third Nature公司負責數據管理和分析咨詢的總裁,他說,把實時數據流和分析放到一起的架構本身就是很復雜的。

用戶還可以使用其它流技術,例如:Spark的Spark流處理模塊和Apache Flink(新崛起可替代Spark的產品)但是,把較多工具組裝到一起通常需要做更多整合工作。Madsen說:“個別IT供應商可以解決一部分問題,但是要解決所有問題是很難的。”

關鍵字:大數據

本文摘自:TechTarget中國

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 长春市| 襄城县| 邓州市| 芜湖县| 梅州市| 尼勒克县| 黄冈市| 南宫市| 舟曲县| 石景山区| 安陆市| 灵石县| 延寿县| 海伦市| 冀州市| 敦化市| 孙吴县| 民乐县| 喜德县| 滕州市| 通渭县| 琼结县| 阜新市| 昌宁县| 松溪县| 宣恩县| 那坡县| 内丘县| 尚志市| 砀山县| 开鲁县| 宁夏| 山阴县| 铜陵市| 武平县| 陵川县| 通江县| 屏南县| 社会| 郁南县| 文水县|