精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

Twitter發布Storm-Hadoop混合系統

責任編輯:editor004

2013-09-05 09:42:09

摘自:博客

Twitter 推出一個開源系統,旨在減低批處理和流式處理之間的交換,做法是把二者組合在一起成為一個混合系統。

Twitter 推出一個開源系統,旨在減低批處理和流式處理之間的交換,做法是把二者組合在一起成為一個混合系統。Twitter 用Hadoop做批處理,用Storm做流式處理,混合系統名為Summingbird。Summingbird沒法做每一件事,不過對完成其目標任務還是很方便的。

Twitter 博客發文公布了Summingbird,公布細節的技術成分很大。但是,如果你想想Twitter 如何運行的,本質問題是很容易理解的。像Trending Topics(話題趨勢)和搜索一類的服務需要實時數據處理才會有用。但是最終還是需要準確性或許還要做一些深度分析。Storm有點像醫院里的治療類選科,而Hadoop則是長期患者護理。

以下是Summingbird項目Wiki的描述,在高層次上解釋了Summingbird如何運作,解釋得不錯,具體實現當然會稍微復雜一點:

Summingbird的混合模式可以讓 Hadoop處理大多數的數據,并且可以從Manhattan一類的只讀存儲得到服務。Storm 則只處理那些Hadoop沒有處理過的數據,那些限于延遲窗里的數據。這些實時數據來自數據存儲。實時層的誤差是有限度的,原因是Hadoop 最后會對原來的同一數據進行處理,因而會理順引進的誤差。

此類混合系統實際上越來越常見,很多公司認識到他們沒辦法單靠Hadoop在實時世界生存。我們以前報道過不少公司——其中有Gravity,LinkedIn和Netflix——他們也做過類似的東西。Summingbird也許有點不太一樣,原因是Summingbird要處理的數據同時來自Hadoop和Storm,和管道式地處理幾個不同的系統不一樣。但是網絡公司卻需要方法保證不會用速度來換取準確度,或反之。

我們沒找到Twitter 的人來特別討論Summingbird,不過我們的數據陣容還是很引人注目的,也許可以深刻說明這東西為什么重要。他們來自PayPal、MailChimp和LinkedIn這些地方,也有的是來自像Yahoo和NSA這樣的地方的企業家。

再多講一點點Summingbird。Twitter 實際上將其描述為“Streaming MapReduce”,原因是Summingbird的重點是作業聚合。網上有Twitter 的Sam Ritchie六月做的一個演講稿,大家可以看看。Yahoo的開源項目 Storm-YARN其實是在Hadoop群里面運行Storm,可以讓Storm訪問基于Hadoop的數據存儲,也值得看看。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 福安市| 齐齐哈尔市| 滁州市| 涿鹿县| 太原市| 彭山县| 确山县| 武定县| 康马县| 长治县| 塔城市| 江安县| 扶余县| 台东市| 武夷山市| 馆陶县| 乐业县| 酉阳| 吉林市| 宾阳县| 萨迦县| 静安区| 呼玛县| 阜南县| 芜湖市| 鄢陵县| 蚌埠市| 平遥县| 乌苏市| 花莲县| 习水县| 松阳县| 福海县| 西平县| 运城市| 汤原县| 南通市| 安化县| 嘉禾县| 莱芜市| 晋江市|