精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

LinkedIn開源Dr.elephant,Hadoop爽了

責任編輯:editor004

作者:賈凱強

2016-04-13 10:31:09

摘自:中關村在線

近日,為了提高開發人員的Hadoop和spark工作效率,LinkedIn再次做出貢獻,開源了其一款工具“大象醫生(Dr elephant)”。

在開源項目方面,LinkedIn一直在為全世界的數據工作者做出貢獻。近日,為了提高開發人員的Hadoop和spark工作效率,LinkedIn再次做出貢獻,開源了其一款工具“大象醫生(Dr.elephant)”。

LinkedIn開源Dr.elephant,Hadoop爽了

  Hadoop這只象需要幫助

Hadoop的標志是一只黃色的小象,這也是LinkedIn這款工具名字的源來所在。“大象醫生”是LinkedIn推出的一款Hadoop和Spark性能調節工具。根據LinkedIn軟件工程師Akshay Rai在其微博中的介紹,這款工具將更好的幫助用戶理解、分析并提高他們的工作效率。

Hadoop是在大數據浪潮中催生的一個強大的分布式系統開源軟件基礎構架,其常常被用于開發分布式程序,利用集群進行高速本地計算和存儲服務。Hadoop以一種一種可靠、高效、可伸縮的方式進行數據處理,并且依賴于社區服務,成本較低,因此至今火爆非常。

而Spark則是一種與Hadoop相似的開源集群計算環境,但是相比Hadoop,spark在工作負載方面的表現更為優越,也被認為是未來取代Hadoop的關鍵。但實際上,spark是一種對Hadoop的補充,可用來構建大型、低延遲數據分析應用程序。

LinkedIn開源Dr.elephant,Hadoop爽了


Spark在開源軟件中的應用場景十分寬泛

Hadoop和Spark在開源數據分析處理中占據著舉足輕重的地位。作為大數據行業的先行者,LinkedIn對此兩款軟件的依賴也非常嚴重。LinkedIn每天運行約10000 Hadoop和Spark工作。而且隨著公司業務的增長,Hadoop和Spark被應用于更多的數據分析業務。因此,開發一款可以提高工作效率的工具也就成了必要的事情。

LinkedIn開源Dr.elephant,Hadoop爽了


LinkedIn在開源項目方面非常有實力

當利用Hadoop完成大量的分布式存儲和大數據集的處理時,多個組件之間的相互作用就變得尤為重要。因此,LinkedIn開發這款工具的目的就是要確保每個組件的執行,并進行相關的優化。
  貼切用戶的名醫

大象醫生這款工具可以優化底層硬件資源、網絡基礎設施、操作系統和其他的組件,這一系列的優化設施會幫助用戶更好的控制在集群上運行的工作。

大象醫生這款工具很好的幫助提升了Hadoop的作業運營指標,通過分析和介紹幫助用戶能夠采用一種更為簡潔的方法搭建構架。該工具也使得Hadoop的工作變的更容易調整,降低開發難度,提升開發人員的生產力,提高集群工作效率。

大象醫生的指點方法也非常人性化,其會對Hadoop和Spark可配置的工作進行分析,基于規則對工作如何進行提供啟發式的見解,利用得出的結果提供優化工作的方案,從而更有效的執行。

LinkedIn開源Dr.elephant,Hadoop爽了

在LinkedIn,大象醫生已經被公司的開發人員加入了所有的開發周期,成為其中的一部分。作為一種強制性的流程,大象醫生對開發任務起到了很好的監督作用,如果開發任務成功,大象醫生會提供一個綠色信號表示通過。

在開發過程中遇到的任何問題,所有員工都需要詢問大象醫生的意見。并且,LinkedIn公司鼓勵員工利用大象醫生解決問題,優化開發流程和解決方案,獲取大象醫生的綠色信號。這成為了LinkedIn的一種文化,并且這種方式也幫助了很多員工提高了工作效率。

LinkedIn開源Dr.elephant,Hadoop爽了


綠色大象代表著成功

通常,在優化Hadoop工作的過程中常常遇到一些障礙。一個是用戶不知道如何開始執行,并且不能預估資源消耗;再者,需要審議的信息被分散在多個系統信息之中,收集信息難度較大。面對這些常出現的問題,大象醫生作用更為明顯。

大象醫生提供一個資源管理器,該管理器會提供高層次的信息并且記錄生成應用的主日志。除此外,Hadoop過程中的每個任務會有一個相應的記錄器,不同類型的任務會由不同的記錄器記錄并且生成相應的任務日志。

LinkedIn開源Dr.elephant,Hadoop爽了


大象醫生會收集用戶的元數據

大象醫生會從資源管理器為用戶列出其最近成功或失敗的應用。該工具可以收集每個用戶的元數據,為每個應用程序的工作平臺配置任務以及歷史記錄并且接連服務器。

一旦其中有元數據發生問題,大象醫生會對此進行診斷并生成報告進行標記。這些標記會依據潛在性能問題的嚴重性分為5個等級,大象醫生會根據等級對用戶分別進行提示,最終以啟發式的方法促成用戶進行整體的修改至最終任務完成。

身手全面的家庭醫生

大象醫生誕生于2014年中期。在其誕生前的幾年,LinkedIn的Hadoop團隊一直在為他們的員工進行工作流的分析,為他們提供調整意見并批準運行生產等。但是隨著用戶量的增長,這一流程變得越來越難,這也是促進LinkedIn下定決心自動化取代該流程的原因所在。于是大象醫生應運而生。

LinkedIn開源Dr.elephant,Hadoop爽了


大象醫生像家庭醫生一樣體貼

大象醫生在LinkedIn非常受歡迎,人們喜歡他的簡單。大象醫生像一個家庭醫生一樣,通過簡單的診斷可以解決工作中80%的問題。不同于普通的集群級別數據統計,大象醫生更多的聚焦于為幫助Hadoop用戶理解和提升工作水平而提供意見。

大象醫生像一個真正的醫生一樣診斷問題的根源,通過簡單的流程圖為用戶剖析問題。此外,你還可以通過大象醫生添加很多啟發式的規則,使其變得更加貼合個人使用習慣。

據悉,LinkedIn已經將大象醫生應用于多個方面,比如監測流對集群的影響,理解流運行緩慢的原因,如何調整提高流量,與之前的任務比較執行情況,流程故障排查等。

LinkedIn開源Dr.elephant,Hadoop爽了


Hadoop和Spark都將受益于大象醫生

此外,除了增加改進了啟發式算法、擴展工具和新的工作類型以外,LinkedIn還更新了更多的功能。比如大象醫生可以根據具體工作對其進行實時的指標化建議,工作集群資源使用情況可視化呈現,以及更好的調整調度以便支持更多的Spark。

大象醫生的開源對于數據工作者來講無疑是一件幸福的事情,準備好迎接他吧。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 东港市| 凯里市| 平乐县| 渭南市| 如皋市| 东兴市| 昌图县| 屏东市| 富锦市| 禄丰县| 大荔县| 平邑县| 平和县| 琼结县| 建昌县| 武隆县| 玉环县| 陵水| 明溪县| 迭部县| 榆树市| 封开县| 黄龙县| 常山县| 敖汉旗| 佛冈县| 蒙山县| 安庆市| 岢岚县| 东城区| 祁连县| 盐亭县| 砚山县| 黑水县| 厦门市| 彭水| 巴马| 海盐县| 舟曲县| 东乌珠穆沁旗| 田林县|