精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

從火種到核心,淺析Hadoop大數據用戶的演變

責任編輯:editor004

2014-04-09 17:09:37

來源:企業網D1Net

原創

Doug Cutting和Mike Cafarella一起實現了谷歌文件系統和MapReduce的一個開源版本,奠定了hadoop的基礎,Hadoop得以在大數據處理應用中廣泛應用得益于其自身在數據提取、變形和加載(ETL)方面上的天然優勢。

Doug Cutting和Mike Cafarella一起實現了谷歌文件系統和MapReduce的一個開源版本,奠定了hadoop的基礎,Hadoop得以在大數據處理應用中廣泛應用得益于其自身在數據提取、變形和加載(ETL)方面上的天然優勢。本文出自企業網D1Net,作者為我們盤點了從火種到核心,Hadoop大數據用戶的演變過程。

以下為原文:

在Hadoop發展的8年時間里,我們看到一種“使用浪潮”一代又一代用戶在相同的時間和類似的環境下使用Hadoop。每一個在數據處理時使用了Hadoop的用戶,都面臨著類似的挑戰,為了讓一切正常運轉,要么被迫協同工作,要么干脆隔離。接下來我們就討論這些客戶,看他們彼此之間有何不同。

第0代——火種

這是開頭:在谷歌2000年中的研究論文的基礎上,一些信徒奠定了廉價存儲和計算能力的商品化基礎。

Doug Cutting是教父。他跟Mike Cafarella一起,實現了谷歌文件系統和MapReduce的一個開源版本,它也是Apache Nutch項目的一部分。這兩者一起演繹出無處不在的Apache Hadoop,一個蓬勃發展的大數據生態系統。令人吃驚的是,沒有其他競爭項目或商業實體看到這項技術的潛力,并開發出與之競爭的產品。

第1代——早期

Hadoop建立后迅速吸引了一些早期用戶,包括web2.0及其后的公司Yahoo!、Facebook、Powerset、Rapleaf等,他們中的一些人比如后兩者更關注Hadoop的NoSQL組件,Hadoop的數據庫(又名HBase)。他們都需要一個能幫助他們應對現有及正在快速增長的用戶基礎平臺。他們賭一個能讓Google正常運轉的東西也能滿足他們的需求。Hadoop做到了,然后才有了今天。

更重要的是這些公司都有強大的工程背景,擁有比一般企業更多的開發人員。他們的技術專家能在公司內使用Hadoop,開發搭建于Hadoop之上的解決方案。對工程師來說,技術道路從這里開始分化:要么開始深入挖掘代碼并最終構建一個Hadoop生態系統內的項目,要么被歸到既做開發又做集群的那一類里…我們見證了Hadoop發展規則的誕生——參與其中的人員應該具備多種技能、能一肩挑起所有重擔。這很有用,因為這些孤獨戰斗的武士們都是有天賦的家伙,能夠完成他們的工作。

這兩組工程師最終都促進了Hadoop代碼庫的發展,并因此被選入Hadoop提交團隊,他們被允許檢查提交到開源庫中的代碼。我們談論的是一只約200人的團隊,他們在世界范圍內推動Hadoop的發展。

現在,其中的一些工程師已經轉到其他項目或跳到其他公司,但他們中的絕大多數仍然活躍在Hadoop圈子里。特別值得一提的是Yahoo!公司,它在最開始的時候推動了Hadoop的發展。

第2代——追隨者

在早期使用Hadoop的公司里,Hadoop成功對一批新用戶留下深刻的印象,他們通常被現在蓬勃發展的Web 3.0和社交網絡的公司雇傭。這些用戶是Hadoop的形成和時代到來的主因(雖然一個比一個年輕)。他們通常沒有你積累豐富的Java代碼,但是這些用Python, Ruby 或Scala標識著“我們寫代碼快”的家伙們,在能量飲料和無盡的時間幫助下能夠破解任何代碼,唯獨不包括java。因此,他們建立一個偉大的網站,如Last.fm、Spotify,網站把Hadoop缺乏的東西迅速匯集到一起,例如一個叫Dumbo(Last.fm)的Python MapReduce橋,或Luigi (Spotify)的新作業調度系統。

現在,這種缺乏Hadoop組件而引發的模塊化開發方式不僅發生在年輕的創業者身上,也出現在其他公司,這些公司不愿意介入Hadoop核心開發者社區里日益增長的政治化問題。LinkedIn就是一個例子,它圍繞Hadoop的核心服務開發了很多工具,它還建立輔助系統以幫助收集事件、進行隊列處理等。LinkedIn將這些項目開源,以便幫助有興趣的用戶建立新社區。

第3代——大器晚成

到目前為止,對所有Hadoop項目感興趣的下一代用戶是所謂的企業公司。他們的規模從小到大都有,他們是純粹的IT用戶,他們購買需要的軟硬件許可,架構師會將這些東西揉到解決方案、產品或服務中。但他們不會雇用一批核心開發者打補丁或建立Hadoop堆棧。事實上這些用戶大多數采用分布式安裝Hadoop,如用Cloudra的CDH以讓Hadoop運行得更快。這與在不同操作系統下做事兒是一樣的,你可以將精力集中于Hadoop之上的業務邏輯,如果遇到問題或缺乏組件,你跟供應商溝通,然后升級到新版本。

有趣的是這些用戶對年輕的Hadoop很滿意,其應用缺乏更多的企業特征。Hadoop集群被從網絡中分離并由少數幾個人管理,通常一個集群只跑一個應用,所以遇到多用戶或多負載的任務時自然會被安全地推遲。

第4代——新浪潮

我們現在看到的應用Hadoop的公司,他們等待了很長時間,因為Hadoop缺點太多所以干脆推遲上Hadoop。但隨著企業級數據中心的出現,企業也為Hadoop的運行做好了準備。等待的時間并非空等,他們認真研究Hadoop功能,花時間測試系統的各個部分,明確知道自己想要一個安全的、多用戶、多負載的數據平臺,能與現有的IT系統集成到一起,并帶有數據管理、安全審計和綜合管理功能。

我想指出的另一個重要發展是,隨著時間的推移從最開始到現在的新浪潮用戶,Hadoop項目本身已經是許多用戶共同努力的結果,現在的Hadoop已經沒有了哪怕一絲一毫初始成員的印記,在所有太常見以至于無人能夠代表的行業里Hadoop只是其中之一,唯一值得一提的有且只有Doug Cutting。

現在越來越多的企業級產品在向Hadoop轉,拉里·埃里森可不喜歡這種趨勢,因為這無益于Oracle數據庫的銷售。這其實已經成為一種讓Doug對Hadoop用戶來解釋大數據的縮水版請求。事實上大量用戶根本不了解這個圈子里最初的那批家伙。時代還在繼續進步。

第1.1代——周期性波動

這個圈子看起來封閉的地方,用我個人最喜歡的詞來形容就是:技術債務。讓我們回到第一代,但更多成長為第二代的用戶。我們能夠看到,他們積累了大量的遺留系統,對不斷進化的Hadoop生態圈而言這些系統需要不斷維護和使用。在實際商業應用中這需要投入人力資本,比如開發產品、提供服務以增加收入。與最初創建它相反的是,當時看上去偉大的想法如今卻成為一種不斷花錢的負擔。對第一代公司而言Hadoop的運行已經成為常態,他們修改代碼庫的版本以保證自己的Hadoop正常運行。對第二代公司來說,他們現在有非常豐富的工具可供選擇,這些工具不需要他們自己去開發,但仍然需要自己去維護。

所以我預測,最終這些前幾代的用戶將廢除其先前的努力,遷移到Hadoop發行版,這將幫助他們專注于自己業務,比如成功地開發數據驅動的產品和服務,而選擇Hadoop的供應商將確保他們總是有這樣做所需的數據中心。這里有一個偉大的未來!

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 历史| 金塔县| 石渠县| 邛崃市| 沅陵县| 家居| 比如县| 股票| 漳平市| 松原市| 西贡区| 祁连县| 铁岭县| 定安县| 屏东市| 彭泽县| 习水县| 和顺县| 永春县| 广州市| 谢通门县| 龙泉市| 卢氏县| 分宜县| 新野县| 桃源县| 濮阳县| 博爱县| 洞头县| 慈溪市| 托里县| 烟台市| 海林市| 云龙县| 邵武市| 辰溪县| 石门县| 舞阳县| 庐江县| 亳州市| 德安县|