雖然Hadoop是眼下熱鬧非凡的大數據領域最熱話題,但它肯定不是可以解決數據中心和數據管理方面所有難題的靈丹妙藥。考慮到這一點,我們暫且不想猜測這個平臺未來會如何,也不想猜測各種數據密集型解決方案的開源技術未來會如何,而是關注讓Hadoop越來越火的實際應用案例。
案例之一:eBay的Hadoop環境
eBay分析平臺開發小組的Anil Madan討論了這家拍賣行業的巨擘在如何充分發揮Hadoop平臺的強大功能,充分利用每天潮水般涌入的8TB至10TB數據。
雖然eBay只是幾年前才開始向生產型Hadoop環境轉移,但它卻是早在2007年就率先開始試用Hadoop的大規模互聯網公司之一,當時它使用一個小型集群來處理機器學習和搜索相關性方面的問題。這些涉及的是少量數據;Madan表示,但是就這個試驗項目而言很有用;不過隨著數據日益增加、用戶活動日益頻繁,eBay想充分利用幾個部門和整個用戶群當中的數據。
eBay的第一個大型Hadoop集群是500個節點組成的Athena,這個專門建造的生產型平臺可以滿足eBay內部幾個部門的要求。該集群只用了不到三個月就建成了,開始高速處理預測模型、解決實時問題;后來不斷擴大規模,以滿足其他要求。
Madan表示,該集群現由eBay的許多小組使用,既用于日常生產作業,又用于一次性作業。小組使用Hadoop的公平調度器(Fair Scheduler)來管理資源分配、為各小組定義作業池、賦予權重、限制每個用戶和小組的并行作業,并且設定搶占超時和延遲調度。
雖然Madan經常在臺上暢談Hadoop具有的實際價值,他也經常提到工作小組在擴建eBay基礎設施時面臨、繼續竭力克服的幾個主要挑戰。下面列出了與Hadoop有關的一系列挑戰:
可擴展性
就現有版本而言,主服務器NameNde存在可擴展性問題。由于集群的文件系統不斷擴大,它占用的內存空間也隨之擴大,因為它把整個元數據保存在內存中。1PB的存儲容量大概需要 1GB的內存容量。幾種切實可行的解決方案是分層命名空間分區,或者結合使用Zkeeper和HBase,實現元數據管理。
可用性
NameNde的可用性對生產型工作負載來說至關重要。開源社區正致力于冷備份(cld standby)、暖備份(warm standby)和熱備份(ht standby)這幾個選項,比如檢查點(Checkpint)節點和備份(Backup)節點;從輔助NameNde切換avatar的Avatar節點;以及日志元數據復制技術。我們正在評估這些方案,以建立我們的生產型集群。
數據發現
在天生不支持數據結構的系統上支持數據監管、發現和模式管理。一個新項目準備把Hive的元數據存儲區和wl合并成一個新系統,名為Hwl。我們旨在努力把該系統連接到我們的分析平臺中,那樣我們的用戶很容易跨不同的數據系統發現數據。
數據移動
我們正在努力開發發布/訂閱數據移動工具,以便跨我們不同的子系統,如數據倉庫和Hadoop分布式文件系統(HDFS),支持數據拷貝和調和。
策略
通過配額(目前的Hadoop配額需要做一些改進)進行存儲容量管理,能夠制定良好的保留、歸檔和備份等策略。我們正根據集群的工作負載和特點,跨不同的集群努力定義這些策略。
度量指標、度量指標、度量指標
我們正在開發成熟可靠的工具,以便生成度量指標,用于度量數據來源、使用情況、預算編制和利用率。一些Hadoop企業服務器體現的現有度量指標有的不夠全面,有的只是臨時的,很難看清楚集群使用模式。
案例之二:通用電氣借助Hadoop分析用戶的情感
據通用電氣公司(GE)Hadoop技術部的產品經理Linden Hillenbrand聲稱,情感分析很棘手--它不僅僅是個技術挑戰,還是個業務挑戰。
在通用電氣公司,數字媒體小組和Hadoop小組通力合作,為高度依賴高級情感分析功能的營銷部門開發了一款交互式應用軟件。
此舉目的在于,讓營銷小組能夠通過我們開展的各項活動,評估外界對通用電氣所持的看法(正面看法、中立看法或負面看法)。Hadoop負責支持該應用軟件的情感分析部分,這部分對Hadoop來說是一種高度密集的文本挖掘應用環境。
他聲稱,利用 Hadoop應對技術層面的這些挑戰帶來了重大改進。
為了強調這一點,Hillenbrand提到了公司在情感分析方面采取的獨特NSQL方法,這一方法帶來了80%的準確率,也是Hadoop這個核心平臺的基礎,確保公司未來在數據挖掘方面求得發展。正如下圖表明的那樣,通用電氣在利用數據挖掘以及新平臺帶來一種新的洞察力方面有了大幅改進。
Hillenbrand表示,就通用電氣在內部對Hadoop未來的展望而言,情感分析項目取得了雙重成功。它不僅為這家《財富》50強公司的營銷小組提供了更準確的結果,還為這家公司的下一代深度數據挖掘、分析和可視化等項目奠定了基礎。
案例之三:旅游行業的典型應用案例
Orbitz Worldwide旗下的全球消費者旅游品牌每天要處理數以百萬計的搜索和交易。
通過關系數據庫等傳統系統,存儲和處理這類活動生成的越來越龐大的數據量變得越來越難,因而這家公司求助于Hadoop,幫助消除部分復雜性。
這家公司的首席軟件工程師Jnathan Seidman和另一名工程師Ramesh Venkataramiah一向樂于討論這家旅游網站的基礎設施如何加以管理。他們倆在最近面向多位聽眾的一次交流中討論了Hive的作用,尤其是對一些關鍵搜索功能所起的作用。
Hadoop和Hive幫助這家在線旅游中心處理各項事務:改進讓游客可以迅速篩選和分類酒店的功能,到查看更宏觀內部趨勢的功能,不一而足。據這兩位工程師聲稱,rbitz的大數據問題讓它成為運用Hadoop的"典型"。他們倆表示,面對很分散的服務網絡--這些服務每天生成數百GB大小的當天日志,處理每天數百萬的這些搜索和交易,這絕非易事。
他們倆演示了如何利用Hadoop和Hive來處理數據;可能更重要的是,演示了什么使得這家公司的特定問題最適合用Hadoop來處理(因為需要提醒的是一點,并非所有業務都有Hadoop的用武之地)。
案例之四:Facebook更新Hadoop的狀態
雖然一些公司和機構對其龐大的Hadoop系統秘而不宣,但是就已知存在的系統而言,Facebook的數據倉庫Hadoop集群已成為世界上已知規模最大的Hadoop存儲集群。
下面是關于這個單一HDFS集群的一些詳細信息:
單一HDFS集群中存儲容量達21PB
2000個機器
每個機器12TB(有幾個機器是每個24TB)
1200個機器每個有8個處理器核心,800個機器每個有16個核心
每個機器有32GB內存
每個機器有15個映射/化簡(map-reduce)任務
已配置存儲容量總共超過21PB,大于之前大名鼎鼎的雅虎集群(14PB)。在Hadoop的早期,Facebook就與另外幾個互聯網巨擘,充分利用這種框架來管理其不斷發展的業務。
由于每月活躍用戶超過4億個,頁面瀏覽量超過5000億人次,每個月共享的內容多達250億則,對于自稱能夠處理大數據問題的任何技術而言,Facebook是再合適不過的應用環境。
Facebook的工程師與雅虎的Hadoop工程小組密切合作,把Hadoop推向更高的可擴展性和性能。Facebook有許多Hadoop集群,其中最大的一個集群用于數據倉庫。下面一些統計數字描述了Facebook的數據倉庫Hadoop集群的幾個特點:
每天增加12TB的壓縮數據
每天掃描800TB的壓縮數據
每天處理25000個映射/化簡作業
HDFS里面有6500萬個文件
30000個客戶機同時訪問HDFS NameNde
Facebook的軟件工程師、開源倡導者Jnathan Gray演示了Facebook如何一直使用更龐大Hadoop平臺架構的一部分:HBase,支持生產環境下的在線應用程序和離線應用程序。
雖然幻燈片有點深奧,又針對特定環境,但是大致描述了HBase適合的那種復雜數據環境;而更重要的是,描述了這個環境需要怎樣的一些重大調整和專門知識才加以管理。HBase僅僅是Facebk管理海量數據、為用戶提供異常智能化服務的方法之一。
案例之五:Infchimps處理一百萬倍的混合(mashup)
問一下Phillip "Flip" Krmer哪里能找到幾乎任何的列表、電子表格或數據集,他會很高興地向你介紹他的公司InfChimps,這家公司自稱是"全世界的數據倉庫"。
每個月都有成千上萬的人訪問該網站進行搜索,查詢特定的數據。最近,該網站的用戶在查詢推特和社交網絡數據。其較為傳統的數據集包括其他熱門數據,比如金融、體育比賽和股票數據。
Krmer表示,當然,用戶們在別的地方也能查詢這些數據集,但是他們常常訪問InfChimps,未必是由于缺少數據或者很難獲得數據,而是由于別處獲取數據的成本極其高昂,或者數據采用了不適合使用的格式--至少對Infchimps面向的開發人員這個客戶群來說是這樣。
這家公司正在裝配一個數據存儲庫,里面含有成千上萬的公共和商業數據集,許多數據集達到了TB級。現代機器學習算法通過借助數據的一般結構,深入分析數據;即便數據有機地嵌入到鏈接數據集里面,也是如此。當然,所有這些工作會帶來一個復雜的數據環境,勢必需要一種能夠跨多個對象運行的平臺,無論對內部(數據收集和管理方面)來說,還是對平臺用戶來說,都是如此。
Infchimps讓用戶們可以借助使用Hadoop以及亞馬遜云和Rackspace云的基礎設施,充分利用數據。你可以看到,這家公司充分利用了彈性Hadoop,還利用了亞馬遜網絡服務(AWS)和Rackspace,同時在后端上使用Hadoop滿足自己的要求。
這家公司讓用戶可以隨時獲取自己所需的Hadoop資源,無論這些是預定資源、臨時資源還是專用資源。這種靈活的功能能夠支持夜間批處理作業、合規或測試集群、科學系統和生產型系統。加上為基于Hadoop的功能新增了Irnfan(Infchimps的自動化系統配置工具)這一基礎,彈性Hadoop讓用戶可以專門為手頭的作業調整資源。Infchimps聲稱,這簡化了根據需要時,映射或化簡專門機器、高計算機器、高內存機器等機器的過程。
案例之六:Hadoop在挖掘軍事情報方面的作用
Digital Reasning聲稱,就其中一個核心市場:美國政府而言,它在"自動理解大數據"方面一路領跑。
Digital Reasning致力于實現這個目標,為此最近竭力梳理來自美國情報部門的海量的非結構化文本數據,尋找可能危及國家安全的威脅。這款專門定制的軟件用于面向實體的分析(entity-riented analytics),已成為Synthesys技術的核心,這項技術則是其業務的立足之本。
該公司使用Cludera的發行版,而且其Synthesys平臺支持分布式的、面向列的開源數據庫HBase。據Digital Reasning聲稱,"這種集成讓我們得以獲得超大規模處理功能,并且為政府和商業市場提供復雜數據分析能力。"
公司首席執行官Tim Estes在幻燈片中具體介紹了公司的基礎設施和這一使用場景:
"Cludera及其Hadoop專家小組與我們緊密合作,在復雜分析領域取得了新的突破。Cludera和Digital Reasning共同為要求極高的客戶提供了針對極其龐大的不同數據集,識別和關聯實體的功能,"Digital Reasning的首席執行官Tim Estes如是說。
他繼續說,以前,只能"孤立地分析關鍵情報數據孤島",但是Synthesys集成了Cludera的Apache Hadoop(CDH3)和HBase支持功能后,我們可以把用于自動理解數據的算法與能以前所未有的方式處理規模和復雜性,把各部分聯系起來的平臺結合起來。"