大數據正如火如荼,是繼云計算之后的又一熱詞。大數據具有前所未有的大量化、快速化和多樣化三大特點,這些是許多新技術背后的驅動力,這些技術可幫助企業處理大數據帶來的多種新問題。
在諸多的新興解決方案中,Hadoop和MapReduce被視為是兩種大有希望的方法,可高效管理和分析大數據。但目前針對MapReduce應用的運行時引擎還無法提供足夠功能來滿足企業希望在生產環境中部署MapReduce應用的實際需求。
對企業IT部門來說,先進的運行時引擎應該是這樣一種管理工具:它可以在滿足高標準服務水平協議(SLA)的同時,支持企業里的各業務部門。這類管理工具應該能夠支持混合類型的工作負載,包括MapReduce應用及業務部門在共享式網格上智能化提交的其他應用。
此外,如今的IT部門正在經歷重大轉變。在許多情況下,IT部門不再只是個成本中心,相反,它被視作是支持企業里各業務部門的服務提供者。預算有限、工作負載需求加大,使得IT部門面臨巨大的壓力,必須進一步充分利用現有的基礎架構,最大限度地提高總的資源利用率。
讓在基礎架構方面的投資迅速獲得回報是IT部門在做采購決策時最重要的考量因素之一。能充分利用現有的基礎架構,滿足更高的工作負載需求,并實時動態地滿足需求,進一步節省成本,提高投資回報,無疑是企業希望尋找的解決方案。
為了支持MapReduce應用等新型應用,IT部門迫切需要一種共享式服務運行時平臺以獲得更好的性能、更高的資源利用率、自動監控和診斷功能,同時也需要IT基礎架構能提供更高級的應用生命周期支持。
何謂共享式服務模型?
共享式服務模型是指這樣一種基礎架構平臺:它允許多個應用(無論其類型和要求是什么)能夠在共享式基礎架構上并行執行。共享式服務模型常常由一種先進的應用調度和資源管理引擎來管理,為它所支持的企業里的多個業務部門提供有保障的服務。
共享式服務IT模型提供以下幾個重要好處:
少花錢多辦事
迅速獲得基礎架構方面的投資回報
提供更好的可管理性
有更好的可擴展性和靈活性以支持不斷變化的應用需求
利用收費政策,讓IT部門的角色從成本中心轉變成盈利中心
現有的Hadoop MapReduce運行時引擎面臨的挑戰
遺憾的是,目前MapReduce運行時引擎的Hadoop實現無法提供上述的共享式服務功能。這歸因于Hadoop作業跟蹤器(Hadoop JobTracker)的基本架構設計Hadoop作業跟蹤器是一個管理層,在運行期間為MapReduce作業提供必要的服務。
目前的Hadoop作業跟蹤器還無法把作業調度邏輯與資源管理邏輯分離開來,這直接導致了下列重大缺陷:
缺少企業級能力。在任何一個時間,只有一個MapReduce應用可以在集群上運行。因而,資源變成了靜態的和用途單一的;而應用也是串行執行,而不是并行執行,導致無法有效利用的資源、形成煙囪式的IT環境,限制了可擴展性。
作業跟蹤器成為單一故障點。如果作業跟蹤器出現故障,所有運行中的作業都將停止。
很顯然,目前Hadoop作業跟蹤器能力有限,無法提供IT部門在生產級環境中部署MapReduce應用所需的共享式服務功能。
借助Platform Symphony MapReduce提供共享式服務
Platform Symphony MapReduce是一種生產級、分布式的運行時引擎,用于管理規模化的大數據應用。Platform Symphony MapReduce為企業運行大數據應用提供了下列獨特好處:
能夠為IT部門帶來一種共享式服務平臺
提高資源利用率,加大基礎架構方面的投資回報
能夠在企業里實現完善的服務水平協議
提供更高的性能、縮短獲得結果的時間
簡化IT管理,降低管理復雜IT環境的總成本
加強IT敏捷性
如何部署共享式服務模型?
企業應該視不同的業務要求使用以下方法部署共享式服務模型:
1. “煙囪式共享模型”為不同的業務部門提供有保障的資源。IT部門根據不同業務部門的特定需求,為它們提供有保障的資源。業務部門向集中式IT部門請求 一定數量的資源,專門供自己使用。然后,那些請求被定義為策略,加入到資源分配方案中。不同業務部門之間不共享資源。集中式IT部門負責管理資源分配、系 統監控和故障排除。
2. “代理式共享模型”企業內部跨各職能領域的資源共享。企業內部的不同職能部門共享一組通用的IT資源,資源共享策略根據不同業務部門的特定需求來予以 定義,然后加入到資源分配方案中。不是為某個業務部門單獨分配靜態資源,而是通過動態共享整個基礎架構,從而為用戶提供有保障的資源。