微軟即將開發一個新的大數據技術,運行于Hadoop新一代資源管理器YARN的上層的開源大數據框架REEF。
對于用戶來說,通過技術在數據傳輸等方面提供持續的應用支持,特別是被隨時保證用戶可以抓取到所需的數據信息。
數字化構建架構(來源gigaom.com)
筆者了解,微軟開發的這個名為REEF(Retainable Evaluator Execution Framework)的大數據框架,計劃在一個月內將其開源。REEF就運行在YARN的上層,YARN作為新一代Hadoop資源管理器,尤其適合建立不同類型的應用程序。
微軟介紹REEF框架和微軟的開源計劃,YARN作為Apache Hadoop項目的一部分,是一個資源管理器,讓用戶可以運行和管理同一個物理集群機上的多種應用程序,例如MapReduce批處理和圖形處理程序。這種設計開發不僅可以整合一個公司管理的系統數量,而且可以對相同的數據進行不同類型的數據分析。在某些情況下,整個數據流可以執行在同一個集群機上。
另外,對于某些類型的作業,例如機器學習,YARN并不是一個理想的框架,因為它們對于數據移動、任務監控以及前續結果集迭代(以避免多次重啟)等功能存在特殊要求。針對REEF而言,是一套運行在YARN之上的庫能在一定程度上解決上述問題。
YARN作為新一代Hadoop資源管理器(來源gigaom.com)
REEF被分為兩大主要部分:Evaluator作為容納REEF服務的YARN容器,以及使用戶代碼運行在Evaluator當中的Activity。值得一提的是,同一Evaluator可以再次啟動并維持其初始狀態,這樣其它Activity進程也可以針對初始數據實現運行。據推測,微軟很可能是利用某種SQL查詢或者其它機器學習算法來實現這樣的效果。
從理論上講,REEF技術更多是解決企業在嘗試對數據進行進一步分析時所面對的遺留問題。微軟正式發布REEF之后,已經對Hadoop(YARN即為Hadoop的重要組成部分)及開源社區表現出高度關注。就在幾年前,微軟還在尋找Hadoop的替代方案及專有平臺。如今,已經開始推動Hadoop社區的工作并提高自身代碼更加開放。