越來越多的企業已經開始摸索Hadoop技術,目的就是為處理博客、點擊所帶來的數據流和社交媒體所帶來的數據。Hadoop可以供存儲和分析的能力,以便在大數據中為客戶提升業務洞察力。
大數據在企業中迅速擴張 相關人才短缺
目前相關人才短缺的問題相當嚴重。來自JP摩根大通公司以及eBay的IT高管們在本月于紐約舉行的Hadoop全球大會都表達了同樣的觀點。eBay公司搜索與平臺部門副總裁Hugh Williams就在大會上表示目前他們正在誠招Hadoop專業人員。而JP摩根大通公司總經理Larry Feinsmith則半開玩笑的表示,他們不僅愿意聘用合格的專業人士,還會提供比eBay高出10%的優厚待遇。
Larry Feinsmith表示現今JP摩根大通仍然嚴重的依賴傳統的關系數據庫系統進行事務處理。但隨著越來越多的欺詐檢測以及IT風險管理和自我服務等,過去的系統已經不能滿足現有的需求,而Hadoop技術的特性恰好能夠適應當今企業的業務。
JP摩根大通現在擁有150PB在線存儲的數據,30000個數據庫。用戶帳戶記錄的總金額達到350億美元。這些數據充分說明了數據是JP摩根大通的命脈。Hadoop的優勢就是適合存儲海量的非結構數據,這使得企業能夠有效收集和存儲網絡日志,以及交易數據和社交媒體的數據。Larry Feinsmith說到。
而eBay搜索和平臺副總裁Hugh Williams表示eBay現在正在使用Hadoop技術和HBase數據庫。以便進行實時的數據分析。同時還利用Hadoop技術為其網站構建了新的搜索引擎。據他透露eBay活躍買家和賣家超過了9700萬,網站每天有接近20億次的頁面瀏覽量,同時帶來每天2.5億次的搜索或查詢和數百億的數據庫調用。他還表示eBay現在有9PB的數據存儲在Hadoop和Teradata集群之中,并且數據量還在迅速的增長。
Hadoop存在硬性標準 數據挖掘等領域人才為潛在對象
Forrester研究公司分析師James Kobielus認為在當今的企業中,Hadoop就是新一代的數據倉庫,并應被看作是新的數據源。比起當今傳統關系數據庫管理系統,Hadoop使企業具有存儲、管理海量結構化數據和非結構化數據卷的能力。
James Kobielus表示越來越多的企業對諸如Hadoop分析技術需求的增加導致Hadoop相關從業人員炙手可熱。能夠駕馭Hadoop的人對企業貢獻極大,他們理應獲取相應的薪酬。Hadoop需要從業者具備高級分析領域的相關工作經驗,例如像具備使用MapReduce及R語言等新一代技術解決方案處理預測及統計建模的能力。而具備多元統計分析、數據挖掘、預測建模、自然語言處理、內容分析、文本分析及社交領域分析等領域技術背景的相關人員都是從事Hadoop的潛在對象。
Hadoop受到企業廣泛關注的同時也帶來了對Hadoop平臺專業管理人員的硬性需求。他們的工作職責包括Hadoop集群、安全及管理,并對其進行優化以確保集群對企業的可用性。之前負責管理Teradata及Oracle Exadata的數據庫管理員現在正試圖向Hadoop集群管理的角色轉變。他們會意識到這是一個全新的天地。同時,存儲管理專業人員也是不可或缺,他們現在要做的就是幫助Hadoop環境與現有傳統數據庫技術相結合。
Hadoop專業人員主要分三類
Karmasphere公司總裁 Martin Hall表示目前對Hadoop專業人員的需求主要分三大類:數據分析師(又稱數據科學家)、數據工程師以及IT數據管理專家。Karmasphere現主要經營項目正是為Hadoop環境開發軟件產品。
Martin Hall認為,數據管理專家的職責在于選擇、安裝、管理、規范以及擴展大規模的Hadoop集群。這些專業人員決定了Hadoop是否應立足于云還是采取預置模式,包括供應商該如何選擇以及使用那款Hadoop分布方案、集群規模以及被用于運行生產應用程序還是用于進行質量測試等。此職位應具備的技能與以往負責傳統關系數據庫與數據庫環境類的任務頗為相似。
同時,Hadoop數據工程師還要負責創建數據處理工作以及建立分布式MapReduce算法,以便數據分析師使用。從事Java和C++等領域技能水平能力較為突出的專業人士更便于在企業大規模部署Hadoop的浪潮中得到更多的機會。
而第三類專業需求則是在SAS、SPSS以及以R語言為代表的編程語言等方面具備豐富經驗的數據科學家。這些專業人士能夠將建立、分析、共享以及智能整合加以集中,并存儲于Hadoop環境中。
就目前來看,Hadoop領域的人才短缺意味著企業會更加依賴于服務供應商提供的部署技術。支撐這一論點的一大跡象是在專業的咨詢及系統集成行業內,專攻Hadoop實際應用帶來的收入要遠遠大于Hadoop產品銷售所帶來的收入。
如今Cloudera、MapR、Hortonworks以及IBM這樣的企業如今已經在提供Hadoop的相關培訓課程,人們應該充分利用這些資源,通過建立Hadoop卓越中心使自己的企業獲得最大收益。