許多企業充斥著大數據,這為了解和預測客戶喜好和市場發展提供了大好機會。因為在競爭異常激烈的全球經濟環境下,擁有正確的信息就意味著擁有競爭優勢。
不過這里有一個方面要注意。想成功地駕馭海量信息,公司就需要擁有相應技能的人才能如愿以償。這些人要知道如何管理數據,建立分析系統,并且幫助解讀數據。
EMC公司最近針對數據科學家的一項調查證實了這一點。共有83%的調查對象認為,新技術會增加企業對數據科學家的需求;64%的調查對象認為,現有的人才供應量將滿足不了需求。實際上,麥肯錫全球研究所的一項調查預測,在未來六年內,光美國就可能面臨缺少14萬至19萬擁有扎實分析技能的人才這一窘勢,而且缺少懂得使用相應工具分析大數據、作出合理決策的150萬管理和分析人員。
TechTarget的Beth Stackpole還指出,今天的專業人員隊伍雖受過培訓,但只會管理傳統的結構化數據環境,還沒有準備好處理大數據環境以及諸如Hadoop和MapReduce之類的開源平臺。“雖然數據管理團隊通常有一套定義明確的專門技能,懂得管理和組織高度結構化的數據,以及在SQL中建立模型、創建報表,但是這些傳統技能組合無法很好地運用到大數據環境中非結構化的平面文件數據;在大數據環境中,命令行和NoSQL數據庫技術是搭建大多數新興平臺的核心基本模塊。”
Hadoop是個Apache開源項目,它由諸多開源組件組成,被設計成可以存儲來自多個節點的海量數據,并壓縮成一種易于訪問的格式,這種格式名為Hadoop分布式文件系統(HDFS)。MapReduce經常與Hadoop結合使用,它是一種編程構件,可用于構建分析功能,以便分析數據。NoSQL數據庫通常處理非結構化數據,包括博客、文檔、文本、PDF、視頻和音頻。
與此同時,企業沒必要苦苦尋覓,才能找到應對大數據挑戰和機遇所需要的人才。作為由Informatica和Cloudera共同主辦的一系列網絡播放活動的一部分,我有幸采訪了幾位身在大數據環境一線的主管和顧問。
比如說,Klout公司的首席技術官兼聯合創始人Binh Tran指出,技能組合是這家社交網絡評級服務公司在竭力克服的“第一大”挑戰。“我們開辦公司之初,主要工作就是挖掘分析數據、編制在線文檔。要找到擁有豐富實際經驗的人基本上很難。我們只好從雅虎和Facebook這些公司那里招人。”Tran聲稱現在看到更多的大學設有Hadoop和MapReduce課程,至少在硅谷地區是這樣。
Ventana研究公司的分析師David Menninger提到了最近的調查結果;調查結果發現,169位企業主管中超過四分之三的人表示,人員配備和培訓問題是將大數據時代充分利用起來的兩大障礙。
Cloudera公司的Omer Trajman指出,技能是很缺乏,但形勢并非毫無希望。應對Hadoop等大數據解決方案的能力“并非高深莫測,人們可以學會,”他說。僅僅幾年前,“只有個別人知道Hadoop”——而現在知道Hadoop的人在不斷增多。“我們鼓勵企業關注內部擁有的技能組合,注重人員培訓?,F在有好多人有著合適的背景,可以學會使用Hadoop。企業不僅僅要物色已經學會的那些人、雇用他們……企業里面也有一些人其實能夠逐漸勝任這個角色……有好多人能學會Hadoop。”
下面是有望在大數據時代發揮作用的崗位:
系統管理員:負責集群的日常運作。“他們可能直接或間接地管理硬件部件,確定對額外硬件的需求,并且實際部署硬件。”Trajman補充說,系統管理員的職責還包括監測和配置。“他們還負責Hadoop與其他系統的集成。”
開發人員:負責搭建平臺、開發分析應用程序。“他們熟悉工具或算法,他們可能要編程、包裝、優化或者部署不同的MapReduce事務。他們將收集和維護不同的代碼庫,他們的角色類似數據庫領域的數據庫管理員(DBA)。”
數據分析員/數據科學家:Trajman表示,數據分析員和數據科學家其實屬于同一類。這些專業人員運用算法來解決分析問題,并且從事數據挖掘工作。“他們最大的本事就是能夠讓數據道出真相。Trajman表示,此外,“他們可能擁有某個領域的專長。他們將幫助開發數據產品,幫助開發推動業務發展的數據解決方案。”
數據專員:最終負責收集高質量的數據。“數據專員匯總所有進入企業的數據,并且編成目錄。企業里面存在著大量的數據,Hadoop可以將這些數據集中起來。所以,確定上游數據模型,有抽取、轉換和加載(ETL)以及數據建模方面的背景,這些都是典型的技能組合和背景。”
Trajman說:“今天許多企業實際上都擁有所有這些技能組合。”