《企業(yè)網(wǎng)D1Net》1月6日訊(上海)企業(yè)中充斥著大數(shù)據(jù)。這開辟了巨大的商機(jī)以了解和預(yù)測客戶的喜好和市場增長情況。在競爭激烈的全球經(jīng)濟(jì)浪潮下,擁有正確的信息就意味著具有競爭優(yōu)勢。
為了獲得信息必殺技,企業(yè)需要具有合適技能的人,知道如何管理數(shù)據(jù)、建立分析系統(tǒng),并使得數(shù)據(jù)具有意義。
最近EMC關(guān)于數(shù)據(jù)科學(xué)家的一項調(diào)查證實了這一點。共有83%的人認(rèn)為新技術(shù)會增加對數(shù)據(jù)科學(xué)家的需求,64%的人認(rèn)為,目前可供應(yīng)的人才數(shù)量將不能滿足需求。事實上,根據(jù)麥肯錫全球研究院的預(yù)測,在未來六年內(nèi),美國就有可能面臨14萬至19萬具有深入分析技巧的人才短缺,以及150萬管理人員和分析師的缺口——知道如何使用大數(shù)據(jù)分析以做出有效的決策。
TechTarget的Beth Stackpole還指出,今天的專業(yè)隊伍是被訓(xùn)練來管理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)環(huán)境,但還沒有做好準(zhǔn)備處理大數(shù)據(jù)環(huán)境和開源平臺,如Hadoop 和MapReduce。“雖然數(shù)據(jù)管理團(tuán)隊通常有一套定義明確的專門技術(shù),這些技術(shù)圍繞著管理和組織高度結(jié)構(gòu)化的數(shù)據(jù)和建模,以及在SQL創(chuàng)建報表。但是這些專業(yè)知識不能很好地應(yīng)用于大數(shù)據(jù)世界中非結(jié)構(gòu)化、平面的那部分,命令行和NoSQL數(shù)據(jù)庫技術(shù)是大多數(shù)新興平臺的核心構(gòu)件。”
Hadoop——一個Apache開源項目,是一個開源組件的集合,被設(shè)計成存儲大量的跨多個節(jié)點的數(shù)據(jù),壓縮到一個可訪問的格式,該格式被稱為Hadoop分布式文件系統(tǒng)(HDFS)。MapReduce通常與Hadoop結(jié)合,是一種對數(shù)據(jù)分析能力的編程構(gòu)造。NoSQL(不只有SQL)數(shù)據(jù)庫通常處理非結(jié)構(gòu)性的數(shù)據(jù),包括博客、文件、文本、PDF、視頻和音頻。
同時,企業(yè)不一定要尋找用來迎接大數(shù)據(jù)挑戰(zhàn)和機(jī)遇的人才。接下來我將列出一些處在大數(shù)據(jù)時代前線的管理人員和顧問的看法。
Klout的首席技術(shù)官和創(chuàng)始人之一Binh Tran指出,相關(guān)技能是社交網(wǎng)絡(luò)評級服務(wù)需努力克服的首要問題。“在最開始,這是一個挖掘和深入在線文檔的問題。尋找具有大規(guī)模生產(chǎn)經(jīng)驗的人基本上是很難的。我們不得不聘請雅虎和Facebook的人。”Tran表示看到更多的高校,至少在硅谷Vally地區(qū),提供Hadoop和MapReduce課程。
Ventana研究的分析師David Menninger指出,最近的一項調(diào)查結(jié)果中169名高管里超過四分之三的人表示,人員配備和培訓(xùn)問題是大數(shù)據(jù)的最大障礙。
技能是缺乏的,但情況并非無望的。Cloudera公司的Omer Trajman表示,大數(shù)據(jù)的解決方案力比如Hadoop“不是火箭科學(xué),人們是可以學(xué)習(xí)的。”他說。僅僅幾年前,“只有兩個人知道Hadoop” ,現(xiàn)在數(shù)字在擴(kuò)大。他說:“我們鼓勵企業(yè)把目光投向他們所擁有的內(nèi)部技能,并培養(yǎng)人才。比起在外面雇傭有經(jīng)驗的人,企業(yè)內(nèi)部有很多已經(jīng)成長為這些角色的人。企業(yè)內(nèi)有很多可以學(xué)習(xí)Hadoop的人員。”
以下這些崗位將在大數(shù)據(jù)中發(fā)揮作用:
系統(tǒng)管理員:負(fù)責(zé)日常的集群運作。Trajman補(bǔ)充說,“他們可能會直接或間接地管理硬件組件,確定需要的額外硬件,并將其投入使用。”他們的職責(zé)還包括監(jiān)測和配置,負(fù)責(zé)與其他系統(tǒng)的Hadoop集成。”
開發(fā)商:構(gòu)建平臺和分析應(yīng)用程序。“他們擁有熟悉的工具或算法,他們可能會撰寫、包裝、優(yōu)化或部署不同的MapReduce工作。他們將收集和維護(hù)不同的函數(shù)庫,他們的作用是類似于DBA在數(shù)據(jù)庫世界中的作用。”
數(shù)據(jù)分析/數(shù)據(jù)科學(xué)家:Trajman表示,數(shù)據(jù)分析和數(shù)據(jù)科學(xué)家屬于同一類。這些專業(yè)人士用算法來分析問題,并做數(shù)據(jù)挖掘。“他們的作用是定義數(shù)據(jù)。” Trajman說,“他們可能有某領(lǐng)域的專業(yè)知識,還將幫助創(chuàng)建數(shù)據(jù)產(chǎn)品,創(chuàng)建數(shù)據(jù)解決方案,以推動業(yè)務(wù)。”
數(shù)據(jù)管家:最終負(fù)責(zé)收集有質(zhì)量的數(shù)據(jù)。“數(shù)據(jù)管家錄入所有導(dǎo)入的數(shù)據(jù)。在機(jī)構(gòu)中有很多游蕩的數(shù)據(jù),Hadoop可以集中這些數(shù)據(jù)。因此,確定上游數(shù)據(jù)模型,擁有ETL(提取,轉(zhuǎn)換,加載)的背景和數(shù)據(jù)建模都是典型的技能和背景。”
“所有這些技能集其實今天都在機(jī)構(gòu)中存在。”Trajman表示。(Vivian 編譯)