數(shù)據(jù)湖的實(shí)施可以為分析所有類型的外部和內(nèi)部數(shù)據(jù),提供巨大的靈活性—必需具備三大要素。
格雷普韋恩,德克薩斯州——像任何其他工具或技術(shù)一樣,數(shù)據(jù)湖是一種存儲(chǔ)庫和處理引擎,有它的優(yōu)點(diǎn)和缺點(diǎn)。它的著名優(yōu)點(diǎn)之一是,可以在不犧牲數(shù)據(jù)格式的情況下,攝取數(shù)據(jù),為數(shù)據(jù)科學(xué)家提供更大的靈活性。
“將數(shù)據(jù)湖看作為你的疑問開發(fā)環(huán)境:你不知道你的疑問是什么,” Nick Heudecker說,他是Gartner的分析師。數(shù)據(jù)湖讓你探索你所不知道的,從一個(gè)疑問引發(fā)另一個(gè)疑問。
缺點(diǎn)?沒有適當(dāng)?shù)募寄堋⒓珊蛿?shù)據(jù)治理,數(shù)據(jù)湖的實(shí)施會(huì)迅速成為數(shù)據(jù)管理的噩夢。在最近舉行的Gartner Business Intelligence and Analytics Summit 上,Heudecker在他的演講中列舉了健全的數(shù)據(jù)湖的三個(gè)特征。
技能數(shù)據(jù)科學(xué)家是任何數(shù)據(jù)湖中的必要因素。“他們擁有較高的領(lǐng)域理解力,較低的IT技能,但是你雇傭他們是因?yàn)閿?shù)據(jù)分析技能,”Heudecker說。
但是數(shù)據(jù)科學(xué)家并不是實(shí)施數(shù)據(jù)湖所需的唯一技能。Heudecker還指出:
數(shù)據(jù)工程師,運(yùn)用數(shù)據(jù)科學(xué)家的研究發(fā)現(xiàn),并與業(yè)務(wù)部門緊密合作;
業(yè)務(wù)專家,提供上下文;
軟件工程師,專注于數(shù)據(jù)湖實(shí)施的具體細(xì)節(jié)
平民數(shù)據(jù)科學(xué)家,并不是必需的,但可以作為數(shù)據(jù)科學(xué)家的補(bǔ)充,即使他們的技能不完全成熟,能夠完全勝任這個(gè)職能。
“數(shù)據(jù)科學(xué)是一項(xiàng)團(tuán)隊(duì)任務(wù),”Heudecker說。“如果你想要一個(gè)成功的數(shù)據(jù)湖,你必須擁有一個(gè)成功的團(tuán)隊(duì)。”
集成IT部門需要考慮如何把數(shù)據(jù)——從內(nèi)部,以及越來越多的外部來源——匯總到數(shù)據(jù)湖中,這就意味著將湖與IT基礎(chǔ)設(shè)施的其他部分相集成。
這就要求正確的數(shù)據(jù)初始分類和索引,以及數(shù)據(jù)安全,Heudecker說。此外,CIO還不得不考慮分析技術(shù)。一些數(shù)據(jù)湖技術(shù)——比如Hadoop——可能“不支持高并發(fā)性和多租戶,”Heudecker說。“他們可能不適合你選擇的商業(yè)智能平臺(tái)或控制面板工具。”
Heudecker認(rèn)為,數(shù)據(jù)分析也可以在數(shù)據(jù)湖外部產(chǎn)生,比如使用MySQL,SQL Server或MongoDB數(shù)據(jù)庫。
數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量
數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量是確保分析正確的關(guān)鍵,但它們的標(biāo)準(zhǔn)和應(yīng)用與傳統(tǒng)環(huán)境中有所差別。太多可能會(huì)妨礙數(shù)據(jù)湖的分析發(fā)現(xiàn);太少可能會(huì)給企業(yè)帶來麻煩。
為了找到合適的界限,Heudecker推薦IT部門考慮數(shù)據(jù)基數(shù),或數(shù)據(jù)與其他數(shù)據(jù)之間的關(guān)聯(lián),以及數(shù)據(jù)沿襲,或者“你是如何處理數(shù)據(jù)的,數(shù)據(jù)從何而來,誰改動(dòng)了它,為什么,”他說。“我認(rèn)為你可以放棄其他元素的治理,至少當(dāng)你處于數(shù)據(jù)湖環(huán)境中。”
Heudecker認(rèn)為數(shù)據(jù)質(zhì)量是數(shù)據(jù)湖中的“重大挑戰(zhàn)”。他說,IT部門應(yīng)該創(chuàng)建目錄和“社交化”數(shù)據(jù)集,將其作為員工之間的一種溝通方式,它們的相關(guān)數(shù)據(jù)質(zhì)量和它們的用處。
在實(shí)施數(shù)據(jù)湖之前,IT部門應(yīng)該考慮業(yè)務(wù)的目標(biāo),數(shù)據(jù)湖將如何幫助實(shí)現(xiàn)這些目標(biāo),以及是否擁有必要的技能。
“你不必將數(shù)百萬美元投資到這個(gè)基礎(chǔ)設(shè)施。你可以從云中開始,你可以從簡便和免費(fèi)的工具開始,如果你今天沒有數(shù)據(jù)科學(xué)團(tuán)隊(duì),你可以在實(shí)施數(shù)據(jù)湖的同時(shí)打造這一團(tuán)隊(duì),”Heudecker說。