大數(shù)據(jù)并不是實時vs.批處理的問題。正如Ovum的分析師Tony Baer和其他一些分析師所指出的那樣,這不是一個非此即彼的問題。鑒于現(xiàn)如今的企業(yè)用戶在制定一套成功的大數(shù)據(jù)戰(zhàn)略方面有著廣泛的選擇和大量的工作負(fù)載,上述分析師的論斷也并不奇怪或有什么值得爭議的。
更具爭議性的話題是,雖然也許并不令人感到驚訝,是從被需要用以獲得大多數(shù)大數(shù)據(jù)的基礎(chǔ)設(shè)施中獲得其性質(zhì)。例如,AWS(亞馬遜Web服務(wù))的數(shù)據(jù)科學(xué)主管馬特·伍德警告說,雖然“分析是會令人上癮的,但如果你企業(yè)的基礎(chǔ)設(shè)施跟不上的話,這種積極的上癮會迅速逆轉(zhuǎn)。”
伍德說,大數(shù)據(jù)項目的成功的關(guān)鍵,不僅僅只是選擇Spark或Hadoop。其運行還依賴于彈性的基礎(chǔ)設(shè)施。
Hortonworks公司的企業(yè)戰(zhàn)略副總裁肖恩·康納利認(rèn)為,云計算已經(jīng)在大數(shù)據(jù)分析中發(fā)揮了很大的作用。但康納利表示,決定大數(shù)據(jù)在何處進行處理的最大的因素是“數(shù)據(jù)的引力”,而不是彈性。
康納利說,企業(yè)部署大數(shù)據(jù)項目的主要的驅(qū)動因素是要擴大和加強傳統(tǒng)的內(nèi)部部署的系統(tǒng),如數(shù)據(jù)倉庫。最終,這會導(dǎo)致大型企業(yè)需要在多處位置部署Hadoop和其他分析集群——通常需要在企業(yè)現(xiàn)場。
然而,康納利也承認(rèn),對于開發(fā)和測試新的分析應(yīng)用程序和處理來自企業(yè)外部的大數(shù)據(jù)而言,云計算已然成為了新興的且越來越受歡迎的選擇。
大數(shù)據(jù)分析的基本成分
AWS大數(shù)據(jù)的客戶范圍相當(dāng)廣泛,既包括像Reddit這樣的初創(chuàng)型企業(yè),也包括Novartis和Merck這樣的大規(guī)模的企業(yè),對于任何一款分析系統(tǒng)而言,伍德均建議企業(yè)從如下三大關(guān)鍵要素開始考量:
1、單一來源的真相。AWS提供了多種方式以存儲單一來源的真相(single source of truth),從S3存儲到像DynamoDB或RDS或從Aurora到諸如Redshift這樣的數(shù)據(jù)倉庫解決方案。
2、實時分析。伍德說,企業(yè)通常會利用streaming數(shù)據(jù)傳輸來增加這種單一來源的真相,如網(wǎng)站點擊量或金融交易情況。而AWS則提供了Kinesis以幫助實現(xiàn)實時的數(shù)據(jù)處理,其他已有的選項包括諸如Apache Storm 和Spark。
3、專用任務(wù)集群。任務(wù)集群是一組運行諸如Hadoop這樣的分布式框架的實例,但能夠執(zhí)行專門的任務(wù),如數(shù)據(jù)的可視化。
考慮到上述這些要素,伍德重申,大數(shù)據(jù)并不是一個批量處理VS.實時處理的問題,而是涉及廣泛的工具集,可以讓你以多種方式處理數(shù)據(jù):
其不是選擇Spark或Hadoop的問題。其應(yīng)該是一個多種選擇相加的“和”問題,而不是一個二選一的“或”的問題。如果你企業(yè)使用Spark,不排除你企業(yè)會在其他領(lǐng)域采用傳統(tǒng)的MapReduce或Mahout。你必須選擇恰當(dāng)?shù)墓ぞ撸淹瓿晒ぷ鳌?/p>
在伍德看來,“實時數(shù)據(jù)處理的絕對會有進行向前發(fā)展的潛力,但其應(yīng)該是大數(shù)據(jù)系統(tǒng)的催化添加劑。”
這也呼應(yīng)了Hadoop的創(chuàng)始人Doug Cutting不久前在接受記者采訪時所說的。他在回答關(guān)于streaming數(shù)據(jù)傳輸或?qū)崟r數(shù)據(jù)處理是否會取代如Hadoop的問題時,表示說:
我不認(rèn)為市場會朝著streaming數(shù)據(jù)傳輸有任何大規(guī)模的轉(zhuǎn)向。而streaming數(shù)據(jù)傳輸現(xiàn)在加入到處理選項,企業(yè)用戶能夠有方法進行相應(yīng)的處置。當(dāng)他們需要互動的BI時,他們會用Impala;當(dāng)他們需要分面搜索(faceted search)時,他們會使用Solr;當(dāng)他們需要實時分析時,他們會使用Spark Streaming。企業(yè)當(dāng)然也還是會進行回顧性分析,也會采取批處理的方法。一個成熟的平臺用戶可能會使用所有這些。
Hortonworks公司的康納利對于未來的發(fā)展也持有類似的觀點。Hadoop被企業(yè)作為一種以相當(dāng)?shù)偷某杀驹诂F(xiàn)有應(yīng)用程序的筒倉擴展數(shù)據(jù)倉庫和基礎(chǔ)設(shè)施分析的方法。但隨著客戶變得更加成熟,新的數(shù)據(jù)源,新的工具,會經(jīng)常會讓云計算也參合進來:
如果你在考慮采用圍繞著360度視角的商業(yè)用例(其在不同的孤島整合客戶或產(chǎn)品數(shù)據(jù)),其可能已經(jīng)開啟。但你的機器學(xué)習(xí)和數(shù)據(jù)發(fā)現(xiàn)可能是在云中。你可能有新的數(shù)據(jù)集如天氣數(shù)據(jù)和普查數(shù)據(jù),而這些數(shù)據(jù)在您企業(yè)內(nèi)部已經(jīng)不可能有了,所以你可能要將現(xiàn)有數(shù)據(jù)進行組合,以便執(zhí)行先進的機器學(xué)習(xí)。
康納利說,因為物理定律禁止數(shù)百TB或PB級的數(shù)據(jù)跨網(wǎng)絡(luò)進行方便的遷移,客戶將開啟Hadoop集群和各種云,以便能夠在大部署數(shù)據(jù)一登陸,就執(zhí)行相應(yīng)的分析。即他所謂的“數(shù)據(jù)的重要性”這一術(shù)語。當(dāng)來源于企業(yè)外部的新的數(shù)據(jù)集到達時(如氣象數(shù)據(jù)、人口普查數(shù)據(jù),以及機器和傳感器的數(shù)據(jù)),云計算成為一個執(zhí)行數(shù)據(jù)處理的天然場所。
建立彈性和規(guī)模化
雖然很多人錯誤地認(rèn)為大數(shù)據(jù)就是海量的數(shù)據(jù),卻忽視了大內(nèi)在的更常見的繁雜的種類和傳遞速度的快速的特點,其真實的數(shù)據(jù)量也不像某些人認(rèn)為的那樣簡單。
在亞馬遜的伍德看來,大數(shù)據(jù)所帶來的挑戰(zhàn)“與其說是有關(guān)數(shù)據(jù)的絕對規(guī)模,還不如說是其相對的規(guī)模。”也就是說,雖然像人類基因工程這樣的項目可能始于十億字節(jié)規(guī)模的項目,但其很快就進入TB級,然后發(fā)展為PB級的規(guī)模。 “客戶目前正在經(jīng)歷工具規(guī)模的大幅轉(zhuǎn)變。”伍德指出,但是,當(dāng)規(guī)模進一步發(fā)生階躍型變化時,企業(yè)有可能完全措手不及。
正如伍德在我們之前的談話中告訴我的那樣,“那些走出去購買昂貴的基礎(chǔ)設(shè)施的企業(yè)會發(fā)現(xiàn),問題的范圍和領(lǐng)域的轉(zhuǎn)變真的太快了。當(dāng)他們剛剛解答了最初的問題的時候,企業(yè)的問題可能已經(jīng)轉(zhuǎn)移了。”
換句話說,“企業(yè)需要一個平臺,能夠允許他們不斷的從一種規(guī)模進入到下一種規(guī)模,乃至再下一種規(guī)模。如果您數(shù)據(jù)中心無法應(yīng)付如此大規(guī)模的轉(zhuǎn)變,那么,您企業(yè)的業(yè)務(wù)可能無法隨著時間的推移而向前邁進。”
伍德舉了天氣預(yù)報頻道作為一個例子,在過去,我們可能只會每個四個小時獲得一次僅僅只覆蓋了幾百萬個地理位置的天氣報告,而現(xiàn)在,在AWS上每隔幾分鐘都會有設(shè)計幾十億出地理位置的天氣狀況的數(shù)據(jù)更新,而且還是保證百分百的正常運行時間。換句話說,這不僅僅是關(guān)于大數(shù)據(jù)的處理,而且還涉及到數(shù)據(jù)的云交付。
對于Hortonworks公司的康納利來說,云計算的靈活性與其彈性的可擴展性一樣重要。“我們開始進行更多的開發(fā)測試,讓我們可以只需采用ad hoc集群即可實現(xiàn)圍繞著數(shù)據(jù)子集的工作,”他說。
他說,特別是在機器學(xué)習(xí)的情況下,你可以為機器學(xué)習(xí)解決方案推動足夠的數(shù)據(jù),讓您得以能夠在云中創(chuàng)建你的決策模型。該模型將被用于更廣泛的應(yīng)用程序,其可能部署到其他地方。
“云計算對于前端的‘概念證明,以及讓一些初步應(yīng)用開始啟動’非常有幫助,”他補充道。“一旦這樣做了,問題就變成了:“因為這涉及到大量的數(shù)據(jù),其是否需要遷移到企業(yè)內(nèi)部,或是將其留在云中?”
康納利說,最終,這不是一個將數(shù)據(jù)“全部托管在云”與“全部存儲在企業(yè)內(nèi)部”的困境的問題。大量的情況是:只要大量的數(shù)據(jù)被生成,相應(yīng)的分析就將繼續(xù)。而在其他的情況下,如機器或傳感器數(shù)據(jù)流的處理情況下,云是一個自然的起點。
康納利認(rèn)為:“在接下來的一年或兩年,圍繞著企業(yè)希望將預(yù)算花費在何處、數(shù)據(jù)的來源、以及企業(yè)希望在何處運行技術(shù)的話題將掀起廣泛的討論,我認(rèn)為這將是一個廣泛聯(lián)系的混合的經(jīng)驗技術(shù)周期。”
然而,其到底將如何形成,很明顯,最成功的大數(shù)據(jù)戰(zhàn)略將包括一系列的在云計算中運行的大數(shù)據(jù)技術(shù)。