鑒于云計(jì)算對(duì)我們大部分人來說還只是一個(gè)概念性的夢(mèng)想,當(dāng)有人談及他們的大數(shù)據(jù)的策略是“把所有的數(shù)據(jù)都存儲(chǔ)在云服務(wù)中”時(shí),您尚不能明確的分辨他們的策略是一種有遠(yuǎn)見的方案,抑或只是簡(jiǎn)單的重復(fù)了他們?cè)谛袠I(yè)會(huì)議上所聽到的某些專家的談話。
大數(shù)據(jù)和云計(jì)算范例之間的重疊實(shí)際是如此地廣泛,您可以聲稱您的企業(yè)正在利用現(xiàn)有的內(nèi)部部署的Hadoop、NoSQL、或企業(yè)級(jí)數(shù)據(jù)倉庫環(huán)境,進(jìn)行基于云計(jì)算的大數(shù)據(jù)部署。但請(qǐng)務(wù)必記住,云計(jì)算這一概念在當(dāng)前更為廣泛的是被理解為“私人云”的部署,然后才是以公共云計(jì)算、SaaS和多租戶托管環(huán)境為補(bǔ)充。
但是,如果您將您的關(guān)于“云計(jì)算”的實(shí)際定義限制在公眾認(rèn)購服務(wù)的范圍,您便找到了問題的核心了:您必須確定哪些大數(shù)據(jù)應(yīng)用程序更適合于公共云/ SaaS部署,而哪些則更適合于內(nèi)部部署(如涉及到提前優(yōu)化的硬件設(shè)備或虛擬的服務(wù)器集群)。
換句話說:您什么時(shí)候可以收集到可擴(kuò)展性、彈性、高性能、符合成本效益、高可靠性和可管理性的大數(shù)據(jù),讓外部服務(wù)供應(yīng)商對(duì)其進(jìn)行管理?如下是幾個(gè)明顯的大數(shù)據(jù)在公共云進(jìn)行管理的例子。
企業(yè)應(yīng)用程序已經(jīng)托管在云服務(wù)中:如果,許多企業(yè)(尤其是中小型企業(yè))已經(jīng)在使用外部服務(wù)提供商的基于云的應(yīng)用程序,您的大部分的事務(wù)的數(shù)據(jù)源已經(jīng)在一個(gè)公共云。或者如果您的企業(yè)與這一云平臺(tái)有著很深的歷史數(shù)據(jù)淵源,其可能已經(jīng)進(jìn)行了大數(shù)據(jù)量的積累。在某種程度上,該服務(wù)供應(yīng)商或其合作伙伴提供增值分析服務(wù)——如流失分析、營(yíng)銷優(yōu)化、或異地備份和客戶資料歸檔——這樣,將大數(shù)據(jù)托管在該云服務(wù)中,而不是存儲(chǔ)在企業(yè)內(nèi)部的主機(jī),可能更有意義。
高容量的外部數(shù)據(jù)源,需要相當(dāng)大的預(yù)處理:例如,如果您正在根據(jù)社交媒體數(shù)據(jù)進(jìn)行客戶情緒監(jiān)測(cè),您可能不需要利用企業(yè)內(nèi)部的服務(wù)器、存儲(chǔ)設(shè)備、帶寬容量資源。這是一個(gè)很明顯的應(yīng)用程序的例子,您只需要利用公共云基于大數(shù)據(jù)服務(wù)提供的社交媒體過濾服務(wù)。
應(yīng)用程序需求超出您企業(yè)內(nèi)部設(shè)備的大數(shù)據(jù)處理能力:如果您的企業(yè)內(nèi)部已經(jīng)有本地的大數(shù)據(jù)平臺(tái),專門致力于處理某一款應(yīng)用程序(如專用的Hadoop集群處理高容量非結(jié)構(gòu)化數(shù)據(jù)源ETL)。那么,當(dāng)有一款新的應(yīng)用程序,而企業(yè)當(dāng)前的大數(shù)據(jù)平臺(tái)又不適合,無法滿足新應(yīng)用程序的需求時(shí),采用公共云就顯得是恰到好處的解決方案了。(例如,多渠道營(yíng)銷、社交媒體分析、地理空間分析功能、可查詢歸檔、彈性數(shù)據(jù)、科學(xué)沙箱),而且,按需服務(wù)更符合成本效益。事實(shí)上,如果您需要盡快處理PB級(jí)規(guī)模、流媒體、多結(jié)構(gòu)的大數(shù)據(jù),公共云解決方案可能是唯一可行的選擇。
彈性供應(yīng)非常大規(guī)模而項(xiàng)目短暫的沙箱解析:如果您有一個(gè)周期非常短的數(shù)據(jù)科學(xué)項(xiàng)目,需要一個(gè)探索性數(shù)據(jù)集(又名沙箱)而且其數(shù)量級(jí)要大于一般的規(guī)模,那么公共云可能是您唯一可行的或經(jīng)濟(jì)的選擇。您可以利用基于云的存儲(chǔ)和處理能力,很快地投入該項(xiàng)目。然后又能夠在該項(xiàng)目結(jié)束時(shí),重新規(guī)定存儲(chǔ)和處理能力。我把這稱為“泡沫集”的部署模型,它是專門為云量身定制的。
如果您已經(jīng)做了上述任何一點(diǎn),那么基于云的大數(shù)據(jù)的戰(zhàn)略問題不是出現(xiàn)在您的項(xiàng)目剛剛開始的時(shí)候。隨著基于云的大數(shù)據(jù)服務(wù)的日趨成熟、性價(jià)比、可擴(kuò)展性、靈活性和可管理性的提高,這個(gè)問題將出現(xiàn)在您的項(xiàng)目終止的時(shí)候。到本十年末,隨著越來越多的應(yīng)用程序和數(shù)據(jù)轉(zhuǎn)移到公共云,建立和運(yùn)行自己的大數(shù)據(jù)部署的想法將變得如同今天的設(shè)計(jì)您自己的服務(wù)器一樣不切實(shí)際。