鑒于云計算對我們大部分人來說還只是一個概念性的夢想,當有人談及他們的大數據的策略是“把所有的數據都存儲在云服務中”時,您尚不能明確的分辨他們的策略是一種有遠見的方案,抑或只是簡單的重復了他們在行業會議上所聽到的某些專家的談話。
大數據和云計算范例之間的重疊實際是如此地廣泛,您可以聲稱您的企業正在利用現有的內部部署的Hadoop、NoSQL、或企業級數據倉庫環境,進行基于云計算的大數據部署。但請務必記住,云計算這一概念在當前更為廣泛的是被理解為“私人云”的部署,然后才是以公共云計算、SaaS和多租戶托管環境為補充。
但是,如果您將您的關于“云計算”的實際定義限制在公眾認購服務的范圍,您便找到了問題的核心了:您必須確定哪些大數據應用程序更適合于公共云/ SaaS部署,而哪些則更適合于內部部署(如涉及到提前優化的硬件設備或虛擬的服務器集群)。
換句話說:您什么時候可以收集到可擴展性、彈性、高性能、符合成本效益、高可靠性和可管理性的大數據,讓外部服務供應商對其進行管理?如下是幾個明顯的大數據在公共云進行管理的例子。
企業應用程序已經托管在云服務中:如果,許多企業(尤其是中小型企業)已經在使用外部服務提供商的基于云的應用程序,您的大部分的事務的數據源已經在一個公共云。或者如果您的企業與這一云平臺有著很深的歷史數據淵源,其可能已經進行了大數據量的積累。在某種程度上,該服務供應商或其合作伙伴提供增值分析服務——如流失分析、營銷優化、或異地備份和客戶資料歸檔——這樣,將大數據托管在該云服務中,而不是存儲在企業內部的主機,可能更有意義。
高容量的外部數據源,需要相當大的預處理:例如,如果您正在根據社交媒體數據進行客戶情緒監測,您可能不需要利用企業內部的服務器、存儲設備、帶寬容量資源。這是一個很明顯的應用程序的例子,您只需要利用公共云基于大數據服務提供的社交媒體過濾服務。
應用程序需求超出您企業內部設備的大數據處理能力:如果您的企業內部已經有本地的大數據平臺,專門致力于處理某一款應用程序(如專用的Hadoop集群處理高容量非結構化數據源ETL)。那么,當有一款新的應用程序,而企業當前的大數據平臺又不適合,無法滿足新應用程序的需求時,采用公共云就顯得是恰到好處的解決方案了。(例如,多渠道營銷、社交媒體分析、地理空間分析功能、可查詢歸檔、彈性數據、科學沙箱),而且,按需服務更符合成本效益。事實上,如果您需要盡快處理PB級規模、流媒體、多結構的大數據,公共云解決方案可能是唯一可行的選擇。
彈性供應非常大規模而項目短暫的沙箱解析:如果您有一個周期非常短的數據科學項目,需要一個探索性數據集(又名沙箱)而且其數量級要大于一般的規模,那么公共云可能是您唯一可行的或經濟的選擇。您可以利用基于云的存儲和處理能力,很快地投入該項目。然后又能夠在該項目結束時,重新規定存儲和處理能力。我把這稱為“泡沫集”的部署模型,它是專門為云量身定制的。
如果您已經做了上述任何一點,那么基于云的大數據的戰略問題不是出現在您的項目剛剛開始的時候。隨著基于云的大數據服務的日趨成熟、性價比、可擴展性、靈活性和可管理性的提高,這個問題將出現在您的項目終止的時候。到本十年末,隨著越來越多的應用程序和數據轉移到公共云,建立和運行自己的大數據部署的想法將變得如同今天的設計您自己的服務器一樣不切實際。