云服務對于每個人都具有吸引力。當有人對你說,他們的大數據策略是“把所有的數據都存儲在云端” 時,你根本無法判斷這些人是有遠見的人,還是在簡單地重復著專家在行業會議上對他們的建議。
毫無疑問,目前大數據和云范例之間存在著巨大的重合之處。這些交集是如此的廣泛,以致于你能夠名正言順地宣稱自己正在利用現有的本地Hadoop、NoSQL或企業數據倉庫環境,處理基于云的大數據。請記住,云服務被普遍解讀為除了公有云、SaaS(軟件即服務)和多租戶托管環境外,還包括“私有化的”部署。
如果你將“云”的定義局限為公有定購服務,那么你將會觸及問題的核心:這就是要識別出哪些大數據應用比本地部署(例如涉及到預優化硬件工具,或是虛擬化服務器集群的本地部署)更適合公有云或SaaS部署模式。
從另一個角度來說,在外部服務商為你提供管理服務的情況下,你何時能夠提升大數據的擴展性、靈活性、性能、費效比、可靠性和可管理性?以下是幾個大數據存儲在公有云服務上的典型應用案例。
已經被托管在云上的企業應用:如果你像許多機構一樣,尤其是像中小企業那樣,使用外部服務商提供的基于云的應用,那么你的許多源交易數據都已經位于公有云之上。如果你將大量的歷史數據存儲在上述云平臺上,那么它們可能已經積累至大數據級別。對于服務商或是其合作伙伴推出的增值分析服務(例如客戶流失分析、營銷優化或是異地備份和客戶數據歸檔等服務)而言,將數據存儲在云上可能比將數據存儲在本地更具意義。
需要大量預處理的海量外部數據源:如果你正在利用社交媒體數據反饋進行客戶情感監控,那么本地的服務器、存儲或是帶寬將無法滿足相關分析工作的需求。這是一個典型的應用案例。在這個案例中,你應該利用基于公有云的大數據服務所提供的社交媒體過濾服務。
除了本地大數據功能之外的戰術性應用:如果你已經專門為某一應用部署了一個本地大數據平臺,例如專門用于非結構化數據源中的海量ETL(抽取/轉換/加載)操作的Hadoop集群,那么使用公有云可以更好地處理新的應用(例如多渠道營銷、社交媒體分析、地理空間分析、具有查詢功能的存檔、彈性數據科研沙箱),因為現有平臺并不適合處理這些應用,而公有云的按需服務性能更加強大,也更具費效比。實際上,如果你需要盡可能快地擁有可處理拍字節級、流式、多結構化大數據的能力,那么公有云解決方案可能是唯一可行的選項。
龐大短期分析沙箱的彈性配置:如果你有一個需要探索型數據集市(即沙箱)的短期數據科研項目,并且這個沙箱的規模遠遠超過了正常的規模,那么云可能將是你唯一可行、或是能夠負擔得起的選項。在項目啟動期間,你可以迅速獲得基于云的存儲空間和處理能力。而在項目結束之后,可以迅速釋放這些存儲空間和處理能力。我將這種模式稱為“氣泡集市”部署模式,這種模式特別適合云服務。
如果你已經做了其中的任何一項,那么基于云的大數據所面臨的策略性問題就并不是從哪里開始了。隨著基于云的大數據服務的成熟,以及性價比、擴展性、靈活性和可管理性的不斷提升,問題將成為你將在哪里停止下來。到2020年,伴隨越來越多的應用和數據遷移至公有云,關于創建和運營專屬自己的大數據部署的想法可能會和現階段設計屬于自己的服務器那樣不切實際。