亞馬遜在早年突破了實體書店的傳統營銷模式,成為電子商務和云計算領域先驅;今天,它又把目光拋向了數據倉庫的云部署。
我們看到,在亞馬遜過去的產品中,非常注重成本控制。然而,對于數據倉庫部署來講,巨大的成本投入是不可避免的。
在上周舉行的“亞馬遜re:Invent 2012大會”上,該公司為觀眾簡短展示了新的AWS產品Redshift,并談到了新的數據倉庫服務技術。Amazon Redshift作為一個大規模并行數據倉庫,包含一個或多個Redshift集群節點,可通過AWS應用程序界面(API)和其他的標準數據界面進行獲取。
圖片來源(GigaOM)
亞馬遜高級副總裁Andy Jassy稱:“Redshift能夠讓你簡單快捷地分析上PB的數據,成本只要傳統數據倉庫解決方案的十分之一。”事實上,亞馬遜每年在每TB數據的分析上大概花費不到1000美元,1.6 PB的配置就封頂了。對于數據倉庫來講,這確實很便宜。
亞馬遜近年來開發了不少云數據服務,Redshift與早期的彈性緩存服務相比,添加了關系型數據庫、NoSQL數據庫、內容發布和數據分析;這些服務都以現收現付制(pay-as-you-go)進行購買。
目前,Redshift AWS數據倉庫服務只推出了一個限制級的測試版,僅針對Flipboard和NASA/JPL Netflix等一小部分客戶提供,預計2013年測試版會擴展為通用版。
據稱,Redshift其中包含來自分析設備制造商ParAccel的技術部件授權。眾所周知,ParAccel的產品非常高端,這意味著相較于低成本,亞馬遜開始追求高性能,并成立了基于云計算的數據倉庫廠商。
Redshift是否預示著更多的數據遷移?
TechTarget BI領導力研究主管Wayne Eckerson說:“亞馬遜的產品發布是BI和數據倉庫大量遷移到公共云的開端。”
數據的云遷移進程一直以來都比較緩慢,人們都在糾結于安全問題和數據傳載的瓶頸,還有定制開發和可靠性的問題。“盡管如此,公共云的優勢明顯,人們不可能長期觀望下去。”
Jassy強調了潛在的成本節約,尤其是管理數據倉庫的費用大大減少。他說:“任何使用過傳統數據倉庫的人都應該清楚,它真的很昂貴,管理起來也極為復雜。”
Gartner的研究報告指出,企業必須針對每一個數據倉庫雇傭三到四名數據管理員才夠用。Jassy說:“管理工作讓人想要發瘋。”
這一購置成本問題長期阻礙著數據倉庫的發展。然而,云計算能夠提供經濟的可擴展性,盡管定制需求會有所影響。Eckerson認為,總有一天,云數據倉庫一定會成為主流。
“如果你能夠優化DBA和數據中心的配置,還能以更低的成本獲得更好的性能,那么BI走向云端只是時間的問題。不過也沒那么快,畢竟云計算還需要取代嵌入式傳統,扎根于企業計算環境。”
數據倉庫的定制難題
CapTech Consulting是美國一家將數據倉庫視為關鍵業務的公司,其CEO Sandy Williamson指出,依照企業規模、類型以及數據定制化特性的不同, 數據倉庫遷移到云計算的步伐將因人而異。Williamson對于亞馬遜Redshift在大型企業中的前景并不看好。
他說:“大型企業一般都會建立自己的私有云,因此他們不會把公司的數據遷移到公共云上。他們對客戶有著自己的理解。”
說到自己的公司,Williamson說CapTech已經使用了一些云工具去構建數據庫,但規模還不一定做的很大。他說:“我們正在使用一些亞馬遜的云開發平臺進行移動開發和原型設計。”Williamson和其他用戶一樣,認為新的應用應該會在亞馬遜或其他云計算平臺中的性能更好。
Eckerson說:“構建云計算數據倉庫和BI平臺的真正問題在于定制,大多數SaaS云產品的功能都比較整合,便于采購和安裝。”
對于BI來講,你需要基于企業獨特的架構、需求和數據源創建一個定制數據模型,在所有架構元素當中數定制報告最為重要。云計算的敏捷和速度優勢在BI領域會沒那么凸顯,數據傳輸又成為另一個問題。
CapTech高管Ben Harden認為,Redshift的理念很好,亞馬遜在以指數級提升CPUs處理數據集。一旦數據到位,你就可以隨意進行交叉分析。如果你的數據已經在你想要的位置,那就容易多了。
數據傳輸問題在云計算實施中仍然亟待解決,包括亞馬遜在內。據幾名與會者稱,亞馬遜的新品更多地傾向于它的自身用戶,也就是那些數據已經在亞馬遜云端的企業。
Harden說:“你怎樣才能將幾PB的數據上傳到云端?這可不是用FTP在一小時之內就能搞定的事。Redshift的市場定位顯然是那些已經在亞馬遜云端運營的公司或者電子商務網站。”
雖然亞馬遜主推的是管理效率和成本節約,但公司也對Redshift的速度加以宣傳,評估主要基于自身體驗。
Jassy說到,Redshift的私有測試版中包含了內部亞馬遜企業數據倉庫——該數據倉庫由亞馬遜花費了數百萬美元建成。
公司數據經理人稱,原本花費好幾個小時的查詢在一小時以內就完成了,部分查詢在現有數據倉庫中通常花費五到十分鐘,但在Redshift中只需要幾秒鐘。這很有可能是高性能的ParAccel部件產生的效果;這一次,亞馬遜很明顯瞄準了更為廣泛的用戶群體。