時至今日,各大超大規模服務供應商正憑借著手中的硬件與軟件工程技術相互競爭,旨在以高于摩爾定律所規定的速度削減基礎設施中的計算與存儲組件使用成本,從而令自家系統在殘酷的市場當中脫穎而出。而超越摩爾定律的一部分動機在于,此類服務供應商的主要運營成本恰恰來源于此,而任何一點點提升都會給業績帶來巨大的推動。不過對于像谷歌以及微軟這樣的技術巨頭而言(后者目前正憑借著其Azure公有云向市場王者Amazon Web Services發起沖擊),計算與存儲容量在使用成本上的一路走低則意味著他們能夠進一步削減服務方案價格,從而打擊AWS的市場優勢并奪取其固有份額。
那么從長遠角度來看,這些云服務供應商到底能否利用虛擬化基礎設施帶來積極而且持續的價格削減成效?或者說這僅僅只是一場巨頭們的角力游戲,根本不適用于那些規模較AWS、微軟Azure以及谷歌云平臺為小的其它云服務供應商?
從谷歌角度來看,其過去一年當中所做的一切都是為了盡可能降低其計算與存儲資源的使用成本,此外亦在盡可能踐行其對于自家公有云方案作出的價格下調承諾。這位希望能夠在云計算市場上進一步拓展自身占有率的搜索引擎巨頭同時也為各類計算實例推出了與Amazon的精確實例相仿的方案選項——名為Preemptible VM——旨在保持現有低價舉措之外(例如按分鐘計費以及為按需實例的長期使用提供價格優惠),進一步把價格控制在更低水平。(谷歌公司目前并不提供預留實例服務,而微軟亦不具備此類選項,但后者允許企業客戶在許可協議當中以批發價采購Azure云資源。)
谷歌Compute Engine基礎設施云當中的預定虛擬機計費方式為我們帶來了幾項啟示。首先,谷歌公司在自有數據中心之內擁有充足的備用容量,這意味著在其內部工作負載不必占用這些系統時,谷歌能夠將其拿出來供云服務客戶偶爾使用——否則這部分基礎設施將只會無意義地空轉而沒辦法帶來任何收益。(正如曾經效力于微軟、且目前繼續在AWS從事同樣的基礎設施運營工作的James Hamilton所言,我們能做的最愚蠢的決定就是關閉某臺服務器。相反,比較明智的方法是給它找點活干,畢竟對于已經購置進來的設備來說,只要不用就是種浪費。)
除此之外,Compute Engine當中所存在的精確實例也證明谷歌公司擁有足夠龐大且多元化程度較高的客戶群體,他們對于計算實例有著各自不同的需求,而且從客戶角度出發、其足以通過有序方式將過剩產能消耗掉。對于云服務供應商來說,除非其對于當前客戶的實際資源需求量了然于胸,特別是利用并發工作負載而非向系統中添加新負載以提高處理任務完成效率,否則根本沒辦法提供精確這類云基礎設施計費方案并借此降低整體計算成本。當然,大家可以非常直觀地了解到精確計費機制的吸引力所在,因為它允許客戶將本來毫無用處的閑置容量充分利用起來,同時幫助云服務供應商免除對基礎設施容量作出進一步拓展所帶來的額外成本。隨著客戶不斷在實踐當中了解到如何針對自己的工作負載選擇按需、預留與精確實例,他們也將能夠幫助服務供應商提高現有服務器及存儲集群的使用效率。
對于云服務的相關各方來說,這無疑都將是一種三贏的積極局面。
正如谷歌公司在去年三月發動云服務價格戰時所解釋的那樣,由于其Compute Engine實例的價格削減幅度已經超過32%,因此云方案的費率變動算是在一定程度上符合了摩爾定律所作出的設想。谷歌公司認為這才是云服務供應商應該拿出的成果,而客戶自然也樂于享受這樣的良好收效。
根據這位搜索引擎巨頭以及全球四大公有云服務商之一麾下技術基礎設施團隊高級副總裁Urs Hlzle給出的計算結果,云基礎設施使用價格每年的下調比例可能會在6%到8%之間,與此同時整套系統的使用成本則會以20%到30%的幅度逐年增加。因此來看,系統在制造與維護方面必然會出現一定程度的錯位,這是因為隨著時間推移用戶需要負擔的成本會越來越高。不過谷歌公司卻并不為此所動,其制定出的努力方向仍是盡可能讓云服務使用成本遵循摩爾定律的變化曲線。除了自然遞進的云服務價格下調之外,用戶還能夠在持續使用所購買的Cloud Platform資源時享受到自動優惠折扣。具體而言,客戶能夠以分鐘為單位而非像過去那樣以小時為單位進行資源使用計費——這是谷歌公司率先推出了新型計費機制——而本周谷歌方面公布的價格下調公告指出,精確實例計費將把谷歌云的使用成本壓縮到前所未有的低點。(大家應該會注意到,谷歌公司并沒有在去年三月針對Compute Engine推出精確實例計費機制。毫無疑問,谷歌當時已經有能力拿出這套方案,但也許他們是希望能夠把這種主動性保留到2015年,因為這時其客戶群體的規模必然會更加龐大。)
在超大規模環境下,情況與典型的企業內部數據中心往往會有所區別。容量規劃不再是一項針對各自企業所設定的精準科學,而對于需要處理大量自身業務(包括各類需要運行在成千上萬個節點上的應用程序,再加上總數超過百萬的節點總量)以及將數萬乃至數十萬客戶順利承載在自家Cloud Platform之上的谷歌公司來說,制定容量規劃顯然會更加輕松。微軟與Amazon雙方在過去接受媒體采訪時都曾經提到,容量規劃對于他們來說并不是什么大問題——盡管這聽起來確實有些難以置信。面對數量龐大的用戶以及跨越多個時區的可觀基礎設施布局,就連負載峰值與低谷也開始得到有效緩和,而客戶群體的發展速度也更具可預測性。斥資購置基礎設施容量當然是件需要重視的大事,因此各云服務供應商也會建立起理想的供應鏈,從而利用來自多家供應商的定制化設備添加進來以滿足客戶對資源容量的需求。
超大規模公有云運營商會以整車運價采購系統組件——跟字面意思差不多,設備確實是一車車被運進基礎設施所在位置的——而歸功于對系統方案本身的精確定制外加以獨立組件為單位向供應商及系統制造商下達訂單,云服務供應商往往能夠獲得極為低廉的產品購置成本,從而保證自身容量成本呈現出逐年遞減的勢頭。由Facebook公司發起的開放計算項目正是希望將超大規模所蘊含的優勢從大型服務供應廠商轉移至更多其它企業當中,不過到目前為止,這套方案基本還僅僅停留在理論層面——因為絕大多數企業所需要的設備總量僅為數十或者數百臺,而非像公共服務供應商那樣需要數千甚至數萬臺。當然,企業仍然能夠通過從戴爾、惠普、Supermicro乃至廣達電腦等廠商處購置半定制化設備而享受到開放計算項目帶來的一定回報。
[page]云服務的價格能夠壓縮到怎樣的水平?
目前對于IT部門而言,這場激烈的云服務價格戰僅僅存在于三大頂級云服務供應商之間——這是因為其它幾十家供應商在云容量規模方面根本達不到這三家巨頭的水平或者說高度。谷歌、微軟以及AWS各自擁有著超過一百萬臺設備。而且根據AWS公司所給出的一部分自有數據中心數據,其基礎設施內的設備數量很可能在140萬臺到560萬臺之間,而且我們認為其設備數量超過300萬臺的可能性非常高。Gartner公司在去年發布的報告中則預測稱,AWS旗下的設備總數應該在240萬臺左右。Gartner方面同時指出,AWS的整體服務器數量達到了其后十四家云服務供應商設備總和的五倍。Rackspace Hosting與IBM SoftLayer各自擁有著規模較小的云服務體系。根據Rackspace公司發布的財報顯示,截至今年三月底該公司擁有11萬4105臺設備,而SoftLayer在2014年一月時的設備總量已經超過了10萬臺,而且根據IBM方面的說法其每年約以2萬臺的速度遞增。因此截至目前,藍色巨人的基礎設施規模應該在12萬5千臺左右。換句話來說,一旦我們將視線投向AWS、谷歌以及微軟之外的云服務供應商,其現有基礎設施的規模、或者說服務器整體數量會出現快速跳水。
而這一點非常關鍵,至少就目前來說大部分云服務仍然立足于裸機設備,而這也是單一應用程序、集群化應用程序節點或者虛擬機管理程序的托管基礎——而且至少與軟件容器機制相比,這種方式的日常成本顯然要高得多。所有這些裸機設備都能夠在不同時段實現共享,但卻無法在同一時間范圍內被并行使用。而這就令我們很難提高資源利用率,這意味著云服務供應商幾乎無法利用多種工作負載及客戶需求對裸機設備成本進行攤薄。
正是考慮到裸機服務器節點的上術局限,如今OpenStack項目才將其作為Ironic方案的一大關鍵性發展方向。任何能夠在裸機之上實現應用程序部署提速的機制都將有效改進資源使用效率。而且如果容器能夠將更多處理任務囊括在同一臺設備之上,那么即使不打算借此取代服務器虛擬化方案,這也足以將資源利用率推向新的水平。這種裸機配置加軟件容器的技術組合在很多情況下甚至有能力取代管理程序與虛擬機在云環境當中的地位,而這自然也有助于云服務供應商完成對摩爾定律的遵循。在大多數情況下,容器將運行在虛擬機基礎之上,而這在提高安全水平以及工作負載管理能力的同時,當然也會浪費掉一部分設備性能、從而削弱摩爾定律的理論收益。
從客戶的角度出發,谷歌公司對其Cloud Platform作出的價格持續下調承諾確實非常美好,而這也許意味著谷歌擁有出色的先見之明。下面我們來看谷歌公司自2013年11月首次推出其Compute Engine基礎設施云服務之后,到底有沒有踐行自己的降價承諾:
沒有哪家云服務供應商愿意把錢浪費在不必要的基礎設施容量購置上,而谷歌公司在過去十八個月當中已經將其Compute Engine容量使用費降低了50%的作法并不代表其會在未來十八個月中繼續保持這一降價趨勢。另外,這自然也不代表所有類型的計算與存儲容量都能獲得同樣的價格下調幅度。事實上,Compute Engine的價格下調速度在一年之前基本保持平穩,但不同類型的實例有著不同程度的成本變動曲線。微型實例的降價幅度約為30%,而標準實例的價格降幅僅為20%,負載強度較高的存儲實例價格降幅約在15%,而高CPU使用率實例的價格下調空間只有可憐的5%。
以上圖表當中所示的典型價格曲線指的是全部客戶在使用Compute Engine時為特定實例類型所支付的平均使用成本,這似乎意味著大部分客戶都已經享受到了谷歌公司所提供的長期使用折扣——這項政策會自動應用至Compute Engine上的按需實例當中。隨著按需實例使用周期的不斷延長,從第二個月起用戶所需支付的實例價格開始不斷降低。如果大家每個月使用某實例的時長比例僅在25%甚至更低,那么我們需要為其支付全額使用費; 但在這一比例提升至每月50%時,各位則可以享受到10%的計費折扣。(計費機制并非以周為單位而是以小時為單位,不過我們選擇以周計算來簡化顯示效果。)
當然,谷歌公司的想法是盡可能早且盡可能持久地幫助Cloud Platform完成所需容量規劃及調度。而且預訂虛擬機實例則屬于另一種達成這項目標的工具。在這種情況下,容量需求可能不像供應流程那樣易于預測,或者使用量相對而言較為混亂。(只有云服務供應商能夠了解資源容量的分配情況,他們甚至會向華爾街等主要客戶發出警告,表示過去的性能水平并不能作為未來性能的保證。)在預訂虛擬機實例的幫助下,所有此類實例都將以beta形式存在于各Cloud Platform區域當中,而谷歌公司直接將所有實例類型的價格削減70%; 當然,使用此類新型實例時需要注意一點,即谷歌可以在任何時間將其關閉,而且運行在其上的工作負載最長不能超過24小時,而且用戶無法以實時遷移方式將其中的虛擬機負載轉移到按需實例當中。這類實例最典型的適用情況就是應用程序需要以分布式方式運行,且能夠在任何時候遭遇節點丟失時繼續正常運行。舉例來說,大家可以將其視為在Hadoop與MapReduce領域非常常見的三重數據存儲負載。大家也可以將應用程序的一部分片段運行在按需實例當中,另一部分則交由預訂實例負責。當然,大家應該將此作為對現有按需實例方案的補充,而非以廉價方式獲取資源容量的辦法。
摩爾定律的缺陷所在
需要注意的是,谷歌公司去年曾經表示其定價機制將遵循摩爾定律,這種說法的實質恐怕并不是持續提高資源容量規模、而是盡可能從單位容量當中獲取更理想的使用效率并由此降低成本。這幾乎必然意味著谷歌公司不可能在定價方面采取更具侵略性的下調幅度,除非其需要以價格為手段向AWS以及Azure施加壓力。除此之外,這也意味隨著摩爾定律曲線對計算、內存以及其它存儲資源成本的壓縮,谷歌云服務的價格亦必須同步下降。
而這正是問題所在。隨著容量使用成本的不斷降低以及價格的同步削減,云服務的運營利潤亦將愈發少得可憐。有鑒于此,云服務供應商將需要通過規模化求盈利,從而保證自身擁有健康的營收數字與利潤額度。為了切實提升年度收益增幅,云服務供應商將不得不確保自身業務擴展速度高于摩爾定律設定的價格降幅。
所以真正的問題在于:公有云到底能否持續實現營收增長,例如在長期角度實現同比40%以上的年均增幅,同時仍然為谷歌、微軟以及Amazon等服務供應商帶來符合預期的利潤水平?從短期角度來看——例如在過去九年當中,AWS一直處于穩定的發展態勢,但在接下來的五到六年中摩爾定律很可能在計算領域遭遇某些物理局限——這一目標似乎并不難實現。
不過就當前的狀況分析,摩爾定律的推進腳步已經開始逐漸放緩——除非能有新興技術成果出現并扭轉這一切,否則未來計算、存儲與網絡資源容量的成本下降幅度將愈發有限。而各云服務供應商也將因此而很難在進一步下調價格的同時保障利潤水平。不過無論是否出現新興技術、也不管各供應商到底是否面臨著生存壓力,云計算領域的這場價格戰仍將繼續存在——更具體地講,他們不僅要舍棄利潤,更需要做好白忙甚至虧損的心理準備來盡可能保證業務規模增長。這種狀況原先在PC及服務器領域也曾經出現過,而且我們有理由相信這種狀況在有著眾多技術巨頭加入的云業務領域亦將存在、甚至呈現出更為可觀的實際規模。
原文標題:Can Cloud Pricing Stay On Moore’s Law Curves?