數據中心2014：軟件定義的計算

責任編輯：editor006 |來源：企業網D1Net 2014-12-08 14:36:43 本文摘自：比特網論壇

在《數據中心2013：硬件重構與軟件定義》當中，我們已經介紹了硬件重構與軟件定義的概念，如《生態系統與規模的角力》說的一樣，“軟件定義”的概念不是我們的發明，“硬件重構”也不是，不過，把“硬件重構”和“軟件定義”放在一起明確的提出，確是我們首創。

盡管本年度的數據中心技術研究報告的標題不會再用“軟件定義”，但是，我們仍然打算繼續談“軟件定義”，因為我們覺得，盡管計算實際上受軟件的“定義”已經很多年，但大眾離真正意義上的“軟件定義”還有很大距離，實際上，我們認為，軟件定義網絡在這方面還要更先進一些。當然，我們也會談到生態系統的問題，這也實際影響到了軟件定義計算的發展路線——變成了現在這個樣子的原因。

我們希望的軟件定義計算是什么樣子呢？套用Andrew S. Tanenbaum在其著作《Distributed Operating Systems》中提到的五點：Transparency (透明性)、Flexibility(靈活性)、Reliability(可靠性)、Performance(性能)、Scalability(伸縮性)。計算機科學家Tanenbaum是Minix(一種Unix克隆操作系統)和Amoeba(一種原生分布式操作系統)的作者，這五點要求針對的是分布式系統，而在現實世界中，多臺計算機組成的具有一定程度耦合的計算系統實際上都是分布式系統的一種——包含云計算、高性能計算在內，因此這五點要求包含了我們對實際上的計算系統的要求。

數據中心2014：軟件定義的計算

分布式計算有Scale Out需求的原因，也有基于實際上地理分布計算的原因

盡管分布式計算提起的不多，然而我們希望的軟件定義計算系統也同樣擁有相同的訴求，這樣的系統都需要通過特別開發的硬件或者軟件來達成，也就是硬件定義或者軟件定義。盡管邏輯上，我們不排除硬件上實現這樣的計算系統，但毫無疑問，通過軟件實現可以最好地滿足其中Flexibility(靈活性)這一點，這也是軟件定義興起的重要原因之一。

除了Flexibility靈活性之外，Reliability可靠性、Performance性能、Scalability伸縮性這三者是互相關聯的。分布式系統之所以存在除了物理上需要的分布之外，還因為分布式本質上具有的容錯性，如HA高可用性，兩地三中心等等，都是通過分散的冗余系統來去除單點失效。注意到Reliability(可靠性)和Availability(可用性)以及Fault Tolerance(容錯)的聯系與區別，一個高可靠的系統必然是高可用的，而且還不僅如此，高可靠的系統還必須保障運作的正確性，就像在分布式存儲系統當中，通常會通過保存多個副本來保持數據的可用性，但是仍然需要額外的機制來保證數據的正確性——特別地，在存儲系統中就是“一致性”，實際上可靠性和一致性是需要取舍的，副本數量愈多保持一致性就越難;對于Fault Tolerance(容錯)，基于Hypervisor的底層方案已經可以提供一些不錯的方案，如VMware vSphere Hypervisor 6.0已經可以提供4個vCPU的虛擬機Fault Tolerance，但是如果我們如果需要更強的虛擬機容錯能力呢？我們希望的是可靠的計算系統，除去無法預測的人為故障、難以消除的軟件Bug之外，我們設計的計算系統本身的架構能滿足這個需求嗎？從如Amazon等等的公有云廠商偶爾出現的大規模故障來看，我們還有很多的工作要做。

數據中心2014：軟件定義的計算

Active-Active，主主模式(或稱雙活)已經算是一種比較高級的HA模式

其次是Performance性能，性能是非常重要的，因為性價比關系到運營成本，和整個生態系統都有關聯，這一要點也是和硬件和軟件都緊密相關的。在HPC領域，一個重要的部件就是InfiniBand，或者說，其核心：RDMA(Remote Direct Memory Access，遠程直接內存訪問)，這是一個可以加速分布式系統中不同節點通信的技術，簡而言之，RDMA是讓數據通信可以bypass掉操作系統的Kernel以及TCP/IP或者其它的協議層，以及降低數據復制的次數，達到降低通信延遲的目的，一些HPC系統并沒有用InfiniBand而是使用了以太網，關鍵在于高端的以太網也提供了RDMA的能力，并且成本更低，InfiniBand、RoCE、iWARP三種RDMA規范中后兩種就是基于以太網的。當前，RDMA網卡的價格也已經降低到了和普通網卡不太遠的程度。

數據中心2014：軟件定義的計算

RDMA(Remote Direct Memory Access，遠程直接內存訪問)，允許跨網絡的快速內存空間訪問

至于軟件，有大量的工作是關于充分發揮硬件的特性，對NUMA的優化是否已經充分？Linux Kernel社區目前還在NUMA Awareness的內存管理以及處理器調度方面進行努力，而軟件定義計算上更為重要的部件——Hypervisor，在這方面的工作還未達到令人滿意的地步。此外，還有更多的硬件輔助虛擬化特性，如APICv、VMCS、VMFUNC，等等，在這方面仍然有非常多的工作可以做。

然后是Scalability伸縮性，一套算法可能在數十上百個節點上工作良好，但到上千個節點可能就效率低下，到了更多的節點就徹底不能工作，不同的規模大小會影響到體系架構的選擇，小到多達單個封裝達18個物理核心的Haswell-EP至強處理器，大到數百節點的Hadoop，MapReduce，Spark這樣的軟件計算系統、數量不明的Intel RSA這樣的硬件架構、乃至數PiB級別的Ceph，GlusterFS這樣的分布式存儲系統，都需要對其架構、算法進行衡量。我們期望的計算系統需要有良好的伸縮性，雖然一個算法不可能滿足所有的情況。

數據中心2014：軟件定義的計算

Map/Reduce是一種時下很流行的大數據/分布式計算框架

最后提到的是Transparency透明性，對于大多數人來說，透明性是最重要的一點，它實際上和上面的Scalability伸縮性有一定聯系。透明性的含義很多，其中大概最重要的一點就是Single System Image(SSI，單系統映像)，很好滿足這個要求的系統很少，因為滿足它要求分布式系統對所有用戶來說，就像是單個系統，區別僅僅是具備的CPU、內存、硬盤更多更大。當前的不少系統可以在不同的虛擬化層次上至少部分地滿足這個需求，例如一些超算系統使用作業系統來分發計算任務到不同的節點，就“作業”這個應用程序的層次來說，整個計算系統呈現的是一個單系統映像，然而限制也在于應用程序層，只有特定的應用才有可能進行分發;另一些超算系統則基于各種分布式通信的庫，如MPI等，只要基于這些庫進行編程就可以應用到更多的計算能力。更為理想地，SSI可以在操作系統層實現，現有的多線程應用不需要就可以透明地、自動地應用不同節點上的運算能力。我們當前的IaaS云計算環境很大程度上僅僅是提供了一堆松散的小虛擬機，PaaS和SaaS有望提供一定程度的SSI能力。

數據中心2014：軟件定義的計算