編者的話:邱洋,品高云(BingoCloud)的產品總監(jiān),國內首個商用云操作系統(tǒng)BingoCloudOS 云操作系統(tǒng)由他的團隊創(chuàng)建,從2008年開始,他見證了品高云從零到現(xiàn)在的過程。現(xiàn)在是品高云的第七個年頭,他筆下的“品高云七年”是怎樣的?
上回給大家分享了《品高云七年 | 第二部:靠譜的云廠商——品高云的發(fā)展歷程與定位》(點擊閱讀),今天為大家?guī)淼谌浚ㄏ拢荷a運行支撐到底對云有什么需求。
邱洋 品高云產品總監(jiān)
“品高云七年”系列第三部(下)
生產運行支撐到底對云有什么需求
01 概述
時代已經進入二十一世紀,第四次工業(yè)革命已經到來,信息化已經成為企業(yè)生存的“必要條件”,而各種支撐業(yè)務運行的IT系統(tǒng),就如同企業(yè)前進的發(fā)動機,必須得到無微不至的、持續(xù)的呵護與安全保障。
業(yè)務系統(tǒng)的安全保障是個系統(tǒng)工程,它講究的是木桶原理——短板決定了上限。因此除了機房風火水電等基建設施需要符合相關規(guī)范外,包括用于支撐業(yè)務運轉的硬件系統(tǒng)(如服務器、存儲、交換機、負載均衡等)、基礎軟件系統(tǒng)(如操作系統(tǒng)、中間件、數據庫等)、應用系統(tǒng)(如CRM、ERP、OA)等多方系統(tǒng)都具備更高的能力,方能確保業(yè)務的可靠運轉。
另一方面,因為云計算技術的引入,上述系統(tǒng)被【虛擬化】(如:硬件設備變成了虛擬資源)和【云化】(如:傳統(tǒng)應用架構變成了分布式架構) ,因此遵從疊加原則,云平臺需要在傳統(tǒng)的、物理的保障架構上,提供更多的保駕護航能力,才讓企業(yè)能值回票價。
綜合品高云已有大型央企、金融、制造、政府、公安等對生產運行有著高要求的客戶需求的總結,發(fā)現(xiàn)客戶對云平臺的需求主要集中在:云平臺要經過安全認證、多維度的HA保障、擴展性保障、從容面對突發(fā)狀況、更便捷的備份以及給“云外 ”資源提供保障等6個需求。
02 通過驗證的安全性
一個人跟你說他會開車(主觀),你可能不信,如果碰巧你也不會開,那恐怕他說再多的技術道理你也很難相做出判斷;而一堆人都說這個人可以,而且他還亮出駕駛證,甚至開車到你面前(客觀),你就不得不信了。
云平臺就是這樣的東西,需要通過多方面的安全的客觀證據來證明他的安全性,它們應該包括:
產品安全方法論(體系靠譜嗎?)
產品的安全應該基于某種約定俗成的安全標準,而且不僅要說明清楚自己的安全功能,還應該說明產品的安全邊界在哪里,對于邊界外的事物給予建議,這樣用戶才能用著放心。
云安全責任共擔模型
產品安全資質(技術靠譜嗎?)
現(xiàn)在市面上針對云產品的安全標準化有很多,如針對公有云有國際的CSA(云安全聯(lián)盟)的STAR測評、國內的可信云測評;針對私有云有國內的等級測評、公安部的信息安全測評、解放軍的信息安全測評等,通過測評機構的專業(yè)化經驗,可以有效幫助企業(yè)提前過濾一些安全分風險。
近些年隨著云計算的火熱,一批云計算的安全測評機構也如雨后春筍般冒出來,建議企業(yè)針對自身的業(yè)務場景來查看產品的安全資質,如果公有云場景可以參考可信云,如果企業(yè)私有云可以參考公安部測評,而政務云可參考等保或解放軍的測評。
公安部信息安全產品對云操作系統(tǒng)的檢測
公司安全資質(公司靠譜嗎?)
有句話說的好“跑的了和尚跑不了廟”,再好的技術產品,如果研發(fā)的企業(yè)自身存在安全漏洞弊端,也會為客戶實施云計算埋下不穩(wěn)定因素,針對企業(yè)的安全認證有ISO20000、ISO27001等,下面是摘抄百度百科上對ISO27001的介紹:
信息安全管理體系標準(ISO27001)可有效保護信息資源,保護信息化進程健康、有序、可持續(xù)發(fā)展。
通過(ISO27001) 認證能保證和證明組織所有的部門對信息安全的承諾。
通過(ISO27001) 認證可改善全體的業(yè)績、消除不信任感。
獲得國際認可的機構的認證(ISO27001) 證書,可得到國際上的承認。
品高軟件通過ISO27001的資質證明
案例應用場景(客戶相信嗎?)
俗話說“光說不練假把式”,獲得再多的資質僅僅只是底線門檻,云平臺只有在安全剛需客戶的生產環(huán)境中部署,才能夠最終證明產品的安全可靠程度,這些客戶場景包括:政府政務云、公安警務云、金融云、部隊云,甚至企業(yè)公有云等。
基于品高云的廣州電子政務云的等保測試報告
03 多維度的HA保障
世界上有一個廣為人知的理論——木桶理論。說的是:木桶是由多塊模板組裝而成,而最短的那塊木板決定了盛水的多少。而對于業(yè)務系統(tǒng)的可用性也是同樣的道理,無論你的服務器多么強大,如果操作系統(tǒng)藍屏了,那么服務也將終止。
因此要達到應用系統(tǒng)的高可用(HA)就要從多個層面去考慮,一般包括:硬件層、虛擬化層、基礎軟件層、應用架構層以及云管理平臺層等5個層面:
多維度HA的云平臺架構
硬件層HA
一般是指承載業(yè)務運行的物理設備,傳統(tǒng)上的解決思路一般是冗余,例如:容錯內存、磁盤raid、網絡鏈路聚合等,還有更多這里不一一列舉,總之硬件層的HA和錢是成正比的,單機越可靠,成本就越多。而云化之后反而對硬件的要求降低了(云計算采用集群可靠性來替代對單機可靠性的依賴),類似google這樣的極端情況,甚至自己定制標準將不必要的硬件模塊裁掉,同時從ODM而不是OEM廠商采購服務器,可以更進一步降低成本。當然傳統(tǒng)企業(yè)還可以繼續(xù)沿用自己信賴的硬件廠商,只不過實施云計算之后,不必被銷售綁架買最貴的產品了。
虛擬化層HA(需要將基礎設施云化)
虛擬化相當于運行在物理設備和應用之間的“中間件”,它將底層物理設備的計算(如cpu)/存儲(如磁盤)/網絡(如通信)能力,通過“編程方式”重新組合分配給應用,既可以模擬出一臺規(guī)模更小的虛擬機(VM)也可以組合出一臺容量更大的存儲設備。而要保證虛擬化層的HA,主要依靠的是分布式架構。而核心思路是“雞蛋不要放在一個籃子里”和“螞蟻雄兵”。在者兩個思路下,主要關注點就是“籃子和螞蟻的多少”,它們越多整個系統(tǒng)就越可靠。
基礎軟件層HA(需要將傳統(tǒng)軟件云化)
在企業(yè)中有這么一類軟件,對于業(yè)務部門,根本沒聽過它們,也用不上它們,而每年IT部門卻要付出大量的成本進行維護;一旦它們出了問題,整個業(yè)務系統(tǒng)也將灰飛煙滅。它們就是基礎軟件,在企業(yè)內部稱之為中間件和數據庫,如:websphere、weblogic、tomcat、Oracle、SQLserver、MySQL等。其實這些軟件本身隨著業(yè)務的進化,已經具備了高可用的集群能力,例如WAS集群、Oracle的RAC等技術的部署和調優(yōu),云平臺要做的就是把這些能力“自動化”,讓它們的使用方式“更傻瓜化”。
oracle高可用dataguard自動化云服務
應用架構層HA(需要將應用組件云化)
最新的應用系統(tǒng)往往采用了多層架構,如MVC架構、微服務架構等,而每個層面也都相應部署了HA。但是其中涉及的數據庫、附件存儲、消息隊列、甚至負載均衡等,往往還是采用傳統(tǒng)技術實現(xiàn),這在一定程度上需要程序開發(fā)人員還要去了解數據庫、存儲乃至消息隊列的HA技術,才能讓應用HA。但是正所謂“應該讓專業(yè)的人干專業(yè)的事”,一般云平臺自身提供了大量的“云服務技術”如nosql服務、彈性伸縮服務、消息隊列服務、負載均衡技術、對象存儲等技術,而這些技術自身都是“容錯”架構的,而針對這些服務所設計出來的云架構模式被成為CDP(云設計模式),這種模式下可以更好的發(fā)揮云計算的HA能力,讓應用更具可用性。
一個電子商務支付的CDP應用架構設計—以AWS服務為例
云管理平臺層HA(需要控制器集群化)
作為負責資源全局調度的“控制器”,云管理平臺中分別針對服務器資源的【集群控制】、針對存儲資源的【存儲控制器】、針對網絡資源的【SDN控制器】乃至上層的UI控制臺和負責應用調用的API服務都需要具備HA的能力,并且最好具備“集群”能力,因為只有這樣才能同時解決性能瓶頸和單點故障問題,因此考量云管理平臺的可靠性重點應該放這些方面。企業(yè)用戶可以在實際項目中,采用類似整個機柜掉電的方式,來檢查云平臺整體的可靠性。
機柜掉電控制器遷移示意圖
04 更大的單集群規(guī)模
當我們去購買筆記本電腦的時候,銷售人員總會推薦我們買有更多內存插槽的產品(這樣的電腦往往價格更高),理由是:當你未來想玩大型游戲的時候,小內存是很苦惱的,再花錢買一臺新電腦成本更高。這里面說的就是產品的擴展性。
在這里,我們不敢茍同銷售人員的趨利目的,但是擴展性,的確是企業(yè)在采購云平臺需要注意的問題。試想下未來生產上了云后,發(fā)現(xiàn)很快到達了平臺的某個瓶頸,到時候想換產品或技術路線也為時已晚。而對于云平臺來講,擴展性意味著:更大的單集群規(guī)模、更快的第三方技術整合。
更大的單集群規(guī)模
單集群規(guī)模指的是在一個HA集群中,物理服務器的數量。因為在HA集群中任意物理機宕機,其中的服務會自動遷移到另外的物理機,因此集群規(guī)模越大,說明可靠性越高(想象下冷兵器時代,因為兵器都差不多,因此軍團數量越大說明戰(zhàn)斗力越強)。同時更高的集群上限,也意味著未來的擴展性更高,否則就需要部署多個小的獨立集群,可能存在:服務宕機后沒有可用資源給到它,或者另外的集群有空閑但用不上的窘迫局面。
品高云在某客戶的單集群1K臺物理服務器
更快的整合第三方技術(開放架構)
現(xiàn)代技術正在飛速發(fā)展中,客戶的需求永遠不可能被一家廠商滿足,因此不同領域有不同的專家存在,這就需要云平臺可以融合更多第三方技術。這就需要云平臺提供一個開放的架構,在計算、存儲、網絡、服務等多個層面提供能力的開放。例如:通過網絡能力的開放融合第三方安全產品(如防火墻、WAF、IPS、防毒墻等)增強客戶的安全防火能力;通過存儲能力開放允許第三方應用(如網盤、視頻轉碼、大數據處理等)增強客戶業(yè)務的吞吐量等;通過編排能力的開放允許用戶定制自己的個性化云服務(如銀行的WAS集群服務、高校的HPC服務、動漫業(yè)的3D渲染服務等等)。
通過SDN能力擴展云平臺的安全能力
05 從容面對突發(fā)狀況
現(xiàn)如今企業(yè)面臨著內部創(chuàng)新需求、外部互聯(lián)網倒逼的雙重壓力,使得以往被封鎖和保護的內部IT系統(tǒng),開始突破防火墻的束縛,越來越多的業(yè)務系統(tǒng)需要跟internet打交道,這種情況下互聯(lián)網客戶訪問的不確定性、周期性問題就凸顯出來。例如:一個醫(yī)療行業(yè)的ERP系統(tǒng),過去都是企業(yè)內部在使用,人員和訪問時間都比較固定,而隨著產業(yè)鏈上下游(如物流、電商、醫(yī)院等)加入到這個系統(tǒng),那么它的訪問將變得更加需要彈性能力;另一個例子是公安的互聯(lián)網系統(tǒng),隨著服務型政府被提出,公安的報警、查詢、辦事等業(yè)務也可能被搬上app store,被廣大市民使用,也會造成訪問的不確定性。
云平臺在應對來自互聯(lián)網訪問壓力時,一般需要三個應對策略組件,分別是:SDN負載均衡、彈性伸縮、云監(jiān)控。
云平臺彈性伸縮功能原理
SDN負載均衡
通過將負載均衡軟件固化在云中,提供類似硬件F5的能力,將云中的vm組成集群,抵抗并發(fā)壓力。而傳統(tǒng)的軟件負載均衡軟件主要有【反向代理模式】和【DR模式】兩個類型,反向代理模式的負載均衡存在單點問題(因為所有流量都要經過負載均衡服務器);而DR模式(下行流量由后端vm直接發(fā)向客戶端)由于需要所有VM和負載均衡都需要額外配置VIP,從而對運維管理和自動化造成了挑戰(zhàn)。
如果云平臺可以提供DR模式的負載均衡,同時又避免運維操作,將是一個十分優(yōu)化的方案。這種架構下就需要SDN能力的引入,通過將負載均衡作為一個NFV組件進行管理,而VIP的事情交給流表處理,而用戶則無需關系這一細節(jié)。未來還可以按需加入WAF等功能,進一步增強用戶應用的可靠性。
SDN負載均衡的架構示意圖
彈性伸縮
云平臺必須具備的能力,它通過模板定義應用的部署案,并配置了當負載上升、下降時的應對策略。好一些的云平臺還允許設定彈性的周期性有效性,例如:12306系統(tǒng)只在春運期間有突發(fā)流量時做出響應,而平時則作為事件上報監(jiān)控系統(tǒng),通知管理員。
云監(jiān)控
傳統(tǒng)IT中,監(jiān)控可能只作為一個報表系統(tǒng),而在云中云監(jiān)控的地位至關重要。一方面,它需要時刻搜集資源的各種數據如cpu變化、I/O讀寫、網絡吞吐等,并同時進行匯總生成top10、折線圖、導出excel等;另一方面,在設定的閾值到達時需要觸發(fā)后續(xù)操作,如發(fā)送郵件給管理員、上報企業(yè)的CMDB變更、觸發(fā)彈性等。同時對于應用層面的變化量還需要允許用戶自定義監(jiān)控指標,如客戶注冊數、數據庫進程內存等,從更精確的觸發(fā)后續(xù)動作。
云監(jiān)控系統(tǒng)示意圖
06 更便捷的備份
如果說企業(yè)里面什么是最重要的,那么備份恐怕要排到前三,備份技術的發(fā)展,也從早期的磁帶的定時備份向raid技術的實時備份發(fā)展、從SAN存儲的雙機鏡像備份向分布式的多副本冗余發(fā)展。如果說傳統(tǒng)模式下的備份還局限在單數據中心內,那么隨著業(yè)務可靠性需求的提高,越來越多的企業(yè)尤其是金融和重點政府單位開始考慮多數據中心間的備份。
而對于云平臺來講,除了支持傳統(tǒng)的物理設備雙機的模式外,還應該提供異構存儲設備(如SAN到分布式),異地數據中心間的數據備份,而支持備份的對象應該包括虛擬機、虛擬硬盤和網絡架構等。在這種架構能力下:A數據中心的資源被異步或同步的備份到災備中心,在災備中心可以隨時發(fā)起演練操作(由于云采用SDN架構,因此除了虛擬機和虛擬硬盤被快速模擬之外,網絡配置和IP等也可如此,真正模擬全生產環(huán)境)從而做到有備無患。
跨數據中心云資源災備
07 提升“云外資產”可靠性
正如gartner所說:“云計算將成為未來業(yè)務的基礎平臺”,而如果企業(yè)建設好的基礎平臺,只能服務云內的虛擬化資源,那只能說它只發(fā)揮了一半功效。
眾所周知,傳統(tǒng)企業(yè)長期的IT建設道路中有大量的遺留應用,而這些應用有些不得不、有些則必須運行在物理設備中;前者可能是年代太久,開發(fā)商已經不提供支持,而企業(yè)自己不敢輕舉妄動;后者則對硬件有特殊要求,如加密卡、行業(yè)軟件的硬件綁定等。
而實際上云平臺的一個重要作用,是能力的開放。如果可以將云平臺中可靠的計算、存儲、網絡能力通過API或其他方式直接提供給物理機設備中的應用直接使用,那么將進一步提升應用的健壯性。而這里面存儲能力的開放往往是首當其沖的,因為分布式存儲池的建設,第一次使得企業(yè)有了更大的存儲容量和更低的成本(以前的SAN更貴、維護成本更高),正好可以建設企業(yè)的【綜合云存儲服務中心】。
與以往僅保存數據庫和文檔等兩類數據的存儲定位不同,隨著業(yè)務應用系統(tǒng)的豐富,而產生了更多諸如NoSQL數據庫、內存數據庫、影音、圖片、文檔等結構/非結構化數據。因為對存儲性能、業(yè)務的需求各不相同,如果能針對不同應用提供更加符合業(yè)務化的存儲服務,勢必能夠進一步加速業(yè)務應用的處理效力。
同時通過在云平臺自身提供,或通過IaaS+(自動化軟件交付)模式整合客戶所熟知的第三方提軟件,提供針對物理設備的備份、CDP、磁帶庫等服務內容,也可以進一步充分使用存儲能力,釋放。
關于【綜合云存儲服務中心】的建議服務如下:
對象云存儲服務(少許改造應用)
傳統(tǒng)應用可以通過API將附件數據(如文檔、視頻、圖片等)保存在云存儲中,并且是高可用、可加密以及支持熱擴容。而付出的成本僅僅是改造附件上傳和下載處的UI控件邏輯。
關系數據庫服務RDS(不改造應用)
傳統(tǒng)應用直接通過數據庫的API鏈接到云中創(chuàng)建好的數據庫實例(虛擬機)。常見的RDS服務包括mysql、sqlserver、oracle等。
NoSQL服務(需要大改應用)
傳統(tǒng)應用通過改造,將分析性(如BI、數據挖掘)和事務性(如交易類)的存儲分離后,將事務性數據繼續(xù)保留在RDS中,而將非結構化數據保存在云中的NoSQL數據庫中,而云平臺負責NoSQL數據庫的安裝、擴容和后續(xù)備份維護。常見的NoSQL包括Hive、Hbase等。
內存數據庫服務(需要中量改造應用)
傳統(tǒng)應用通過改造,將關系數據庫常見的查詢數據放入內存中,實現(xiàn)快速檢索。而應用需要引入內存數據庫驅動程序來實現(xiàn)這一效果。常見的內存數據庫包括Redis、memcache等。
流媒體存儲服務(需要少量改造應用)
傳統(tǒng)媒體類應用將轉碼和保存的工作剝離出來,通過API使用云中的這一服務,專注上層的媒資管理、媒資處理、易用性等工作。而云平臺負責底層的轉碼、流媒體服務器、視頻存儲等能力,且支持彈性資源配置和容量擴展。
虛擬帶庫服務(無需改造應用)
傳統(tǒng)備份軟件可以直接使用虛擬帶庫協(xié)議,將應用或服務器的數據備份到云存儲中,并且無需承擔昂貴的額外硬件成本。
存儲網關(無需改造應用)
傳統(tǒng)軟件可以直接使用傳統(tǒng)協(xié)議,如NFS、iscis、samba等協(xié)議鏈接到存儲網關,并且通過異步定時或實時的方式將數據放入其中。本質是將分布式存儲之上疊加通用訪問協(xié)議,其定位是一般是通用備份存儲。
CDP服務(無需改造應用)
傳統(tǒng)各個廠商的CDP軟件可以通過IaaS+(應用自動化交付)的方式在云中部署,而這些軟件后臺可以直接使用云存儲的大容量服務。企業(yè)用戶無需改變自己的備份習慣。常見的CDP廠商如:賽門鐵克、愛數、英方、數騰等。
網盤服務(無需改造應用)
員工的工作數據可以統(tǒng)一被企業(yè)管理,并且按需備份和授權。避免使用公共網盤帶來的數據泄露和運營商關停的尷尬。
企業(yè)綜合云存儲服務中心模式
08 收益總結
通過上述需求分析可以看到,生產運行場景相對于開發(fā)測試場景,更注重安全、可用、可靠和擴展性。而云平臺正是需要在這些方面盡其所能做到更好,才能滿足企業(yè)近乎苛刻的要求,而這一切在得到實施之后,對于企業(yè)來講不僅僅獲得了提升業(yè)務99.999999%的可用性這個看得見的回報。更重要的是,隨著各種云服務需求被不斷被提出和實施,企業(yè)在使用云計算的思路已經從IT運維向IT運營——這個終極目標邁進。而實際上對于IT運營層面的需求KPI和云需求,卻又是另外一番光景了。
-第三部(下)完-
“品高云七年”系列第三部已經完結,你期待第四部嗎?
點擊回顧往期文章:
《品高云七年 | 第一部:云計算10年從概念與技術到業(yè)務與場景》
《品高云七年 | 第二部:靠譜的云廠商——品高云的發(fā)展歷程與定位》
《品高云七年 | 第三部(上):云在開發(fā)測試場景的需求與挑戰(zhàn)》