提及關(guān)鍵業(yè)務(wù)服務(wù)器,必有一個與之緊密相關(guān)的詞會伴隨左右,那就是RAS特性(Reliability,可靠性、Availability,可用性和Serviceability,可維護(hù)性),甚至不夸張地講,用戶對于RAS特性的關(guān)注程度不亞于對性能、可擴展性的重視。這是為什么呢?因為RAS特性關(guān)乎關(guān)鍵業(yè)務(wù)能否連續(xù)地運行下去,而關(guān)鍵業(yè)務(wù)一旦出現(xiàn)問題,造成的損失是難以估量的,其關(guān)系到企業(yè)的聲譽、關(guān)乎企業(yè)未來發(fā)展。
根據(jù)Network Computing, the Meta Group and Contingency Planning Research于2011年發(fā)布的一份調(diào)研報告顯示,由關(guān)鍵業(yè)務(wù)服務(wù)器非計劃內(nèi)停機造成的損失,金融業(yè)為648萬美元/小時,能源行業(yè)是280萬美元/小時,電信行業(yè)是200萬美元/小時……而且這些還不包括由此帶來的包括客戶流失、品牌影響力下降等無法直接衡量的負(fù)面影響。
到此,相信你也能夠明白你為什么x86架構(gòu)的關(guān)鍵業(yè)務(wù)服務(wù)器在與小型機爭奪市場過程中要不斷強化RAS特性了,說白了RAS特性對于企業(yè)關(guān)鍵應(yīng)用而言太重要了,要想與小型機爭奪市場,提升RAS特性是必需的。那問題來了,時至今日,x86關(guān)鍵業(yè)務(wù)服務(wù)器的RAS特性與小型機相比究竟如何,二者是否能同日而語呢?
x86關(guān)鍵業(yè)務(wù)服務(wù)器面臨的挑戰(zhàn)
嚴(yán)格意義上說,在關(guān)鍵業(yè)務(wù)領(lǐng)域,x86服務(wù)器的RAS特性已經(jīng)逼近小型機,甚至已經(jīng)超過了部分小型機,這一點從眾多第三方研究機構(gòu)發(fā)布的測試報告就能略知一二。比如,根據(jù)ITIC(Information Technology Intelligence Consulting Corp.)2014年發(fā)布的過去12個月各服務(wù)器平臺的非計劃停機時間對比報告顯示,IBM的x86服務(wù)器可以達(dá)到與Power服務(wù)器一樣的水平(94%的服務(wù)器停機時間小于等于40分鐘,有5%的停機時間在41分鐘至4小時之間,剩余僅有1%的停機時間在4小時以上),而這也超過了其它像安騰、SPARC等小型機平臺的可靠性。
ITIC 2014年發(fā)布的過去12個月各服務(wù)器平臺的非計劃停機時間對比報告
至于原因嘛,與技術(shù)的演進(jìn)、英特爾的努力都密不可分。這些年,不斷有增強平臺RAS特性的技術(shù)出現(xiàn),同時,英特爾也在不斷地將原本只存在于小型機上的一些技術(shù)下移到x86平臺,從而使x86平臺的實力得到了大幅提升,才有了今天比肩小型機的可能性。
ITIC 2014年發(fā)布的服務(wù)器可靠性調(diào)查報告顯示,從2009年到2014年,x86服務(wù)器+Linux操作系統(tǒng)的可靠性大幅提升,已經(jīng)無限逼近IBM Power+IBM AIX的組合。
不過話說回來,即便如此,在不少用戶的印象或者認(rèn)知中:x86的可靠性、可用性仍然趕不上小型機,倒不是這些用戶不相信第三方的評測報告,也不是他們冥頑不靈、只認(rèn)可小型機,只能說這與x86服務(wù)器的發(fā)展路徑有著些許關(guān)聯(lián)。
眾所周知,x86服務(wù)器的演進(jìn)路線是從低端逐漸邁向高端、從單路服務(wù)器向多路服務(wù)器,再到關(guān)鍵業(yè)務(wù)服務(wù)器,一步步地擴充、完善產(chǎn)品線,直到今天。反觀小型機,則一直是高高在上的一種姿態(tài)。舉個不太恰當(dāng)?shù)睦樱@就好比大眾輝騰和奔馳、寶馬之間的關(guān)系,縱使輝騰品質(zhì)與同級的奔馳、寶馬差不多,甚至還要高于奔馳、寶馬,但于用戶而言,接受輝騰總是需要一個過程的。從這個層面來看,對于用戶而言,接受x86關(guān)鍵業(yè)務(wù)服務(wù)器無疑也是需要時間的。
另外,造成用戶對x86關(guān)鍵業(yè)務(wù)服務(wù)器認(rèn)知有偏差的還有一個因素就是廠商水平的良莠不齊。同樣是英特爾至強E7 v3處理器,可能限于開發(fā)流程、器件選擇、研發(fā)能力的差異,不同廠商設(shè)計生產(chǎn)出來的產(chǎn)品就是不一樣。這一點從ITIC發(fā)布的報告多少也能看出,同樣是x86服務(wù)器,品質(zhì)并不相同,這也給用戶帶來了一定的困惑。
人們都說機會和挑戰(zhàn)往往是并存的,前文談到了x86關(guān)鍵業(yè)務(wù)服務(wù)器所面臨的挑戰(zhàn),主要是兩點:一是用戶認(rèn)知問題,二是廠商水平參差不齊。前者需要通過不斷的技術(shù)驗證、案例應(yīng)用以給用戶更多的信心,后者則真正考驗著服務(wù)器廠商的實力,誰有能力做的更好,誰可能會最先得到用戶的認(rèn)可。在這方面,華為可以說是走在行業(yè)前列的。究竟華為做了哪些超前的準(zhǔn)備,我們下面來一一展開。
機會與挑戰(zhàn)往往并存
在講華為關(guān)鍵業(yè)務(wù)服務(wù)器的RAS特性之前,在此有必要明確一點,那就是一般x86服務(wù)器廠商所生產(chǎn)服務(wù)器的RAS特性如何。用通俗的話解釋,一般的x86服務(wù)器,其RAS特性主要依賴于處理器的RAS特性。什么意思呢?就是處理器有的特性,你這服務(wù)器可能有,處理器沒有的,你這服務(wù)器基本就沒有。在這里筆者特別強調(diào)了“可能”和“基本”兩個詞,“可能”意味著即便處理器有這項特性,但廠商不一定有能力把它用起來,而“基本”則意味著如果處理器沒這項特性,廠商幾乎也沒能力通過其他方面做彌補。
其實,“可能”和“基本”兩個詞也是在筆者看來做x86關(guān)鍵業(yè)務(wù)服務(wù)器的兩個層面,第一個層面是你有能力實現(xiàn)x86處理器原有的特性,二是在基礎(chǔ)上還能做進(jìn)一步的深化。做個形象的比喻,第一個層面好比考試時的必答題,第二個層面則是加分題,能完成必答題說明你已經(jīng)有一定的實力,而只有答完加分題才能脫穎而出。
因此,之所以說華為走在了關(guān)鍵業(yè)務(wù)服務(wù)器的前列,也是因為其不僅能夠完成必答題,而且加分題做的也不錯。比如,在必答題項,華為能夠100%實現(xiàn)英特爾至強E7系列處理器的RAS特性;而在加分題項,華為深入每一個器件,以保證最終產(chǎn)品的可靠性。
華為自研的BMC(板載管理芯片)
具體而言,以必答題為例,為實現(xiàn)100%的Intel Run Sure RAS特性,華為從底層芯片(包括板載管理芯片BMC、存儲控制芯片等)到操作系統(tǒng)(華為Euler OS)均考慮到了可靠性設(shè)計。舉個例子,其自研的BMC憑借固件優(yōu)先模式能夠先于操作系統(tǒng)發(fā)現(xiàn)并處理故障,通過此項技術(shù)可屏蔽60%的可能引發(fā)操作系統(tǒng)宕機的故障;再比如,在存儲控制芯片中,華為利用自研的均衡型讀寫磨損算法,可有效避免存儲顆粒高頻度非均衡讀寫導(dǎo)致的存儲設(shè)備壽命提前結(jié)束、數(shù)據(jù)丟失等問題,實現(xiàn)5個9的數(shù)據(jù)可靠性。更多華為獨有的創(chuàng)新之處這里不再一一列舉,就像前文所講從底層芯片到操作系統(tǒng)每個細(xì)節(jié)都體現(xiàn)著華為的創(chuàng)新精神。
RAS2.0,加出來的1.0體現(xiàn)在哪?
說完了必答題,我們再講講加分題。如果說能夠100%實現(xiàn)處理器本身RAS特性所生產(chǎn)的服務(wù)器我們稱其RAS特性為1.0水平的話,那華為關(guān)鍵業(yè)務(wù)服務(wù)器儼然就是2.0的標(biāo)準(zhǔn)。下面我們看看華為是如何深入每個器件保證系統(tǒng)可靠性的。簡單來說,就是兩個原則,使用正確的器件和正確的使用器件,這不是繞口令,前者代表會選,后者意味著會用。這么聽起來可能比較抽象,下面通過一個較為完整的流程,帶你大致了解下華為對于器件的選擇和使用。
首先,在器件供應(yīng)商的選擇上,華為會采用TQRDC-ES原則,分別從技術(shù)、質(zhì)量、響應(yīng)、供貨表現(xiàn)、社會責(zé)任、環(huán)境保護(hù)等多個層面進(jìn)行嚴(yán)格篩選。其次,器件選定后,華為會100%采用降額設(shè)計,也就是使器件工作中所承受的壓力(主要是電應(yīng)力和溫度應(yīng)力)低于額定值,以達(dá)到降低器件故障率,提升可靠性的目的,而且在此基礎(chǔ)上,華為還設(shè)有專門的器件中心對器件進(jìn)行工藝剖析、失效分析,以確定器件能夠滿足華為的要求。
隨后進(jìn)入下一階段,F(xiàn)MEA:failure mode and effect analysis(失效模式和影響分析)。在該階段,華為會分析所有故障影響,優(yōu)化故障管理能力。對于嚴(yán)重故障,要求避免;對于需要處理的故障,要求能檢測并定位到FRU。接下來是高可靠硬盤設(shè)計、熱設(shè)計、冗余&熱插拔設(shè)計。
到此并不算完,經(jīng)歷過所有這一切研發(fā)、生產(chǎn)出的成品還要經(jīng)歷一系列嚴(yán)苛的測試,比如降額審查(對單板選用的器件進(jìn)行降額審查,以確保所選器件滿足降額要求)、環(huán)境氣候測試、振動沖擊試驗、EMC試驗等,最終才會出現(xiàn)在客戶面前。
可能以上篩選、測試、設(shè)計環(huán)節(jié)聽著比較抽象,我們看看通過這一套流程最終得到的產(chǎn)品究竟是什么樣。鑒于我們不可能把產(chǎn)品所有方方面面的特性都列舉在此,因此只舉幾個典型的例子來說明一下。比如,全模塊免開箱更換部件設(shè)計,1分鐘就能免工具實現(xiàn)部件更換;再比如全模塊100%熱插拔設(shè)計,像風(fēng)扇、電源、硬盤的熱插拔已不值一提,而包括CPU模塊和內(nèi)存板的熱插拔均能在華為關(guān)鍵業(yè)務(wù)服務(wù)器上得以體現(xiàn)。除此之外,還有像PFA(預(yù)故障分析)、分區(qū)技術(shù)也都處于業(yè)界領(lǐng)先地位。
更多特性這里不再一一列舉,如前文所講,如果說完成必答題的水平是1.0的話,那華為在RAS特性方面可以說已經(jīng)到了2.0的水平,其能夠為用戶提供增強的可靠性、可用性及可服務(wù)性,給用戶更多保障。當(dāng)然這話也不是筆者說的,而是得到業(yè)界和用戶認(rèn)可的。
它們都說好
如果只有少部分人說你好,那你并不一定真的好,但如果得到了大多數(shù)用戶的認(rèn)可,那就能說明一些問題了。根據(jù)華為給出的數(shù)據(jù)顯示,在一系列嚴(yán)苛的篩選、測試、分析……后,最終研發(fā)、生產(chǎn)出來的關(guān)鍵業(yè)務(wù)服務(wù)器成品相比標(biāo)準(zhǔn)x86服務(wù)器,RAS特性能夠提升達(dá)30倍,宕機時間減少85%,并達(dá)到5個9(99.999%)的可靠性。
華為FusionServer RH8100 V3 關(guān)鍵業(yè)務(wù)服務(wù)器榮獲2015東京Interop銀獎
而借助著超乎尋常的可靠性,華為關(guān)鍵業(yè)務(wù)服務(wù)器不僅獲得了多項大獎,且在對可靠性要求極為嚴(yán)苛的電力、金融等領(lǐng)域也深受用戶好評。比如,在2015東京Interop大獎評選中,華為FusionServer RH8100 V3 關(guān)鍵業(yè)務(wù)服務(wù)器,憑借創(chuàng)新的高可靠性設(shè)計、靈活擴展能力和卓越的計算性能榮獲Interop銀獎。
同時,根據(jù)IDC去年發(fā)布的報告顯示,2013年華為四路、八路關(guān)鍵業(yè)務(wù)服務(wù)器均獲得了長足進(jìn)步。 在國內(nèi)電信運營商、金融、能源、政府等行業(yè)陸續(xù)以大份額贏得了行業(yè)大單。同樣,放眼海外市場,其在西歐、亞太、中東、拉美等地區(qū)同樣取得了不俗的業(yè)績。具體來說,IDC數(shù)據(jù)顯示,2013年前三季度華為四路和八路服務(wù)器的發(fā)貨量為2014年全年的4倍。由此可見華為關(guān)鍵業(yè)務(wù)服務(wù)器成長之快,用戶認(rèn)可程度之高。
筆者并不想過分地去夸華為關(guān)鍵業(yè)務(wù)服務(wù)器怎么好怎么棒,更想通過全方位地介紹,讓你了解其有關(guān)關(guān)鍵業(yè)務(wù)服務(wù)器的種種。可以肯定的是,華為并不甘于只做必答題,讓其關(guān)鍵業(yè)務(wù)服務(wù)器停留在RAS1.0的時代,而是會通過不斷地創(chuàng)新,增強服務(wù)器的RAS特性,為用戶提供更可靠的關(guān)鍵業(yè)務(wù)服務(wù)器產(chǎn)品。所以回到題目本身,對于x86架構(gòu)的關(guān)鍵業(yè)務(wù)服務(wù)器而言,RAS2.0未來必然會成為標(biāo)配,華為無疑走在了前列。