隨著互聯(lián)網(wǎng)業(yè)務的快速發(fā)展,其數(shù)據(jù)中心除了自身數(shù)量、規(guī)模體量在快速增長外,其承載的業(yè)務也是海量增長。以騰訊為例,其擁有即時通信活躍賬戶8.08億個,最高同時在線1.8億個;微信/WeChat合并月活躍帳戶數(shù)達到3.55億個;QQ空間月活躍帳戶數(shù)達到6.25億個;每日發(fā)送通信消息超過180億條;每日上傳圖片3.60億張。
面對如此海量的用戶和業(yè)務,我們的數(shù)據(jù)中心運營又未嘗不是海量的,如下數(shù)據(jù)應該能夠有所說明:
MonthlyDeliver server 10,000+;
Monthlyreboot request 4,000+;
Monthlymigration request 2,000+;
MonthlyOS re-installation 2,000+;
MonthlyHardware replacement 500+;
MonthlyHard-drive replacement 800+;
面對如此海量的設備和需求,我們應該采取什么樣的方式,才能保障數(shù)據(jù)中心的安全、高效、穩(wěn)定的運營呢?其實,這樣的問題一直以來都存在,需要考慮的點、線、面也很多,每個運營管理者都會有很多的想法和措施。對于互聯(lián)網(wǎng)公司而言,面對海量數(shù)據(jù)的挑戰(zhàn),一定要建立完善的運營管理體系。但今天,我們不談體系,而是關(guān)于如何做好互聯(lián)網(wǎng)數(shù)據(jù)中心海量運營的思路和方法,就個人的體會,做一些散談。(當然,如有不妥之處還請包涵。)
個人認為,在滿足業(yè)務高速發(fā)展時,大規(guī)模數(shù)據(jù)中心的海量運營過程中必然存在諸多的問題和挑戰(zhàn),那是否我們需要針對所有的問題和挑戰(zhàn),都制定詳細的解決方案去快速應對呢?我想大家的回答應該都是否定的。確實,我們要想快速有效的提高海量運營的水平,一定要找準制約我們做好海量運營保障的主要矛盾,排出優(yōu)先級,有針對性的把關(guān)鍵的幾個點先解決好。個人目前所關(guān)注的做好數(shù)據(jù)中心海量運營的五大道法是:做好計劃性運營、做好自動化運營、做好外包管理和人員培養(yǎng)、做好預防性維護和應急演練、做好精細化運營。下面逐一介紹一下:
道法之一,做好計劃性運營。
如前所說,互聯(lián)網(wǎng)業(yè)務發(fā)展快、變化快、需求多樣,一味的保姆式服務是無法滿足海量業(yè)務的需求的。這樣就要求:一方面,運營團隊需要梳理清楚自身的工作目錄和量化自身的服務能力,形成標準清晰的服務目錄。主動管理用戶和老板的預期,建立服務支撐模型和基線。另一方面,需要主動地和用戶溝通,了解用戶的真實需求和業(yè)務發(fā)展計劃,匹配自身的服務目錄和能力基線,與用戶就需求進行明確、清晰的定義和分級。對于海量通用的一般級別需求,就提供簡單的周期性、計劃性的標準化運維服務(如一個數(shù)據(jù)中心的硬盤,只在每周固定時間進行批量更換),只是針對個別重要需求才提供高效可靠的個性化實時保障服務。這樣一方面可以推動業(yè)務在架構(gòu)層面做好冗余優(yōu)化,盡可能的選擇通過一般級別的通用標準服務來滿足需求。另一方面,也可以有效的減少一味高效可靠服務所帶來的高運營成本。有效的做好SO運營模式,一方面能夠讓運營團隊提前了解數(shù)據(jù)中心面臨的業(yè)務需求和壓力,推動在業(yè)務層面就做好風險管理,另一方面,只有做好SO運營,才能讓運營團隊在海量運營中輕松應對,保障平穩(wěn)運行。
道法之二,做好自動化運營。
在我們把運營的操作、流程規(guī)范化、標準化以后,是否操作人員只要嚴格按照規(guī)范、流程操作就可以把運營工作做好呢?在我們把一些設施設備的運行情況做了監(jiān)控,能夠上報報警信息就可以確保及時、準確的發(fā)現(xiàn)問題了嗎?當然不是,面對海量的運營需求和事件,單靠人工去按規(guī)范、標準是肯定無法有效支撐和保障海量運營的。同樣,如果我們的報警信息不做精細化的梳理和收斂,海量的故障信息報上來,運營人員是無法快速、準確定位的。所以說,首先,需要有一支懂得數(shù)據(jù)中心一線運營流程和基本操作的開發(fā)團隊。其次,由這支開發(fā)團隊,開發(fā)出相對強大的自動化運營管理平臺,通過平臺與各個自動化系統(tǒng)和工具進行關(guān)聯(lián),把運營管理的流程、標準、規(guī)范都自然、順暢的融合到自動化系統(tǒng)中。通過自動化平臺,除了幫助數(shù)據(jù)中心運營管理人員快速、高效的發(fā)現(xiàn)和解決問題,還要讓運營人員通過自動化平臺去快速、準確、高效的做好容量管理、資產(chǎn)管理、風險管理,外包管理等等一系列的數(shù)據(jù)中心運營管理工作。我們的監(jiān)控系統(tǒng),除了精確發(fā)現(xiàn)故障、上報故障外,還可以考慮結(jié)合業(yè)務特性和布局,通過系統(tǒng)工具實現(xiàn)故障的自動修復,提高設備系統(tǒng)的自愈能力。把一線的運營人員,從簡單、重復性、例行化的工作中解放出來,讓他們能夠有更多的精力專注在對數(shù)據(jù)中心屬地的整體運營優(yōu)化管理工作中,提升數(shù)據(jù)中心的整體可靠性、運營服務的質(zhì)量和效率、有效控制能耗和運營成本。
道法之三,做好外包管理和人員培養(yǎng)。
在國內(nèi),數(shù)據(jù)中心行業(yè)正在蓬勃發(fā)展,但其中專業(yè)的數(shù)據(jù)中心運營人才匱乏,如何培養(yǎng)和留住數(shù)據(jù)中心專業(yè)運營人員,是非常重要的一項工作。客觀的說,運營團隊一般都會面臨壓力大、成就感不強、穩(wěn)定性不好等幾個問題,而造成這種局面的主要因素來源于數(shù)據(jù)中心運營的工作特性——7*24的工作強度、工作內(nèi)容的重復性、隨時可能出現(xiàn)的風險故障,以及如何快速應急的壓力。對于運營團隊面臨的挑戰(zhàn)和問題,其中做好技能識別,引入外包資源,平臺搭建是一個解決方案。
通過對運營工作及運營人員知識結(jié)構(gòu)的分析,可以考慮引入外包資源,參與一線運營工作。外包的管理工作分兩塊:一塊是,設施設備外包給專業(yè)的維保單位來執(zhí)行。對于專業(yè)的數(shù)據(jù)中心設施設備,用戶不太可能完全通過自身的技術(shù)人力來做好設施設備的維護保養(yǎng)工作,必須通過專業(yè)廠家來執(zhí)行。用戶聚焦在這部分外包維護的計劃、執(zhí)行監(jiān)管和優(yōu)化方面。另一塊是,把重復性、例行化的標準操作層面的工作,外包給專業(yè)的服務提供商來完成,如:巡檢、直配、上架、硬件更換等等基礎(chǔ)性的操作工作。用戶主要聚焦在做好例行工作的標準化制定、外包工作計劃、運營任務管理、執(zhí)行過程監(jiān)管,以及外包人員的技能培養(yǎng)和外包商/人員評估考核方面。而另一部分,技術(shù)要求高且需要充分經(jīng)驗支持的優(yōu)化和風險控制的工作由自有團隊中有一定經(jīng)驗的人員來完成。通過技能識別和外包引入,員工的技能和職責匹配度更高,更有利于管理好崗位預期,一定程度上可以緩解運營團隊的壓力。
除此之外,為運營團隊搭建一個知識學習和分享提升的平臺也非常重要,為運營人員建立明確的職業(yè)發(fā)展通道和發(fā)展計劃,通過各種形式的對內(nèi)對外技術(shù)培訓和分享交流等途徑來逐漸提升一線運營人員自身的競爭力和行業(yè)影響力,幫助運營團隊提高崗位認同感和職業(yè)成就感。
道法之四,做好預防性維護和應急演練。
對于數(shù)據(jù)中心預防性維護通常考慮的一個重點就是基礎(chǔ)設施部分,基礎(chǔ)設施的故障往往對數(shù)據(jù)中心的穩(wěn)定運營帶來較為嚴重的影響。一般數(shù)據(jù)中心基礎(chǔ)設施的故障中,70%屬電力方面的原因,20%屬空調(diào)制冷的原因,10%屬于光纖銅纜等其他設施的原因。整體而言,前期的產(chǎn)品質(zhì)量、施工工藝和后期的設施維保工作不到位是造成數(shù)據(jù)中心出現(xiàn)問題的主要原因。那么如何應對這些故障隱患呢?沒有他法,在交付階段一定要重視機房測試驗收的過程。通過假負載測試,一方面幫助驗證確保機房各設施、系統(tǒng)的施工質(zhì)量及系統(tǒng)功能符合要求。另一方面通過模擬可能的故障場景以驗證相關(guān)系統(tǒng)群控邏輯符合要求,同時獲取更多一手數(shù)據(jù)和驗證應急預案的基本可行性。在運營階段,除了嚴格做好廠家維護保養(yǎng)工作之外,運營團隊日常對高危設施設備有效的預防性巡檢工作也非常關(guān)鍵,比如用熱成像儀對高危設施設備進行檢查可以有效提前發(fā)現(xiàn)潛在的故障風險。
另外,每個月1-2次的應急預案實操演練,包括多場景、多系統(tǒng)設施聯(lián)動的應急預案的處理是否被有效的理解和熟悉,這些都應該在日常運營工作中被重視起來。因為,對于數(shù)據(jù)中心來說,某個專業(yè)系統(tǒng)的設施故障,往往都會聯(lián)動影響到其他領(lǐng)域的系統(tǒng)出現(xiàn)異常。如:配電系統(tǒng)故障斷電,往往也會影響空調(diào)系統(tǒng)運行,影響末端制冷,形成高溫。那么此時,配電系統(tǒng)應急預案和空調(diào)系統(tǒng)的應急預案是需要聯(lián)動起來同時執(zhí)行,如果平時的演練不到位,在這樣的突發(fā)情況下,很難有效從容應對。
除此之外,在制定應急預案和應急演練中還有一塊是容易被忽視的,那就是與業(yè)務的聯(lián)動。互聯(lián)網(wǎng)行業(yè)統(tǒng)一產(chǎn)品會提供不同的應用,在基礎(chǔ)架構(gòu)側(cè)出現(xiàn)故障時,如何有效做到業(yè)務的“柔性可用”。這就要求數(shù)據(jù)中心的運營側(cè)要非常了解屬地承載的業(yè)務特性和重要性分級,明確突發(fā)情況下的優(yōu)先保障機制和不同應用取舍。只有制定匹配業(yè)務特性的應急預案,并通過定期的與業(yè)務聯(lián)動的多場景應急演練,確保在出現(xiàn)故障時能夠快速有效的確保重點業(yè)務或重要應用的連續(xù)運行,最終做到統(tǒng)一產(chǎn)品在不同應用上的柔性可用,確保對用戶影響的最小化。
道法之五,做好精細化運營。
這一部分,我們重點從兩個方面來看,一個是能耗、成本,一個是業(yè)務可靠性。首先,我們看看下面的數(shù)據(jù):
服務器小于1 萬臺,全年耗電約0.35 億千瓦時——電是次要因素。
服務器小于10萬臺,全年耗電約3.5億千瓦時——電是重要因素。
服務器達到50萬臺,全年耗電約17.5億千瓦時——電是主要成本。
服務器跨越100萬臺,全年耗電約35億千瓦時——電是Top1成本!
這個數(shù)據(jù)表明,當運營一個海量數(shù)據(jù)中心時,你會發(fā)現(xiàn)將作為運營成本之一的電費,將是一個非常龐大的數(shù)字,正是因為這個龐大的數(shù)字,你會被管理層給“盯上”。所以,精細化運營的一個重點就是要考慮在保證數(shù)據(jù)中心有效安全穩(wěn)定運行的情況下,如何節(jié)能降耗,從而有效降低電費,控制運營成本,就成了精細化運營的一個重點。(具體節(jié)能措施不在此處詳述)
其次,基礎(chǔ)架構(gòu)建設可靠性級別再高的數(shù)據(jù)中心,也不能保證不出任何問題。一方面產(chǎn)品量問題、施工質(zhì)量問題,甚至人為操作的問題,都很可能影響數(shù)據(jù)中心的連續(xù)性。所以說,如何做好業(yè)務可靠性、連續(xù)性保障,如何引導業(yè)務在自身架構(gòu)層面做好架構(gòu)冗余,而不是把安全可靠運行的寶全部壓在數(shù)據(jù)中心基礎(chǔ)架構(gòu)的可靠性上。如何把一個低建設可靠性的數(shù)據(jù)中心,通過后期運營管理為一個高可靠性的數(shù)據(jù)中心,以實現(xiàn)業(yè)務的快速部署,快速騰挪,跨區(qū)冗余,快速調(diào)度,才是精細化運營的精彩所在。