互聯網業務的快速發展,其數據中心除了自身數量、規模體量在快速增長外,承載的業務也呈現海量增長模式。面對如此海量的設備和需求,開發者應如何保障數據中心的安全、高效、穩定的運營呢?除了建立完善的運營體系,其思路和方法同樣很重要。本文詳細闡述了如何做好自動化運營、計劃性運營、做好精細化運營、預防性維護和應急演練以及做好外包管理、和人員培養的解決之道。
隨著互聯網業務的快速發展,其數據中心除了自身數量、規模體量在快速增長外,其承載的業務也是海量增長。以騰訊為例,其擁有即時通信活躍賬戶8.08億個,最高同時在線1.8億個;微信/WeChat合并月活躍帳戶數達到3.55億個;QQ空間月活躍帳戶數達到6.25億個;每日發送通信消息超過180 億條;每日上傳圖片3.60億張。
面對如此海量的用戶和業務,我們的數據中心運營又未嘗不是海量的,如下數據應該能夠有所說明:
MonthlyDeliver server 10,000+;
Monthlyreboot request 4,000+;
Monthlymigration request 2,000+;
MonthlyOS re-installation 2,000+;
MonthlyHardware replacement 500+;
MonthlyHard-drive replacement 800+;
面對如此海量的設備和需求,我們應該采取什么樣的方式,才能保障數據中心的安全、高效、穩定的運營呢?其實,這樣的問題一直以來都存在,需要考慮的點、線、面也很多,每個運營管理者都會有很多的想法和措施。對于互聯網公司而言,面對海量數據的挑戰,一定要建立完善的運營管理體系。但今天,我們不談體系,而是關于如何做好互聯網數據中心海量運營的思路和方法,就個人的體會,做一些散談。(當然,如有不妥之處還請包涵。)
個人認為,在滿足業務高速發展時,大規模數據中心的海量運營過程中必然存在諸多的問題和挑戰,那是否我們需要針對所有的問題和挑戰,都制定詳細的解決方案去快速應對呢?我想大家的回答應該都是否定的。確實,我們要想快速有效的提高海量運營的水平,一定要找準制約我們做好海量運營保障的主要矛盾,排出優先級,有針對性的把關鍵的幾個點先解決好。個人目前所關注的做好數據中心海量運營的五大道法是:做好計劃性運營、做好自動化運營、做好外包管理和人員培養、做好預防性維護和應急演練、做好精細化運營。下面逐一介紹一下:
道法之一,做好計劃性運營。
如前所說,互聯網業務發展快、變化快、需求多樣,一味的保姆式服務是無法滿足海量業務的需求的。這樣就要求:一方面,運營團隊需要梳理清楚自身的工作目錄和量化自身的服務能力,形成標準清晰的服務目錄。
主動管理用戶和老板的預期,建立服務支撐模型和基線。另一方面,需要主動地和用戶溝通,了解用戶的真實需求和業務發展計劃,匹配自身的服務目錄和能力基線,與用戶就需求進行明確、清晰的定義和分級。對于海量通用的一般級別需求,就提供簡單的周期性、計劃性的標準化運維服務(如一個數據中心的硬盤,只在每周固定時間進行批量更換),只是針對個別重要需求才提供高效可靠的個性化實時保障服務。這樣一方面可以推動業務在架構層面做好冗余優化,盡可能的選擇通過一般級別的通用標準服務來滿足需求。
另一方面,也可以有效的減少一味高效可靠服務所帶來的高運營成本。有效的做好SO運營模式,一方面能夠讓運營團隊提前了解數據中心面臨的業務需求和壓力,推動在業務層面就做好風險管理,另一方面,只有做好SO運營,才能讓運營團隊在海量運營中輕松應對,保障平穩運行。
道法之二,做好自動化運營。
在我們把運營的操作、流程規范化、標準化以后,是否操作人員只要嚴格按照規范、流程操作就可以把運營工作做好呢?在我們把一些設施設備的運行情況做了監控,能夠上報報警信息就可以確保及時、準確的發現問題了嗎?當然不是,面對海量的運營需求和事件,單靠人工去按規范、標準是肯定無法有效支撐和保障海量運營的。同樣,如果我們的報警信息不做精細化的梳理和收斂,海量的故障信息報上來,運營人員是無法快速、準確定位的。所以說,首先,需要有一支懂得數據中心一線運營流程和基本操作的開發團隊。
其次,由這支開發團隊,開發出相對強大的自動化運營管理平臺,通過平臺與各個自動化系統和工具進行關聯,把運營管理的流程、標準、規范都自然、順暢的融合到自動化系統中。通過自動化平臺,除了幫助數據中心運營管理人員快速、高效的發現和解決問題,還要讓運營人員通過自動化平臺去快速、準確、高效的做好容量管理、資產管理、風險管理,外包管理等等一系列的數據中心運營管理工作。
我們的監控系統,除了精確發現故障、上報故障外,還可以考慮結合業務特性和布局,通過系統工具實現故障的自動修復,提高設備系統的自愈能力。把一線的運營人員,從簡單、重復性、例行化的工作中解放出來,讓他們能夠有更多的精力專注在對數據中心屬地的整體運營優化管理工作中,提升數據中心的整體可靠性、運營服務的質量和效率、有效控制能耗和運營成本。
道法之三,做好外包管理和人員培養。
在國內,數據中心行業正在蓬勃發展,但其中專業的數據中心運營人才匱乏,如何培養和留住數據中心專業運營人員,是非常重要的一項工作??陀^的說,運營團隊一般都會面臨壓力大、成就感不強、穩定性不好等幾個問題,而造成這種局面的主要因素來源于數據中心運營的工作特性——7*24的工作強度、工作內容的重復性、隨時可能出現的風險故障,以及如何快速應急的壓力。對于運營團隊面臨的挑戰和問題,其中做好技能識別,引入外包資源,平臺搭建是一個解決方案。
通過對運營工作及運營人員知識結構的分析,可以考慮引入外包資源,參與一線運營工作。外包的管理工作分兩塊:一塊是,設施設備外包給專業的維保單位來執行。對于專業的數據中心設施設備,用戶不太可能完全通過自身的技術人力來做好設施設備的維護保養工作,必須通過專業廠家來執行。用戶聚焦在這部分外包維護的計劃、執行監管和優化方面。
另一塊是,把重復性、例行化的標準操作層面的工作,外包給專業的服務提供商來完成,如:巡檢、直配、上架、硬件更換等等基礎性的操作工作。用戶主要聚焦在做好例行工作的標準化制定、外包工作計劃、運營任務管理、執行過程監管,以及外包人員的技能培養和外包商/人員評估考核方面。而另一部分,技術要求高且需要充分經驗支持的優化和風險控制的工作由自有團隊中有一定經驗的人員來完成。通過技能識別和外包引入,員工的技能和職責匹配度更高,更有利于管理好崗位預期,一定程度上可以緩解運營團隊的壓力。
除此之外,為運營團隊搭建一個知識學習和分享提升的平臺也非常重要,為運營人員建立明確的職業發展通道和發展計劃,通過各種形式的對內對外技術培訓和分享交流等途徑來逐漸提升一線運營人員自身的競爭力和行業影響力,幫助運營團隊提高崗位認同感和職業成就感。
道法之四,做好預防性維護和應急演練。
對于數據中心預防性維護通??紤]的一個重點就是基礎設施部分,基礎設施的故障往往對數據中心的穩定運營帶來較為嚴重的影響。一般數據中心基礎設施的故障中,70%屬電力方面的原因,20%屬空調制冷的原因,10%屬于光纖銅纜等其他設施的原因。整體而言,前期的產品質量、施工工藝和后期的設施維保工作不到位是造成數據中心出現問題的主要原因。
那么如何應對這些故障隱患呢?沒有他法,在交付階段一定要重視機房測試驗收的過程。通過假負載測試,一方面幫助驗證確保機房各設施、系統的施工質量及系統功能符合要求。另一方面通過模擬可能的故障場景以驗證相關系統群控邏輯符合要求,同時獲取更多一手數據和驗證應急預案的基本可行性。在運營階段,除了嚴格做好廠家維護保養工作之外,運營團隊日常對高危設施設備有效的預防性巡檢工作也非常關鍵,比如用熱成像儀對高危設施設備進行檢查可以有效提前發現潛在的故障風險。
另外,每個月1-2次的應急預案實操演練,包括多場景、多系統設施聯動的應急預案的處理是否被有效的理解和熟悉,這些都應該在日常運營工作中被重視起來。因為,對于數據中心來說,某個專業系統的設施故障,往往都會聯動影響到其他領域的系統出現異常。如:配電系統故障斷電,往往也會影響空調系統運行,影響末端制冷,形成高溫。那么此時,配電系統應急預案和空調系統的應急預案是需要聯動起來同時執行,如果平時的演練不到位,在這樣的突發情況下,很難有效從容應對。
除此之外,在制定應急預案和應急演練中還有一塊是容易被忽視的,那就是與業務的聯動。互聯網行業統一產品會提供不同的應用,在基礎架構側出現故障時,如何有效做到業務的“柔性可用”。這就要求數據中心的運營側要非常了解屬地承載的業務特性和重要性分級,明確突發情況下的優先保障機制和不同應用取舍。只有制定匹配業務特性的應急預案,并通過定期的與業務聯動的多場景應急演練,確保在出現故障時能夠快速有效的確保重點業務或重要應用的連續運行,最終做到統一產品在不同應用上的柔性可用,確保對用戶影響的最小化。
道法之五,做好精細化運營。
這一部分,我們重點從兩個方面來看,一個是能耗、成本,一個是業務可靠性。首先,我們看看下面的數據:
服務器小于1 萬臺,全年耗電約0.35 億千瓦時——電是次要因素。
服務器小于10萬臺,全年耗電約3.5億千瓦時——電是重要因素。
服務器達到50萬臺,全年耗電約17.5億千瓦時——電是主要成本。
服務器跨越100萬臺,全年耗電約35億千瓦時——電是Top1成本!
這個數據表明,當運營一個海量數據中心時,你會發現將作為運營成本之一的電費,將是一個非常龐大的數字,正是因為這個龐大的數字,你會被管理層給“盯上”。所以,精細化運營的一個重點就是要考慮在保證數據中心有效安全穩定運行的情況下,如何節能降耗,從而有效降低電費,控制運營成本,就成了精細化運營的一個重點。
其次,基礎架構建設可靠性級別再高的數據中心,也不能保證不出任何問題。一方面產品量問題、施工質量問題,甚至人為操作的問題,都很可能影響數據中心的連續性。所以說,如何做好業務可靠性、連續性保障,如何引導業務在自身架構層面做好架構冗余,而不是把安全可靠運行的寶全部壓在數據中心基礎架構的可靠性上。如何把一個低建設可靠性的數據中心,通過后期運營管理為一個高可靠性的數據中心,以實現業務的快速部署,快速騰挪,跨區冗余,快速調度,才是精細化運營的精彩所在。