數據中心運維的發展原則有兩個方面:一個是盡量不去依賴人去管理,要知道數據中心里百分之八十的故障是人為故障,人參與程度越高的工作出錯概率越高,反而機器永遠都按照預定的程序去執行,除非設備出了BUG,否則永遠都不會出錯,當然BUG也是人造的,所以往往一個數據中心自動化運維的水平越高,反而越安全,故障發生的概率更低;另一個是要盡量避免發生故障,而不是事后諸葛,“亡羊補牢,為之晚矣”,不要總去做亡羊補牢的事情,要把可能預知的風險消除掉,避免故障的發生。故障發生后,迅速解決故障是一種能力,但不要過于依賴這個,不能什么問題都要等到故障發生后才去解決,早早就應該規避風險。“覆水難收”,故障發生后給數據中心帶來的負面影響,往往要花更多的精力去修復,有時發生的故障是致命的,數據中心可能會從此一蹶不振,只能關門大吉了。任何一個數據中心運維的工作,都要依照這兩個原則去發展,這樣才能不斷提升其數據中心運維的水平。
數據中心運維的水平高低也可以從兩個方面來看,一方面是運維效率,另一個方面是規范建立機制。首先,在運維的效率方面,從低到高要經歷四個階段:一是全人工運維。這種運維的方式適用于早期數據中心規模不大或者業務流量不大的情況,這類數據中心系統復雜度不高,設備數量較少。日常的業務運維操作,更多的是依靠手工逐臺登錄設備進行操作,缺少必要的操作標準、流程機制。運維的人員個人經驗非常重要,可繼承性不強,數據中心要過度依賴個別的幾個運維的技術大牛來維持,其它人員操作犯錯概率會增高,同時工作效率底下;二是工具化的運維。這種運維的方式適用于較大規模的數據中心,運維的人員開始使用批量化的操作工具,針對不同操作類型出現了不同的腳本程序,需要做設備配置變更時,通過腳本程序統一執行,提升操作效率。比如設備批量升級,可以提前寫好腳本程序,然后到了指定時間,腳本程序自動運行,將服務器上的軟件程序下載到設備上,然后執行升級命令,所有設備的執行步驟都一樣,可以大大節省人力,以往人工升級每晚只能升級幾臺設備,通過腳本一個晚上就可以將整個數據中心的設備升級完畢。不過,每次操作需求都不同,需要不斷調整腳本工具,可程序化處理能力較弱,批量執行還可能導致更大規模的問題出現,此時仍需要人工監督腳本執行情況,發現腳本有問題及時調整,運維效率并不高;三是平臺運維。這種運維對運維效率和誤操作率有了更高要求,通過平臺承載標準、流程,進而解放人力和提高質量。平臺運維對服務的變更動作進行了抽象,形成了操作方法、服務目錄環境、服務運行方式等統一的標準,通過平臺來約束操作流程;四是自運維系統。這種運維適用于更大規模的服務數量、更復雜的數據中心系統,是當前數據中心推崇的運維方式,極大地解放人力。自運維系統對服務變更進行抽象,由調度系統根據資源使用情況,將服務調度、部署到合適的服務器上,自動化完成與周邊各個運維系統聯動,比如監控系統、日志系統、備份系統等。自運維的系統還具備發現故障,并自動消除故障的能力。
另一方面是規范機制的建立。俗話說“沒有規矩,不成方圓”,數據中心里也要立規矩,制定各種規章制定,并有效地執行下去,規范的建立同樣也要經歷從低到高的四個階段:一是無規范機制,整個數據中心運維的工作處于無序狀態,工作效率低下,這在一些小型的數據中心或機房普遍存在,過多規范制度反而顯得有些累贅;二是建立規范人工約束,這個階段通過規范制度加強對人的管理,通過規范人的操作流程,從而減少人為出錯的概率。數據中心制定了一系列操作規范,哪些不能做,哪些可以做,哪些人能做哪些事兒等等,運維的人員要按照規范來執行;三是完善規范,不斷對規范進行改進,防止出現管理漏洞,運維的工作開展遵從一系列規范制度,有理有據去做,提升數據中心的運維效率,對運維的人員獎罰分明,依據就是這些之前制定好的規范制度;四是系統自動約束,此時數據中心已經完全采用自運維的系統方式,人工參與極少,所以以往制定的一系列規范制度成為了廢紙,我們只要將標準的操作輸入給運維的系統即可,系統可以自我調整,自動運行完成,保證不會出現不符合規范操作的情況。
數據中心建設的規模越來越大,采用人工方式已不現實。要將所有運維的工作都能走向自動化,減少人的重復工作,使我們的運維交付更高效、更安全。數據中心運維的技術發展宗旨就是將人從復雜枯燥的運維工作中解脫出來。數據中心的所有運維活動,均由人工處理變成系統自動實現。
版權聲明:本文為企業網D1Net原創,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。