如何做好大型數據中心的運維工作？

責任編輯：editor007 |來源：企業網D1Net 2016-02-26 20:39:39 本文摘自：億恩IDC資訊

隨著數據中心建設規模的不斷擴大，新技術的層出不窮，數據中心變得越來越復雜。大型數據中心往往是由很多規模龐大的集群系統組成，其運維工作需要具備方方面面的知識，包括硬件、網絡、服務器、存儲、安全以及業務上的東西，需要上下打通地去做運維工作。

當一個數據中心的規模非常大，面臨的挑戰和問題也比較超前，很多在小環境小體系下不是問題的問題在這樣的規模下也就凸顯出來了，所以要做好大型數據中心的運維工作，對整個數據中心技術體系的系統學習就要花費比較長的時間，只有對這個數據中心整體非常了解，才能有針對性地制定一些運維方案，甚至可以二次開發一些監控運維軟件，對整個數據中心進行有效管理與監控，提升整個數據中心的運行效率、減少故障的發生，從而將運維工作推向新的高度。一個大型的數據中心內部往往都包含了很多小系統，運維工作都是圍繞著這些具體的應用系統展開的，具體的可以分為基礎運維管理、日常業務運維、網絡、服務器、存儲、安全六大部分，本文就來說一說一般大型的數據中心應該具備的哪些運維方法和能力。

首先從數據中心的基礎運維管理方面來說，則主要有硬件配置管理、可維護性優化、監控、報警處理、自動化運維、斷網，斷電、機房容災等運維工作。硬件配置管理包含機柜里每臺服務器的型號和硬件配置，并清楚是哪些業務系統在使用這些服務器。即便是虛擬化運行環境，也需要知道這些虛機都在哪些物理機組成的資源池中流動。數據中心物理機和虛機數量都很龐大，使用自動化運維是非常有必要的。自動化運維不僅能提升運維的工作效率，還可以減少人為的參與，同時讓數據中心自己管理自己，釋放人力。并對數據中心可能發生的故障還做好監控與報警處理，以便能夠在故障發生的第一時間知曉問題，往往一次大的故障都是從開始的一點小故障逐漸擴展最終引發整個大系統的崩潰的，所以在出現一些小的異常時一定要及時消除，而這些異常就要靠完善的監控和報警系統來檢測。

從數據中心的日常業務運維方面考慮，則主要有資源、機器分配、資源使用、網絡吞吐、故障恢復、備份應用，集群搭建、流量，壓力，遷移擴容，升級、上下級業務關聯情況、資源利用率、異常處理、應急預案等等。這些日常運維工作實際上要花費大量的人力和時間，是運維工作的主體，也最煩瑣，但卻最不能體現業績的部分。一個數據中心能夠長久安全穩定運行，就是靠這些日常的工作積累，只有平時注意這些細微的變化，才能不斷優化。壓力測試、軟件升級、業務部署、異常處理等幾乎成為了運維工作的日常必修課，只有將這些工作做好，才能避免出現大的故障，并能夠快速部署新的業務，根據資源使用情況及時擴容設備。

從數據中心網絡方面考慮，則主要有網絡硬件設備、ACL、OSPF、LACP、VIP、流量、負載均衡、二三四七層情況、網絡監控、萬兆板卡、核心交換等。網絡是數據中心的重要組成部分，是一切工作運行的基本保證，沒有網絡數據中心就無法運轉起來，所以保證網絡穩定是數據中心運維工作中的重中之重。這里主要關注的就是網絡的硬件問題，ACL部署還有流量監控情況。網絡可以說是包羅萬象，涉及太多的設備和協議技術，所以也需要不斷地學習，加深對網絡技術的理解，這樣才能做好網絡運維工作。

從數據中心服務器方面考慮，則主要有文件系統、內核參數調優、各種硬盤驅動、內核版本、Kernelpanic等。Linux系統不僅在服務器，在網絡操作系統也占據著主流地位，掌握Linux系統的使用才能更好地處理服務器和網絡設備的運維工作，Linux是運維工作的一項基本技能。除了熟悉Linux系統的操作，還要對服務器的運行狀態和內核運行狀態進行監控與管理，減少服務器故障的發生。一般大型的數據中心都包含有成千上萬臺的服務器，幾乎每天都會有服務器出現各種各樣的問題，只有對服務器有深入理解才能很好地消除問題。為了防止服務器故障引發業務中斷，所以一般在服務器上都要部署虛擬化技術或者集群技術，當一臺服務器物理硬件故障時，業務可以平滑切換到其它服務器上，業務不會受到任何影響。這些虛擬化技術增加了運維的難度，也需要對虛擬化技術進行不斷深入學習。

從數據中心存儲方面考慮，架構更加多樣和復雜化。在云計算、虛擬化、大數據等相關技術進入數據中心后，存儲已經發生了巨大的改變，塊存儲、文件存儲、對象存儲支撐起多種數據類型的讀取;集中式存儲已經不再是數據中心的主流存儲架構，海量數據的存儲訪問，需要擴展性、伸縮性極強的分布式存儲架構來實現。在大規模系統支撐上，分布式文件系統、分布式對象存儲等技術，為存儲的各種應用提供了高度可伸縮、可擴展和極大的彈性支撐和強大的數據訪問性能，并且因為這些分布式技術對標準化硬件的支持，使得大規模數據中心存儲得以低成本的建設和運維。當然分布式存儲不是要取代現有的盤陣，而是為了應付高速成長的數據量與帶寬而產生的新形態存儲系統。另外就是軟件定義存儲，它代表了一種趨勢，即存儲架構中軟件和硬件的分離，也就是數據層和控制層的分離。對于數據中心用戶而言，通過軟件來實現對存儲資源的管理和調度，實現存儲資源的虛擬化、抽象化、自動化，能夠完整的實現數據中心存儲系統的部署、管理、監控、調整等多個要求，使得存儲系統具備靈活、自由和高可用等特點。企業及互聯網數據以每年50%的速率在增長，新增數據中結構化數據總量有限，多數為非結構化、半結構化數據，數據中心存儲架構隨著業務發展也需要極強的彈性適應能力，低成本、海量擴展、高并發性能是面向大型云數據中心運營存儲架構的基本技術屬性。如何進行數量龐大且雜亂無章的數據存儲與深度應用處理，并迅速提取有價值的信息，形成商業決策將成為各類型企業生存基礎，也是今后存儲以及圍繞存儲架構不斷衍生的業務發展方向。

最后從數據中心安全方面來考慮，安全就是十幾個小項：攻擊保護、升級備份、抓BUG/找BUG、腳本工具、數據安全、服務巡檢等項目，其中每一項拿出來其實都包含很多的內容。比如說到攻擊與保護，這個主要指的是防止外來的異常入侵者對數據中心發起的惡意和無意攻擊，惡意攻擊就是有人故意的使用各種攻擊方法，進入到數據中心內部，將重要的數據竊取或者破壞，達到其不可告人的目的。也有的是無意的攻擊，因為整個數據中心是要與外界保持互聯互通的，運行是動態的，變化的，不可避免會有一些異常流量攻擊數據中心，有時甚至來自于數據中心內部，比如某些服務器中毒，或者硬件故障，構造出了環路，異常流量等網絡故障，這些都會影響到數據中心的運行，所以如何做好數據中心的攻擊與保護是一個很大的題目，這并不是在數據中心里部署幾臺安全設備就能解決的，需要對整個數據中心進行全面的統一規劃，并有針對性地部署一些安全防護措施，而且隨著各種黑客技術的提升，安全防護措施也要不斷提升，這是一個不斷學習與完善的過程，只要數據中心還在運行，這個完善就不會停止。為了方便運維，也要做好一些執行腳本，以便在出現突發事件時，能夠快速處理問題。比如一個數據中心的業務出現異常，為了快速恢復業務，需要將路由進行調整，將流量全部引到其它的數據中心，這就需要在核心路由器上進行調整，這時有個現成的腳本就可以自動執行，達到快速切換的目的。數據中心還應該準備很多其它工作的腳本，以便緊急的時候快速使用。

通過上面的分析您一定很驚訝，原來數據中心運維包含這么多內容，大大小小數十項，而且每一項包含的內容說起來都不那么簡單，也涉及很多的技術知識。一個數據中心能否穩定運行，能夠高效運行，運維是關鍵。只有將這些運維工作很好地部署和執行下去，數據中心才能長期穩定。

關鍵字：數據中心運維異常流量