嚴峻的數據中心運維挑戰
隨著智能手機、平板電腦等互聯網接入設備的爆炸性增長以及人們對社交、游戲、視頻娛樂等等互聯網應用需求的日益增長,互聯網行業在近些年得到了迅猛的發展。但是這樣的發展不僅意味著支出成本的飛漲,也對在背后支撐這些服務的數據中心提出了更加苛刻的需求。
針對服務器的支出情況,搜狐公司技術副總裁周霖先生分享到:“近些年,搜狐的服務器采購成本基本是持平的,甚至還有小幅度的下降。但是從服務器管理和維護的成本來看,近幾年卻是以倍數的形式增長,主要原因來自于服務器數量的增多與管理的復雜度的增加。與此同時,能耗與冷卻的成本也擁有幾倍的增長,這一現象,在擁有大規模x86服務器的互聯網公司更加明顯,也迫使我們使用新的方法去應對數據中心運維帶來的嚴峻挑戰。”
給搜狐數據中心帶來的運維挑戰主要來自幾個方面:首先,是數據和計算需求快速增長所帶來的服務器數量的增長;其次是像游戲等時效性業務的高峰和低谷,造成的能源和計算資源的浪費;同時,還有租用IDC帶來的機架和數據中心功耗的約束,管理多廠家設備多地域設備的復雜環境等等。此外,人力資源的短缺和調配困難也隨之而來。
智能數據中心的“四個現代化”
嚴峻的挑戰下,搜狐針對傳統數據中心運維挑戰提出了Smart IDC的解決方案,通過平臺化、數據化、流程化、可視化這“四個現代化”,來實現智能化數據中心的管理。針對“四個現代化”周霖進一步解釋道:“所謂四個現代化,即從服務器本身入手,以點及線,以線及面,由收集到的設備和人員數據指引,形成可視化的展現,并加以流程化,約束運維人員行為,保障系統可信度。”
這一解決方案,可以通過多個層面針對傳統數據中心存在的問題進行優化,幫助降低整體成本:
• 提高資源效率和管理水平
• 幫助運維人員對不同任務中設備資源使用情況進行管控
• 依據溫度事件差異化散熱需求
• 根據運行負載的實際功耗規劃機架
• 設備功耗限定相同功耗性能最大化環境事件觸發SLA保障的最長時間
• 通過標準的命令來管理所有兼容服務器
從管理角度來看,搜狐的Smart IDC 平臺擁有“四個面向”:涉及到服務器位置跟蹤、配置信息、設備備件的面向設備信息的管理;面向硬件與系統設備管理的狀態;通過溫度分布圖、機架功耗統計、備件使用跟蹤和警報系統實現的面向監控信息數據的管理以及面向策略指引的管理。搜狐通過將這些狀態在系統內做到流程化的管控。“數據中心每個要素,比如我們講的風、火、水、電,每個要素對IDC運維的保障都是有緊密相關性的,比如某臺服務器的溫度突然過高,在臨近空調的位置上溫度一定會有幾度的提升,這個時候在我的平臺上利用傳感器立刻可以發現這個問題,會優先以郵件和短信形式通知運營人員,并得到準確的定位。”搜狐研發中心高級主管、搜狐-英特爾聯合實驗室主管彭毅先生說,“搜狐在此之前,業務的負載情況無法清晰地交付給運維部門,沒有詳細的數據,就無法對數據中心進行優化。搜狐會通過這個平臺關注所有服務器設備運行的負載,讓運維部門更加了解數據中心負載情況和業務需求,增強服務器運維的可計劃性。”
所謂面向策略指引,即從直接可以得到的系統、硬件、資產以及流程信息中,利用平臺分析系統得出一些可輔助計劃和決策的結論。比如負載指標可以指引設備選型情況,還有數據中心剩余資源的情況,配件失效的特性以及服務人員上門維護的優化調度等等。“前三個面向得到的是顯性的數據價值,而隱性數據這部分會多緯度的進行資源的展現、數據分析、策略指引,雖然是隱性的數據價值,實際Smart IDC最大價值就是在于這個隱性的價值。”周霖補充道。
為了讓平臺更加成熟可靠,搜狐同時制定了一套自學習系統。受監控設備將為平臺提供監控數據信息,通過分析這些信息制訂相應的策略之后,再把這個策略規范化、流程化,納入搜狐的平臺,鞏固平臺可靠性,并且一直通過這個流轉。一旦受管理設備信息發生了變化,后續的指引也會發生變化,會制訂成新具有適應性的流程和規范,鞏固平臺。這個循環時間越長,價值越高。
通用技術成就的智能
搜狐采用了很多通用的技術手段實現其Smart IDC平臺,例如通過IPMI(智能平臺管理接口)這一底層硬件接口,盡可能地通過這個接口采集信息數據,還有系統內的磁盤的信息的獲取、溫度傳感器等等。
目前,服務器都會有自己專屬的管理器進行檢測和管控,但是復雜的數據中心構成依然將運維難度大大提高了。 “對此,搜狐有了更加高效的對策,”彭毅介紹到,“考慮到目前數據中心內的服務器來自不同廠商,但又都是以x86架構為主,我們整個平臺的目標就是去掉不同OEM的差異化,所以我們這一基于軟硬件的解決方案可以針對來自所有廠商x86服務器,替代了一對一優化數據中心的傳統方式,顯著提升了管理效率。”
搜狐利用的IPMI這個硬件底層的通信協議,通過服務器底層BMC把數據提取出來,這和傳統的監控截然不同。“我們尋找到了一個最大限度、在各個不同OEM產品最通用的方式,去做整個平臺化的監控和管理。”IMPI(智能平臺管理接口)是一種開放標準的硬件管理接口規格,定義了嵌入式管理子系統進行通信的特定方法。該規格由英特爾在1998年提出,并在2004年發布IPMI 2.0規格。各廠商的設備在一些功能控制上差異很大,搜狐在此下了很大功夫。“借助搜狐-英特爾技術創新實驗室的共同努力,英特爾提供的底層硬件技術的支持以及其對機房、數據中心的理解和經驗幫助我們將底層硬件技術‘吃透’,使得現在任何平臺、任何廠商、任何型號的服務器進來以后,只要用標準化命令就可以通過Smart IDC平臺進行統一的管理。”
數據中心內的“大數據”
談到RFID在數據中心中的部署使用,彭毅解釋道: “RFID確實比較流行,最開始搜狐也準備在Smart IDC項目里給每臺服務器都增加一個RFID標簽,來跟蹤服務器在IDC內的定位和流轉情況。但是因為普通被動式的RFID會存在一個問題,讀取器接觸式的信息采集方法對大規模甚至不同地域的數據中心還是有難度,還是無法達到無人化值守,主動式的RFID解決方案成本較高,有一些違背我們的初衷?;趯ψ陨硐到y的了解,在多的審視自己系統的之后有了新的認識,如果當時我們采用了RFID對我們系統也是一個制約,因為RFID一旦附屬到服務器上,它的維護也是一個巨大的成本。比如標簽出問題或者電池需要更換,都會對我們造成一個非常大的問題。隨著項目的推進用了一些其他的方式,也是在大數據的背景下,用很多的微小的數據,做成一個集合以后替代一些附加上的傳感器。我們利用很多采集數據相關性,比如端口數據的變化,來推算出這個服務器的定位,這個計算結果是很有意思的。”
引領行業前進的杰出貢獻者
英特爾與搜狐長期保持良好的合作關系,雙方有多年的深入合作,對新技術的研究及行業發展趨勢有很大的認同。雙方本著以技術探索為基礎,以行業發展趨勢為導向,以深入技術合作、挖掘前沿技術、推動關鍵技術發展、培養專業技術人才、熱點難點技術探索及驗證為目標,于2011共同成立了搜狐-英特爾技術創新實驗室。
作為搜狐研發中心高級主管、搜狐-英特爾聯合實驗室主管,彭毅表示:“搜狐-英特爾聯合實驗室在互聯網行業運轉的很好,業界的聯合實驗室中可以成為一個典范。實驗室研究的每一個項目都經過行業實際業務的需求、技術的緊迫性、產品的技術成熟程度、性價比與是否能夠實際部署等等因素嚴格篩選和規劃,雙方共同投入資源,而非紙上談兵的事。
聯合實驗室所做出的項目,首先是來自搜狐業務的需求,而且這個項目立項以后經過可實施性等多種因素的篩選,最后實施部署出來得到的收益,去向行業做推廣。例如智能數據中心項目,就在2012年互聯網峰會上已經披露了整個框架和技術的細節,引起整個行業很廣泛的興趣,包括跟搜狐同等規模的互聯網公司,甚至比搜狐規模要大很多的互聯網公司。
彭毅補充道:“首先,搜狐是一個對高新技術很感興趣,也勇于嘗試的公司。第二,我們認為英特爾是一個相對來說比較中立的公司,所以我們和英特爾合作的時候,相對來說可以互相坦誠,把需求和技術進行很好的整合找到一個共同研究的項目和方向。”
作為ODCA(開放數據中心聯盟)的成員,搜狐在中國區的貢獻也不可忽視,可以說是互聯網行業首屈一指的貢獻者。僅僅從這一個項目來看,就在ODCA中引申出一些類似碳足跡、數據中心溫度、功耗控制等研究方向。這也是ODCA組織中國區在全球提出的屈指可數的幾個項目之一。也是因此,今年的ODCA大會上,搜狐被授予聯盟杰出貢獻者一獎。