精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:數據中心行業動態 → 正文

數字化的遠程監控及其如何改變了數據中心的運營和維護

責任編輯:editor004 作者:litao984lt編譯 |來源:企業網D1Net  2016-09-02 11:05:02 本文摘自:機房360

今天的數據中心的電力和冷卻基礎設施的數據點/通知(notification)的數量比10年前大約要多3倍。10多年前,傳統的數據中心遠程監控服務就已經出現了,但其并不是設計用于支持這一大量的數據監測及與之相關的報警的,更不用說從數據中提取洞察價值了。在本文中,我們將為廣大讀者諸君介紹7大趨勢如何定義了監控服務的需求,其又將如何引導數據中心操作運營和維護的改進。

數據中心的數字化遠程監控服務已經存在10多年了,但較之今天新的數字化服務,那些老的離線傳統服務是有著其局限性的(下見表1的比較)。這些新的服務融入了諸如如云計算、數據分析和移動應用程序等技術。

在今天的數據中心內部,一名管理人員不知道什么時候應該更換他們的UPS或冷卻單元的即將發生故障運行失敗的某個組件。而與之相反的則是,在數據中心外部,一名人員卻能夠從他們的智能手機上獲得關于他們的正常路由已經借助一款推薦的備用路由備份了20分鐘的一個即時的通知。這種差距促使我們需要來研究一下IT的進步和發展趨勢正在如何改變數據中心的監測,以及反過來,數字化的遠程監控又將如何改變數據中心的操作運營和維護。

在今天,一般的監測概念已經被人們所廣泛理解。任何擁有一款健身跟蹤設備、連續的血糖監測儀器或者Learning Thermostat智能溫控器的人都已然獲得了IT的進步改善了他們的生活的直接體驗。特別是,用戶能夠受益于從他們的設備(如熱量卡路里燃燒消耗,血糖水平等)的直接知識。然而,對于今天的大多數數據中心而言,并沒有受益于大數據分析和機器學習。而大數據分析和機器學習,以及其他五項趨勢將徹底改變管理人員如何操作運營和維護數據中心。

本文中,我們將為大家介紹定義下一代數據中心監控的七大趨勢,及其所帶來的益處。同時,還描述了為達到這些益處對于數據中心的要求,以及數據中心的操作運營和維護在未來將如何發展演化。

 

功能

傳統的遠程監控

數字化遠程監控

在線功能

遠程故障排除

不典型

通用

網絡運營中心

事件追蹤

不典型

分析

具備實時數據和通知的移動應用

在線交流

實時監控

安全的網絡連接

無網絡連接

基于云的存儲

值班狀態

支持的設備

一般為UPS

所有的SNMP 設備

 

表1 傳統與數字化遠程監控的比較

影響數據中心監測的七大技術趨勢

10年前所提供的監測服務是基于桌面臺式機的,具有有限的數據輸出,并在很大程度上是保守的(即依賴于人工來解釋什么是錯誤的)。而數字化的遠程監控已經通過技術解決了這些限制,并將在未來幾年通過技術解決更多的限制。我們看到有七大技術趨勢正在影響數據中心的監測。

· 嵌入式系統的性能和成本的改進

· 網絡安全

· 云計算

· 大數據分析

· 移動計算

· 機器學習

· 勞動效率自動化

如下,我們將為大家簡要地介紹一下這七大趨勢。

嵌入式系統的性能和成本改進

在幾乎所有的數據中心設備中都能夠發現嵌入式系統,這包括制冷機組、PDU、UPS、冷水機組等,而且其基本上控制了這些設備的操作。沒有這些嵌入式系統的輸出,就沒有什么可監控的了。在過去的幾年里,嵌入式系統已經顯著的改善了計算能力、數據存儲、通信和定價。這意味著較之在10年前,今天的數據中心設備可以提供更多的數據。我們估計,在過去的十年中,電源和冷卻設備的報警和通知的總數增加超過了300%。這種增加來自于更多的傳感器、更多的功能、更多的算法和更高的采樣率的組合。所獲得的可用數據越多,數字化遠程監控從數據中心設備所推斷出的有用的信息也就越多。

網絡安全

網絡安全是在全世界范圍內的所有數據中心管理人員們所關注的最大的問題之一。他們不僅關注IT設備的脆弱性,同時也擔心物理基礎設施設備被利用,成為黑客侵入IT網絡的“后門”。數字化的遠程監控,以及其他基于云的服務,必須很好的領會網絡風險問題,甚至是在產品或服務被創建之前。數字化服務提供商需要證明其安全開發生命周期(SDL)實踐方案和政策的安全性。企業客戶需要詢問他們SDL的政策,并驗證其生命周期包括了集中的培訓、安全需求、設計、開發(如編碼標準)、驗證、發布、部署和響應階段。在術語或架構方面,應該有一個單一的入口點使用網關(通常是軟件)進入到您企業的網絡,而所有的設備都是通過網關進行通信。下圖1顯示了一款推薦的數字化遠程監控體系架構。

當評估一家供應商及其數字化遠程監控服務時,數據中心管理人員和安全利益相關者還必須考慮其他幾個因素,其已經在《解決數據中心遠程監控平臺的網絡安全問題》一文中進行了詳細的討論。

  圖1 一款推薦的數字化監控架構

云計算

云計算是數據存儲和處理的一種高度可擴展的方法。云計算使得數字化的遠程監控服務成為了可能。諸如預測分析和機器學習等IT服務可以在云計算平臺上運行,以進一步提高數據中心的監測的價值。

大數據分析

大數據分析看上去似乎與主流相去甚遠,但它適用于今天所進行的活動,如面板引擎的基于狀態的維護(也被稱為預測性維護);和預測制造商要為假期的到來生產多少產品。一個電子表格或數據庫只能識別數據中的模式。而大數據分析則在以下情況下被需要:

· 數據量的增加(例如PB級的數據)

· 數據變為非結構化(即電子郵件、自由格式的文本字段、或故障單的數據變種)

· 以實時處理的數據(以其速度著稱)

移動計算

在過去的幾年里,全球范圍內使用手機上網的數量一直在不斷增長,而通過使用臺式機上網的數量則在急劇下降。這一趨勢也適用于越來越多的數據中心管理人員,他們越來越多地被要求使用更少的資源來做更多的事情。移動計算有助于減輕這種負擔,通過允許數據中心管理人員能夠在不同地理進行正常的日常操作運營,而不會被斷開。

機器學習

機器學習與數據分析有關,其使用數據做出預測。但不同的是,其通過使用以前的學習結果來改善模型。機器學習可以用來駕駛一輛無人駕駛汽車、語音識別、圖像識別、選擇在Netflix上觀看電影、或者精確地模擬一處非常復雜的數據中心PUE。在所有這些例子中,駕駛、識別等性能都能夠隨著時間的推移而進一步獲得提升。

勞動效率自動化

勞動效率自動化并不是一個“熱門”的趨勢,但在一個競爭日益激烈的商業環境中,其與數據中心管理人員特別有關,因為他們被要求用更少的資源來做更多的工作。而這便是自動化的數字化遠程監控發揮其用武之地的時候了。

數字化監控的益處

在文中所介紹的第一大技術趨勢(嵌入式系統的性能和成本改進),為數據中心帶來了一個總體的挑戰。所追蹤的數據量正在不斷迅速的增加,使得數據中心管理人員們更難解釋其意思,也就無法進一步采取正確的行動措施。這是不可持續的,尤其是在當您企業所運行一個數據中心已經人手不足的情況下。管理人員所面臨的其他的一些挑戰包括:

· 大量眾多的警報來自同一個設備時,其實一個警報通知就足夠了。這實際上會導致報警疲勞,相同報警的重復,最終將因人性而被忽略。

· 每款電源和冷卻設備往往有其自己的本機管理解決方案。這導致了缺乏一款統一的監控平臺和標準化的架構,增加了操作的復雜性。對于人手不足的數據中心損害尤其嚴重。

· 打電話給客戶支持中心求助,通過菜單列表撥號,等待接通,讓支持人員創建一個故障表單,但很可能不得不升級才能解決問題。

領會理解、減輕或充分利用了上述幾大技術趨勢的數字化遠程監控服務,可以幫助數據中心管理人員克服這些挑戰,并提供以下益處:

· 減少停機時間/更低的平均修復時間

· 降低運營開銷

· 降低維護和服務的成本

· 提高能源效率

· 可擴展性

減少停機時間/更低的平均修復時間

對停機事件的回顧通常揭示了共同導致數據中心停機中斷事故的一系列的狀態變化。換言之,一個單一的故障事件通常并不會導致停機中斷。數據中心監測的一個重點是在其他狀態變化發生前,通過識別和解決一個狀態變化,以減少停機中斷的風險。在這種情況下,數字化的遠程監控服務應滿足以下要求。

· 網絡運營中心專家進行數據中心故障排除應對網絡安全事件進行篩選和培訓。提供數字化遠程監控的經驗年限時間越長,就越有可能使得一次報警,通知或故障的解決不會造成停機中斷或更糟的問題。在這種情況下的經驗意味著專家通過他們的職業生涯所總結得出的“有驚無險的僥幸脫險”的教訓。在航空飛行和醫療方面的研究表明,這種“有驚無險的僥幸脫險”經驗教訓是學習的關鍵。理解并以文檔形式記錄為什么這些事件會發生,有助于在未來減少類似錯誤的風險。

· 以文檔形式記錄所有的事件必須是任何數字化遠程監控系統的一部分。

· 服務應通過報警、遠程故障診斷和對于設備生命周期的可視化來降低故障修復時間。此故障排除應該由您數據中心的監測專家全天候7x24的交付。

· 數據中心監控專家應該有一份數據中心相關責任聯系人的列表清單,以便在發生關鍵事件時能夠在第一時間電話聯系到相關責任人。數據中心管理人員應該時刻保持該聯系人列表的更新,最好是通過一款移動應用程序。

· 在數據中心與第三方設備的兼容性改善了NOC領域的專家的態勢感知能力。了解所有設備的狀態有助于改善問題的解決或至少有助于理解問題或潛在的問題。

· 預測分析和遠程故障排除應該被用來減少您需要專門的服務人員來服務于您的設備的次數。聽到技術人員多次出現要么是因為他們需要幫助,又沒有正確的專業知識;要么是因為沒有正確的組件,這種狀態太常見了。而通過充分理解這個問題,現場服務工程師可以通過準備好正確的零件和工具,從而增加了他們在第一次訪問時就順利解決問題的可能性。

降低運營開銷

以下要求允許數字化遠程監控服務幫助數據中心降低運營開銷,進而讓員工把工作重點放在更重要的、有助于增加價值的業務方面。

· 支持您的數據中心的網絡運營中心領域的專家(圖2)。

· 一款移動應用(圖3),使數據中心管理人員能夠隨時隨地的立即訪問數據及其數據中心的狀態。大多數人隨身攜帶自己的手機,因此,手機成為他們接收數據中心健康運行狀態信息的主要手段是合乎邏輯的。登錄到一臺桌面臺式機(有時需要VPN)來解決一個問題是相當耗時,且不方便的。

· 自動故障票據的生成應通過一款移動應用程序來提供。這可以節省大量的時間,因為其避免了給技術支持人員打電話的時間,以及向多名技術支持人員解釋相同的問題的時間。這有助于顯著的減少解決問題所花費的時間。一個相關的最佳實踐方案是通過聊天,郵件、信息等方式來追蹤故障事件。

  圖2 一處網絡運營中心的范例(NOC)

  圖3 數字化監控移動應用程序實例

· 通過移動應用程序的在線交流作為團隊協同、及獲得對于NOC領域專家的即時訪問的一種手段。

· 快速登錄意味著在大約30分鐘就可以完成網關的安裝,設備的自動發現,軟件的注冊,配置智能手機的應用程序,并開始監控您的數據中心。

· 人工手動輸入待監控的設備是相當耗時的,并可能造成人為錯誤。而數字化的遠程監控系統則能夠使用簡單網絡管理協議(SNMP)自動檢測關鍵的基礎設施設備。Modbus TCP設備通常不會自動檢測,因為他們需要設備定義的文件(DDF)。網關通常掃描一個范圍內的IP地址(由用戶指定),檢測適用的設備,并將數據呈現給用戶。

· 事件處理類似于醫院如何分診患者。最關鍵的警報優先通知,并采取行動措施。這一做法減少了數據中心運營人員知道在觸發多個報警的一個事件發生時,NOC專家將通知和引導他們的負擔。

· 事件關聯性和根源分析評估多個報警,并推導可能的原因,提出可能的解決方案。這種相關性過程可以由NOC領域的專家或結合機器學習來完成。例如,一個CRAH高溫報警可能并不是問題,但在相同的冷卻水回路發出六個報警則可能是由于供水閥門被關閉這一根本原因所引發的問題。

· 報警整合將在同一個設備的多個報警轉換成一個單一的事件。這種做法避免了不得不承認多個相同報警所浪費的時間。此外,工作流程票據應為這一事件自動產生,以通知誰目前正在處理該問題,迄今完成了什么任務,并跟蹤其進度和最終解決情況。

· 語境報警為用戶提供有用的信息:如問題的起源(例如X數據中心,Y數據大廳,15C機架),涉及的人員,警報生成的次數,他們應該檢查什么。所有這些信息都應該通過移動應用程序,而不需要通過電話溝通。

· 任何人在網上搜索一個錯誤信息,都是希望能夠解決一個問題,可能會遇到一個在線社區,擁有數百名用戶發布過常見問題及答案。這種形式的“眾包”可以節省大量的解決問題的時間。所有數字化的遠程監控服務應包括其自己的在線社區。

提高能源效率

被監視的設備越多,就越有機會得以更好的提高數據中心的效率。然而,為了使對數據中心效率作出有用的推斷,其UPS的負荷必須作為總的IT負載的代理進行測量。如果不知道IT負載,那么對于電源和冷卻基礎設施增加或減少的評估也就是沒有根據的。例如,如果冷卻機組耗能趨勢上升,我不知道這是否是由于冷水機組問題,或者由于增加了IT負載。借助這些數據,可以比較所有設備在電源和冷卻路徑的電力消耗情況,并通過比較IT負載尋找異常。然而,提高數據中心效率的一種更有效的方法是測量PUE,并將其實時的與一個PUE模型進行比較。

在《數據中心的電力效率測量》一文中,我們為大家介紹了數據中心能源效率模型的工作原理,并介紹了一款連續測量系統同時評估PUE的模型。如果部署得當,電源效率的趨勢可以報告,并能夠基于出界條件產生警報。此外,一款有效的系統可以提供診斷效率低下的來源,并建議采取糾正行動措施的能力。這種基于模型的效率解決方案也應該被NOC人員進行連續監測。

可擴展性

可擴展性是數字化遠程監控系統接受額外的設備或節點,以進行監測的能力。取決于這些系統是如何設計的,監測可能局限于幾千臺設備。對于較小的數據中心而言,可擴展性通常不是問題(例如500KW的IT負載能力),但對于大型數據中心而言就是一個嚴重的問題。一些數據中心可以有成千上萬的設備需要監控,并要求每隔幾秒輪詢一次,因此,一款數字化的遠程監控系統應該設計一個可水平擴展的,基于云的架構。這意味著,隨著越來越多的設備被進行監控,云服務將自動添加更多的計算節點來處理監控。數據中心管理人員需要確定他們的要求,然后了解正在被評估的各種監測服務的能力和局限性。

數據中心的運營和維護的演變

在服裝、手表、和其他“可穿戴設備”上使用嵌入式傳感器,將允許醫生預測您生病或患心臟病的風險,并獲得關于您身體狀況的許多其他方面的見解。通過對油耗數據進行分析,航空公司可以調整其飛行程序,如控制表面的位置以改善燃料效率。這些都是“物聯網”(IoT)的例子,其中設備通過一個網關、微數據中心、或一個云數據中心相互通信,最終為我們的生活和我們的企業增加價值。

在此背景下,能夠更容易的看到數據中心在本文所介紹的七大技術趨勢和物聯網的推動下,將如何改進的沃土。在未來幾年內,我們將在各種大大小小的數據中心的運營和維修方面看到如下的變化:

運營的演變

· 就像自動駕駛汽車很少經歷車禍被認為是由于沒有人為錯誤一樣,數據中心停機時間的減少也是由于減少了人為錯誤的出現。在停機中斷方面的減少也將主要通過機器學習來完成。隨著越來越多的關于造成停機中斷事故或有驚無險事故的原因的數據被收集,數字化遠程監控系統將能夠預測數據中心發生宕機事件的風險,并為數據中心運營人員提供適當的措施來避免事故。

· 數據中心的效率將以兩種方式得到提高;更準確的設備效率模型和數據中心模型。這種準確性將來自于對實際操作中的不同數據中心在不同的氣候條件下運行不同負載的數據的收集。數據中心模型,使用機器學習,最終將有足夠的數據可以建議怎樣的冷卻系統設置將導致最低的功耗。正如上文中所提到的,數據中心模型也被用來比較預測的數據中心的能源消耗情況與實際的能源消耗情況,并在發生嚴重偏離時向數據中心運營人員發出警報。

· 當一名數據中心管理人員接收到數據中心的警報時,他們的移動應用程序將能夠告訴他們需要采取什么樣的措施來糾正任何錯誤。更復雜的程序可以用增強現實技術來完成,其中管理人員可以戴著一副特殊的眼鏡和形成對于相關設備的圖像,指導他們到底該怎么做。

· 天氣數據(也許還有公用電力供應數據)將被用來建議一處數據中心何時應切換至發電機,應對于預計發生的斷電。

維護的演變

· 傳統的維護模式將為客戶的定期訪問而收取費用,因為廠家缺乏數據和分析來準確地預測某些運行何時會出現故障或是低效率運行。數據中心將從基于定期的維護,轉移到基于數據中心性能狀態的維護。這也將鼓勵設備制造商使用更多的傳感器和算法,改善對組件故障的預測,改善環境報警,并最終減少數據中心維護成本。

· 制造商們將不再需要依靠保修卡和電話跟蹤組件故障。相反,他們將依靠一個數據湖和分析,其將為他們提供了豐富的洞察見解,不僅是在組件故障領域,同時還包括如何提高未來產品的可靠性。對于數據中心的管理人員們而言,這一演化的最引人注目和最有價值的部分是其發生的速度。今天,制造商們需要花費了相當長的時間才能收集足夠的數據,認識到一個問題,然后了解其造成的原因,最后找到一種方法來解決它。

· 從現場數據和分析所獲得的洞察見解將使現場服務訪問更可預測。例如,當某個問題被修復后,存在第一次訪問量將有可能增加而服務缺陷較低的風險(無論是在服務過程期間或服務完成后)。最終,這將轉化為更高的數據中心可靠性,并降低數據中心管理人員的維護成本。

· 現場服務技術人員所做的一切都會被記錄下來,并且是與所發生的事情相關的。通過收集足夠的數據,制造商們將知道他們何時會有一系列特定的事件發生,以怎樣的一個特定的順序發生,這意味著他們需要采取一定的措施,或者部分的措施是必需的。這將演變成一個數字化遠程監控服務以正確的工作順序和備件自動調度現場服務技術員。

· 傳統上,您需要至少兩個人員來執行維護操作,如運行發電機測試;一人閱讀明指令,并確認他們執行正確,第二個人重復指令并執行這些操作。有了機器學習,我們可能只需要一個人員即可。

網絡的價值

伴隨著Facebook作為一家領先的社交網絡平臺的崛起,“網絡效應”這一術語獲得了廣泛的認識。這一術語基本上意味著,隨著越來越多的人使用特定的產品或服務,該產品或服務將實現更多的用戶價值。電話便是網絡效應中的一個經常被使用的例子。如果世界上只有一個人有電話,那是沒有價值的,因為他不能跟任何人通話。但當成千上萬的人都有電話時,其便有了價值。這對于數字化遠程監控服務也是一樣的。

如果只有一名數據中心管理員使用了像本文所描述的這樣一款數字遠程監控服務,那么,他們不會從數據分析及基于狀態的檢修中獲得任何價值。該價值的快速增加,就是因為越來越多的數據中心使用該服務,并收集盡可能多的數據進行分析,以提供洞察見解。 例如,如果100,000家數據中心使用該服務,這些數據中心中有很大比例的中心很可能有風冷式封裝的制冷機冷卻架構。有了這些大量的數據,通過分析可能建議他們改變冷卻系統,并能夠估計出通過改變冷卻系統所能夠帶來的能源賬單的節省。

結論

通過使用數字化遠程監控和基于狀態的維護,并通過采用諸如大數據和機器學習等技術,數據中心正走上了通往更可靠,更高效的道路。然而,這一切只能在平臺充分利用了數據中心的物理基礎設施所不斷產生的數據的前提下才能發生。當他們開始評估自己的數據中心的演化時,數據中心運營人員應當審查本文中所介紹的關于數字化遠程監控的要求。

關于作者

本文作者Victor Avelar是施耐德電氣公司數據中心科學中心的主任兼高級研究分析師。他負責數據中心的設計和運營研究,并就風險評估和設計實踐,以優化數據中心環境的可用性和效率等方面為客戶提供咨詢。Victor擁有美國倫斯勒理工學院機械工程學士學位和巴布森學院的MBA學位。他是AFCOM的成員。

關鍵字:遠程監控電源效率

本文摘自:機房360

x 數字化的遠程監控及其如何改變了數據中心的運營和維護 掃一掃
分享本文到朋友圈
當前位置:數據中心行業動態 → 正文

數字化的遠程監控及其如何改變了數據中心的運營和維護

責任編輯:editor004 作者:litao984lt編譯 |來源:企業網D1Net  2016-09-02 11:05:02 本文摘自:機房360

今天的數據中心的電力和冷卻基礎設施的數據點/通知(notification)的數量比10年前大約要多3倍。10多年前,傳統的數據中心遠程監控服務就已經出現了,但其并不是設計用于支持這一大量的數據監測及與之相關的報警的,更不用說從數據中提取洞察價值了。在本文中,我們將為廣大讀者諸君介紹7大趨勢如何定義了監控服務的需求,其又將如何引導數據中心操作運營和維護的改進。

數據中心的數字化遠程監控服務已經存在10多年了,但較之今天新的數字化服務,那些老的離線傳統服務是有著其局限性的(下見表1的比較)。這些新的服務融入了諸如如云計算、數據分析和移動應用程序等技術。

在今天的數據中心內部,一名管理人員不知道什么時候應該更換他們的UPS或冷卻單元的即將發生故障運行失敗的某個組件。而與之相反的則是,在數據中心外部,一名人員卻能夠從他們的智能手機上獲得關于他們的正常路由已經借助一款推薦的備用路由備份了20分鐘的一個即時的通知。這種差距促使我們需要來研究一下IT的進步和發展趨勢正在如何改變數據中心的監測,以及反過來,數字化的遠程監控又將如何改變數據中心的操作運營和維護。

在今天,一般的監測概念已經被人們所廣泛理解。任何擁有一款健身跟蹤設備、連續的血糖監測儀器或者Learning Thermostat智能溫控器的人都已然獲得了IT的進步改善了他們的生活的直接體驗。特別是,用戶能夠受益于從他們的設備(如熱量卡路里燃燒消耗,血糖水平等)的直接知識。然而,對于今天的大多數數據中心而言,并沒有受益于大數據分析和機器學習。而大數據分析和機器學習,以及其他五項趨勢將徹底改變管理人員如何操作運營和維護數據中心。

本文中,我們將為大家介紹定義下一代數據中心監控的七大趨勢,及其所帶來的益處。同時,還描述了為達到這些益處對于數據中心的要求,以及數據中心的操作運營和維護在未來將如何發展演化。

 

功能

傳統的遠程監控

數字化遠程監控

在線功能

遠程故障排除

不典型

通用

網絡運營中心

事件追蹤

不典型

分析

具備實時數據和通知的移動應用

在線交流

實時監控

安全的網絡連接

無網絡連接

基于云的存儲

值班狀態

支持的設備

一般為UPS

所有的SNMP 設備

 

表1 傳統與數字化遠程監控的比較

影響數據中心監測的七大技術趨勢

10年前所提供的監測服務是基于桌面臺式機的,具有有限的數據輸出,并在很大程度上是保守的(即依賴于人工來解釋什么是錯誤的)。而數字化的遠程監控已經通過技術解決了這些限制,并將在未來幾年通過技術解決更多的限制。我們看到有七大技術趨勢正在影響數據中心的監測。

· 嵌入式系統的性能和成本的改進

· 網絡安全

· 云計算

· 大數據分析

· 移動計算

· 機器學習

· 勞動效率自動化

如下,我們將為大家簡要地介紹一下這七大趨勢。

嵌入式系統的性能和成本改進

在幾乎所有的數據中心設備中都能夠發現嵌入式系統,這包括制冷機組、PDU、UPS、冷水機組等,而且其基本上控制了這些設備的操作。沒有這些嵌入式系統的輸出,就沒有什么可監控的了。在過去的幾年里,嵌入式系統已經顯著的改善了計算能力、數據存儲、通信和定價。這意味著較之在10年前,今天的數據中心設備可以提供更多的數據。我們估計,在過去的十年中,電源和冷卻設備的報警和通知的總數增加超過了300%。這種增加來自于更多的傳感器、更多的功能、更多的算法和更高的采樣率的組合。所獲得的可用數據越多,數字化遠程監控從數據中心設備所推斷出的有用的信息也就越多。

網絡安全

網絡安全是在全世界范圍內的所有數據中心管理人員們所關注的最大的問題之一。他們不僅關注IT設備的脆弱性,同時也擔心物理基礎設施設備被利用,成為黑客侵入IT網絡的“后門”。數字化的遠程監控,以及其他基于云的服務,必須很好的領會網絡風險問題,甚至是在產品或服務被創建之前。數字化服務提供商需要證明其安全開發生命周期(SDL)實踐方案和政策的安全性。企業客戶需要詢問他們SDL的政策,并驗證其生命周期包括了集中的培訓、安全需求、設計、開發(如編碼標準)、驗證、發布、部署和響應階段。在術語或架構方面,應該有一個單一的入口點使用網關(通常是軟件)進入到您企業的網絡,而所有的設備都是通過網關進行通信。下圖1顯示了一款推薦的數字化遠程監控體系架構。

當評估一家供應商及其數字化遠程監控服務時,數據中心管理人員和安全利益相關者還必須考慮其他幾個因素,其已經在《解決數據中心遠程監控平臺的網絡安全問題》一文中進行了詳細的討論。

  圖1 一款推薦的數字化監控架構

云計算

云計算是數據存儲和處理的一種高度可擴展的方法。云計算使得數字化的遠程監控服務成為了可能。諸如預測分析和機器學習等IT服務可以在云計算平臺上運行,以進一步提高數據中心的監測的價值。

大數據分析

大數據分析看上去似乎與主流相去甚遠,但它適用于今天所進行的活動,如面板引擎的基于狀態的維護(也被稱為預測性維護);和預測制造商要為假期的到來生產多少產品。一個電子表格或數據庫只能識別數據中的模式。而大數據分析則在以下情況下被需要:

· 數據量的增加(例如PB級的數據)

· 數據變為非結構化(即電子郵件、自由格式的文本字段、或故障單的數據變種)

· 以實時處理的數據(以其速度著稱)

移動計算

在過去的幾年里,全球范圍內使用手機上網的數量一直在不斷增長,而通過使用臺式機上網的數量則在急劇下降。這一趨勢也適用于越來越多的數據中心管理人員,他們越來越多地被要求使用更少的資源來做更多的事情。移動計算有助于減輕這種負擔,通過允許數據中心管理人員能夠在不同地理進行正常的日常操作運營,而不會被斷開。

機器學習

機器學習與數據分析有關,其使用數據做出預測。但不同的是,其通過使用以前的學習結果來改善模型。機器學習可以用來駕駛一輛無人駕駛汽車、語音識別、圖像識別、選擇在Netflix上觀看電影、或者精確地模擬一處非常復雜的數據中心PUE。在所有這些例子中,駕駛、識別等性能都能夠隨著時間的推移而進一步獲得提升。

勞動效率自動化

勞動效率自動化并不是一個“熱門”的趨勢,但在一個競爭日益激烈的商業環境中,其與數據中心管理人員特別有關,因為他們被要求用更少的資源來做更多的工作。而這便是自動化的數字化遠程監控發揮其用武之地的時候了。

數字化監控的益處

在文中所介紹的第一大技術趨勢(嵌入式系統的性能和成本改進),為數據中心帶來了一個總體的挑戰。所追蹤的數據量正在不斷迅速的增加,使得數據中心管理人員們更難解釋其意思,也就無法進一步采取正確的行動措施。這是不可持續的,尤其是在當您企業所運行一個數據中心已經人手不足的情況下。管理人員所面臨的其他的一些挑戰包括:

· 大量眾多的警報來自同一個設備時,其實一個警報通知就足夠了。這實際上會導致報警疲勞,相同報警的重復,最終將因人性而被忽略。

· 每款電源和冷卻設備往往有其自己的本機管理解決方案。這導致了缺乏一款統一的監控平臺和標準化的架構,增加了操作的復雜性。對于人手不足的數據中心損害尤其嚴重。

· 打電話給客戶支持中心求助,通過菜單列表撥號,等待接通,讓支持人員創建一個故障表單,但很可能不得不升級才能解決問題。

領會理解、減輕或充分利用了上述幾大技術趨勢的數字化遠程監控服務,可以幫助數據中心管理人員克服這些挑戰,并提供以下益處:

· 減少停機時間/更低的平均修復時間

· 降低運營開銷

· 降低維護和服務的成本

· 提高能源效率

· 可擴展性

減少停機時間/更低的平均修復時間

對停機事件的回顧通常揭示了共同導致數據中心停機中斷事故的一系列的狀態變化。換言之,一個單一的故障事件通常并不會導致停機中斷。數據中心監測的一個重點是在其他狀態變化發生前,通過識別和解決一個狀態變化,以減少停機中斷的風險。在這種情況下,數字化的遠程監控服務應滿足以下要求。

· 網絡運營中心專家進行數據中心故障排除應對網絡安全事件進行篩選和培訓。提供數字化遠程監控的經驗年限時間越長,就越有可能使得一次報警,通知或故障的解決不會造成停機中斷或更糟的問題。在這種情況下的經驗意味著專家通過他們的職業生涯所總結得出的“有驚無險的僥幸脫險”的教訓。在航空飛行和醫療方面的研究表明,這種“有驚無險的僥幸脫險”經驗教訓是學習的關鍵。理解并以文檔形式記錄為什么這些事件會發生,有助于在未來減少類似錯誤的風險。

· 以文檔形式記錄所有的事件必須是任何數字化遠程監控系統的一部分。

· 服務應通過報警、遠程故障診斷和對于設備生命周期的可視化來降低故障修復時間。此故障排除應該由您數據中心的監測專家全天候7x24的交付。

· 數據中心監控專家應該有一份數據中心相關責任聯系人的列表清單,以便在發生關鍵事件時能夠在第一時間電話聯系到相關責任人。數據中心管理人員應該時刻保持該聯系人列表的更新,最好是通過一款移動應用程序。

· 在數據中心與第三方設備的兼容性改善了NOC領域的專家的態勢感知能力。了解所有設備的狀態有助于改善問題的解決或至少有助于理解問題或潛在的問題。

· 預測分析和遠程故障排除應該被用來減少您需要專門的服務人員來服務于您的設備的次數。聽到技術人員多次出現要么是因為他們需要幫助,又沒有正確的專業知識;要么是因為沒有正確的組件,這種狀態太常見了。而通過充分理解這個問題,現場服務工程師可以通過準備好正確的零件和工具,從而增加了他們在第一次訪問時就順利解決問題的可能性。

降低運營開銷

以下要求允許數字化遠程監控服務幫助數據中心降低運營開銷,進而讓員工把工作重點放在更重要的、有助于增加價值的業務方面。

· 支持您的數據中心的網絡運營中心領域的專家(圖2)。

· 一款移動應用(圖3),使數據中心管理人員能夠隨時隨地的立即訪問數據及其數據中心的狀態。大多數人隨身攜帶自己的手機,因此,手機成為他們接收數據中心健康運行狀態信息的主要手段是合乎邏輯的。登錄到一臺桌面臺式機(有時需要VPN)來解決一個問題是相當耗時,且不方便的。

· 自動故障票據的生成應通過一款移動應用程序來提供。這可以節省大量的時間,因為其避免了給技術支持人員打電話的時間,以及向多名技術支持人員解釋相同的問題的時間。這有助于顯著的減少解決問題所花費的時間。一個相關的最佳實踐方案是通過聊天,郵件、信息等方式來追蹤故障事件。

  圖2 一處網絡運營中心的范例(NOC)

  圖3 數字化監控移動應用程序實例

· 通過移動應用程序的在線交流作為團隊協同、及獲得對于NOC領域專家的即時訪問的一種手段。

· 快速登錄意味著在大約30分鐘就可以完成網關的安裝,設備的自動發現,軟件的注冊,配置智能手機的應用程序,并開始監控您的數據中心。

· 人工手動輸入待監控的設備是相當耗時的,并可能造成人為錯誤。而數字化的遠程監控系統則能夠使用簡單網絡管理協議(SNMP)自動檢測關鍵的基礎設施設備。Modbus TCP設備通常不會自動檢測,因為他們需要設備定義的文件(DDF)。網關通常掃描一個范圍內的IP地址(由用戶指定),檢測適用的設備,并將數據呈現給用戶。

· 事件處理類似于醫院如何分診患者。最關鍵的警報優先通知,并采取行動措施。這一做法減少了數據中心運營人員知道在觸發多個報警的一個事件發生時,NOC專家將通知和引導他們的負擔。

· 事件關聯性和根源分析評估多個報警,并推導可能的原因,提出可能的解決方案。這種相關性過程可以由NOC領域的專家或結合機器學習來完成。例如,一個CRAH高溫報警可能并不是問題,但在相同的冷卻水回路發出六個報警則可能是由于供水閥門被關閉這一根本原因所引發的問題。

· 報警整合將在同一個設備的多個報警轉換成一個單一的事件。這種做法避免了不得不承認多個相同報警所浪費的時間。此外,工作流程票據應為這一事件自動產生,以通知誰目前正在處理該問題,迄今完成了什么任務,并跟蹤其進度和最終解決情況。

· 語境報警為用戶提供有用的信息:如問題的起源(例如X數據中心,Y數據大廳,15C機架),涉及的人員,警報生成的次數,他們應該檢查什么。所有這些信息都應該通過移動應用程序,而不需要通過電話溝通。

· 任何人在網上搜索一個錯誤信息,都是希望能夠解決一個問題,可能會遇到一個在線社區,擁有數百名用戶發布過常見問題及答案。這種形式的“眾包”可以節省大量的解決問題的時間。所有數字化的遠程監控服務應包括其自己的在線社區。

提高能源效率

被監視的設備越多,就越有機會得以更好的提高數據中心的效率。然而,為了使對數據中心效率作出有用的推斷,其UPS的負荷必須作為總的IT負載的代理進行測量。如果不知道IT負載,那么對于電源和冷卻基礎設施增加或減少的評估也就是沒有根據的。例如,如果冷卻機組耗能趨勢上升,我不知道這是否是由于冷水機組問題,或者由于增加了IT負載。借助這些數據,可以比較所有設備在電源和冷卻路徑的電力消耗情況,并通過比較IT負載尋找異常。然而,提高數據中心效率的一種更有效的方法是測量PUE,并將其實時的與一個PUE模型進行比較。

在《數據中心的電力效率測量》一文中,我們為大家介紹了數據中心能源效率模型的工作原理,并介紹了一款連續測量系統同時評估PUE的模型。如果部署得當,電源效率的趨勢可以報告,并能夠基于出界條件產生警報。此外,一款有效的系統可以提供診斷效率低下的來源,并建議采取糾正行動措施的能力。這種基于模型的效率解決方案也應該被NOC人員進行連續監測。

可擴展性

可擴展性是數字化遠程監控系統接受額外的設備或節點,以進行監測的能力。取決于這些系統是如何設計的,監測可能局限于幾千臺設備。對于較小的數據中心而言,可擴展性通常不是問題(例如500KW的IT負載能力),但對于大型數據中心而言就是一個嚴重的問題。一些數據中心可以有成千上萬的設備需要監控,并要求每隔幾秒輪詢一次,因此,一款數字化的遠程監控系統應該設計一個可水平擴展的,基于云的架構。這意味著,隨著越來越多的設備被進行監控,云服務將自動添加更多的計算節點來處理監控。數據中心管理人員需要確定他們的要求,然后了解正在被評估的各種監測服務的能力和局限性。

數據中心的運營和維護的演變

在服裝、手表、和其他“可穿戴設備”上使用嵌入式傳感器,將允許醫生預測您生病或患心臟病的風險,并獲得關于您身體狀況的許多其他方面的見解。通過對油耗數據進行分析,航空公司可以調整其飛行程序,如控制表面的位置以改善燃料效率。這些都是“物聯網”(IoT)的例子,其中設備通過一個網關、微數據中心、或一個云數據中心相互通信,最終為我們的生活和我們的企業增加價值。

在此背景下,能夠更容易的看到數據中心在本文所介紹的七大技術趨勢和物聯網的推動下,將如何改進的沃土。在未來幾年內,我們將在各種大大小小的數據中心的運營和維修方面看到如下的變化:

運營的演變

· 就像自動駕駛汽車很少經歷車禍被認為是由于沒有人為錯誤一樣,數據中心停機時間的減少也是由于減少了人為錯誤的出現。在停機中斷方面的減少也將主要通過機器學習來完成。隨著越來越多的關于造成停機中斷事故或有驚無險事故的原因的數據被收集,數字化遠程監控系統將能夠預測數據中心發生宕機事件的風險,并為數據中心運營人員提供適當的措施來避免事故。

· 數據中心的效率將以兩種方式得到提高;更準確的設備效率模型和數據中心模型。這種準確性將來自于對實際操作中的不同數據中心在不同的氣候條件下運行不同負載的數據的收集。數據中心模型,使用機器學習,最終將有足夠的數據可以建議怎樣的冷卻系統設置將導致最低的功耗。正如上文中所提到的,數據中心模型也被用來比較預測的數據中心的能源消耗情況與實際的能源消耗情況,并在發生嚴重偏離時向數據中心運營人員發出警報。

· 當一名數據中心管理人員接收到數據中心的警報時,他們的移動應用程序將能夠告訴他們需要采取什么樣的措施來糾正任何錯誤。更復雜的程序可以用增強現實技術來完成,其中管理人員可以戴著一副特殊的眼鏡和形成對于相關設備的圖像,指導他們到底該怎么做。

· 天氣數據(也許還有公用電力供應數據)將被用來建議一處數據中心何時應切換至發電機,應對于預計發生的斷電。

維護的演變

· 傳統的維護模式將為客戶的定期訪問而收取費用,因為廠家缺乏數據和分析來準確地預測某些運行何時會出現故障或是低效率運行。數據中心將從基于定期的維護,轉移到基于數據中心性能狀態的維護。這也將鼓勵設備制造商使用更多的傳感器和算法,改善對組件故障的預測,改善環境報警,并最終減少數據中心維護成本。

· 制造商們將不再需要依靠保修卡和電話跟蹤組件故障。相反,他們將依靠一個數據湖和分析,其將為他們提供了豐富的洞察見解,不僅是在組件故障領域,同時還包括如何提高未來產品的可靠性。對于數據中心的管理人員們而言,這一演化的最引人注目和最有價值的部分是其發生的速度。今天,制造商們需要花費了相當長的時間才能收集足夠的數據,認識到一個問題,然后了解其造成的原因,最后找到一種方法來解決它。

· 從現場數據和分析所獲得的洞察見解將使現場服務訪問更可預測。例如,當某個問題被修復后,存在第一次訪問量將有可能增加而服務缺陷較低的風險(無論是在服務過程期間或服務完成后)。最終,這將轉化為更高的數據中心可靠性,并降低數據中心管理人員的維護成本。

· 現場服務技術人員所做的一切都會被記錄下來,并且是與所發生的事情相關的。通過收集足夠的數據,制造商們將知道他們何時會有一系列特定的事件發生,以怎樣的一個特定的順序發生,這意味著他們需要采取一定的措施,或者部分的措施是必需的。這將演變成一個數字化遠程監控服務以正確的工作順序和備件自動調度現場服務技術員。

· 傳統上,您需要至少兩個人員來執行維護操作,如運行發電機測試;一人閱讀明指令,并確認他們執行正確,第二個人重復指令并執行這些操作。有了機器學習,我們可能只需要一個人員即可。

網絡的價值

伴隨著Facebook作為一家領先的社交網絡平臺的崛起,“網絡效應”這一術語獲得了廣泛的認識。這一術語基本上意味著,隨著越來越多的人使用特定的產品或服務,該產品或服務將實現更多的用戶價值。電話便是網絡效應中的一個經常被使用的例子。如果世界上只有一個人有電話,那是沒有價值的,因為他不能跟任何人通話。但當成千上萬的人都有電話時,其便有了價值。這對于數字化遠程監控服務也是一樣的。

如果只有一名數據中心管理員使用了像本文所描述的這樣一款數字遠程監控服務,那么,他們不會從數據分析及基于狀態的檢修中獲得任何價值。該價值的快速增加,就是因為越來越多的數據中心使用該服務,并收集盡可能多的數據進行分析,以提供洞察見解。 例如,如果100,000家數據中心使用該服務,這些數據中心中有很大比例的中心很可能有風冷式封裝的制冷機冷卻架構。有了這些大量的數據,通過分析可能建議他們改變冷卻系統,并能夠估計出通過改變冷卻系統所能夠帶來的能源賬單的節省。

結論

通過使用數字化遠程監控和基于狀態的維護,并通過采用諸如大數據和機器學習等技術,數據中心正走上了通往更可靠,更高效的道路。然而,這一切只能在平臺充分利用了數據中心的物理基礎設施所不斷產生的數據的前提下才能發生。當他們開始評估自己的數據中心的演化時,數據中心運營人員應當審查本文中所介紹的關于數字化遠程監控的要求。

關于作者

本文作者Victor Avelar是施耐德電氣公司數據中心科學中心的主任兼高級研究分析師。他負責數據中心的設計和運營研究,并就風險評估和設計實踐,以優化數據中心環境的可用性和效率等方面為客戶提供咨詢。Victor擁有美國倫斯勒理工學院機械工程學士學位和巴布森學院的MBA學位。他是AFCOM的成員。

關鍵字:遠程監控電源效率

本文摘自:機房360

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 高安市| 郑州市| 全南县| 巴彦县| 临城县| 肥西县| 邵阳市| 吉安县| 丹东市| 石嘴山市| 灵丘县| 陆河县| 峨边| 栾川县| 遵化市| 长乐市| 蕉岭县| 呈贡县| 历史| 新民市| 视频| 高雄县| 蒲城县| 宁南县| 汝南县| 长岭县| 五家渠市| 同心县| 宁都县| 玉田县| 剑阁县| 扎兰屯市| 社会| 莆田市| 小金县| 南投市| 西吉县| 都兰县| 措勤县| 罗定市| 沂源县|