最近關于數據中心的一則新聞“火了”。10月1日有網友爆料,位于青島西海岸的惠普數據中心于國慶節前夕發生大火,現場黑煙滾滾,預估設備受損嚴重。
在大多數人印象里可能覺得數據中心和火災沒有太大關系,因為機房里除了電子設備,沒有別的東西,再加上數據中心都具備有完善的消防監控系統,認為就算有火災隱患也會很快解決。然而,實際情況恰恰相反,數據中心著火事件并非個例。
2018年4月5號,擁有“信息黃埔”之稱的北京郵電大學校園核心機房著火受損,北京眾多高校校內網崩潰。
2015年10月13號,Windows Azure上海數據中心發生故障,機房著火斷電,導致Azure基礎設施離線無法提供正常服務,受到影響的用戶包括金融、互聯網、房地產。
同年1月10日亞馬遜公司正在美國弗吉尼亞州建設的一座數據中心著火。
2014年7月20日重慶農商行數據中心發生重大火災,整個機房全部燒毀,直接損失達到一個億以上。
針對數據中心發生的火災,業內專家表示險情多發的根源還是在運維管理上,正所謂“三分技術,七分管理”,數據中心的故障大多源自人禍。
IDC超7成故障是人為因素造成的
隨著互聯網技術在全球的普及,數據中心的規模越來越大,人作為數據中心運維管理上的重要一環,參與了大多數的工作。例如日常巡檢、定期檢修等,但人為參與程度越高,出錯概率也就越大。有分析稱,在數據中心產生故障的原因中,人禍占據了七成以上。
例如年初,亞馬遜云計算的存儲服務爆發了重大故障,大量網站和APP客戶受到影響。然而事后亞馬遜方面給出的原因竟然是工作人員的低級失誤,造成了此次重大故障的發生。無獨有偶,3月16日,微軟證實其云計算發生了全球性故障,在所有28個數據中心中,有26個出現故障,微軟公共云服務中的數據存儲故障同時引發了其他相關的服務故障,而原因又是人為因素造成。
AI替代人工 降低的不只是安全隱患
其實,早在數據中心在全球大規模建設之初,如何控制“人禍”就成為數據中心降低安全隱患的重要方向,但是隨著單體數據中心規模的不斷加大,人力的需求不降反增,而且大量的工作人員,不僅帶來人為因素上的安全隱患,還會讓工作流程更加復雜,工作效率更加低下。尤其是在當下數據中心不斷擴容、新增、改造的條件下,也讓很多原來設計的安全規范無法滿足實際情況需要。
所以,隨著AI技術的發展,數據中心無論是管理、監控還是維護,采用AI替代人工的需求越來越高。畢竟,AI不需要睡覺,可以全天運行,更不會產生放假、生病的問題。那么現在的AI能否真正的替代那些需要人為判斷的任務并進行處理呢?
首先可以肯定的是,在數據中心中應用AI有著先天的優勢,國內很多新興或者升級后的數據中心已經開始初步應用AI,例如自動執行IT管理人員設定的任務,將大量原始數據轉化為人為可識別的信息。而更深度的AI案例也早已出現,例如百度的云計算(陽泉)中心。
在高度智能化的百度云計算(陽泉)中心,目前已全面實現無紙化操作,通過Pad 、電腦進行巡檢。當然,這也僅僅是AI非常初級的應用,現在的百度云計算(陽泉)中心通過建立IDC深度學習模式,已經讓數據中心擁有難以置信的效果,比如冷卻用電方面,百度云計算(陽泉)中心可以通過分析、學習上百個變量的實際數據,進行冷卻方式的智能切換。最直接的表現就是,當外部環境不管是溫度、濕度還是負荷產生了變化,AI系統都會智能切換制冷模式,大大提高了數據中心冷卻設備的使用效率,并最終大大降低了人力的使用,讓PUE這樣的關鍵指標始終維持在1.10這一全國最高水準的水平線上。
那么,現在在AI加持下的百度云計算(陽泉)中心人力使用是什么情況呢?來看一組數據就會非常清晰。百度云計算(陽泉)中心面積約12萬平方米,而工作人員僅有60左右,相當于1人可管理2000平方米。想象一下,籃球場大約400平方米,百度云計算(陽泉)中心的每一個工作人員需要同時管理5個籃球場大小的機房!這在當下主流IDC中僅僅依靠人力是不可能實現的,而在AI的幫助下,百度做到了,并且是 24小時不間斷的智能防護。
無限憧憬的未來
實際上,現代數據中心越來越龐大和復雜的信息數量及種類,單憑人力已經不足以應對。
相比人工運維中的不足,AI主導的運維管理不僅可以簡化流程、提高效率以及綜合管理能力,也能大大降低人為產生的故障率。
所以,數據中心采用AI替代人工,降低人在運維管理中重要性的種種舉措,正是未來IDC迎接挑戰,降低安全隱患的發展趨勢。在AI時代下,無人值守的更安全、更高效的數據中心未來可期。