在第六屆中國云計算大會云計算數據中心與運維論壇上,百度運維部總監劉超向與會者介紹了百度云計算和大數據迅猛發展的態勢,重點分享了百度利用大數據推進云計算運維向智能化演進的創新思路和實踐案例。
據劉超介紹,近年來百度在服務器規模、數據規模、單集群規模等方面出現爆發式增長。百度服務器的規模近5年來增長了15倍以上,達到數十萬臺;數據規模在過去兩年已達到EB級別,數據總量接近兩個EB,日志更新量每天超過1PB;最大單集群離線計算規模超萬臺,達到10萬核的計算能力。互聯網的特征之一就是『快』,快速迭代是常態。百度每天有400多個上線,比5年前增長4倍。而與此同時,云計算平臺出現的各類故障和異常與一年前相比增長了200%,給運維帶來巨大的挑戰。
在云計算和大數據時代,集群規模和數據量爆發式增長,如何管理好云計算平臺、如何提供高質量的服務,是云計算的核心問題之一。百度運維為迎接云計算和大數據應用帶來的需求和挑戰,正在從以解決運維復雜度為目標的自動化向以預測和自動決策為目標的智能化轉變。百度已經建立起了六大數據倉庫之一的運維數據倉庫,囊括了服務器、網絡、系統、程序、變更等各個方面的實時及歷史狀態數據,每天更新數據量接近100TB,基于對這些數據的分析和挖掘,百度開展了多個項目和應用,包括智能流量調度決策、流量分析與趨勢預測、故障根源定位系統等,在智能運維方面做了有益探索,取得了良好進展。
劉超指出云計算運維的目標就是用盡可能低的成本、提供足夠好的服務質量和用戶體驗。網絡帶寬、服務器、維護人力等是云計算平臺的主要成本來源,百度通過對運維大數據分析,實現對硬件故障的預測和自動化管理,對機器的管理實現了零投入;通過智能混部技術,動態感知、實時分析、全局調度,合理分配計算、存儲、內存等不同類型的任務,精細化分析、“消峰填谷”的方式來最大化地利用資源,減低預算開銷。據劉超介紹,業界大部分公司的服務器在流量高峰時段的CPU利用率使用較好,但全天平均下來日均利用率大約在5%-10%的水平,做到20%-30%已經很少了。而百度大規模集群的CPU日均利用率已經達到50%以上,離線集群的利用率甚至達到了90%以上。僅僅在過去2013年,為公司節省了24萬核的計算資源,折合節省數億元的成本。
在提供高質量的搜索服務方面,百度同樣利用大數據技術,把在線服務運維轉向智能化管理模式,并走在了行業的前列。基于對運維大數據的挖掘、對歷史數據的學習和異常模式識別來實現對流量數據的預測;通過對包括訪問速度、系統容量、帶寬、成本等在內的10多個因子的實時自動分析,實現了在眾多數據中心間的流量自動調度,決策時間由人工判斷的10幾分鐘也大幅縮短到1分鐘。這個系統的實際效果在最近的一次故障中得到很好的檢驗,系統在沒有人工介入的情況下智能地把流量調度到另外的數據中心,拒絕流量僅有幾千個,而幾年前發生的類似故障卻造成了數千萬的流量損失。
劉超介紹百度運維團隊是一個研發型的團隊,40%以上的工程師從事自動化平臺和基礎組件的研發工作,他們的一個理念是“進攻是最好的防守”,積極思考、主動出擊,率先利用大數據分析的方法來提升預測、發現和自動決策的能力,積極推動云計算運維向智能化演進。