近期在ChinaUnix論壇有一場討論,標題是——云計算時代:運維人員會踩到哪些坑?
整個討論過程非常活躍,大概有50個答復,運維派這就給大家整理了一些討論的優質內容分享給大家。
背景:
在云計算領域,運維人員就是這樣的存在,小到一條短信,大到一次網上交易,只要和IT相關的業務就需要這些運維人員,沒有他們在背后的支持,生活是會出大亂子的。
可是到了云計算時代,不少人說IT人要下崗了,是否真會如此呢?云計算的出現是否會使得整體行業對運維的需求萎縮了呢?
面對傳統的幾十臺服務器時,運維人員還能手動處理一些問題,但是當機器發展到1000臺、甚至是10000多臺時,自動化運維必須得派上用場了。企業根據業務來分配和釋放資源,運維人員不僅需要一個強大的控制系統來控制對網絡流量、CPU利用率、進程、內存等等節點,還需要一個資源管理系統來管理這些資源的生命狀態,還有權限管理,就像AWS的IAM一樣。
話題討論:
1.云計算時代,運維人員是否會面臨著失業的風險?
2.傳統的數據中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
3.對云計算而言,一大堆機器和設備放在一起,安全成為了一大挑戰。有哪些監控工具可以實現對資源的管理,對網絡流量、CPU利用率、進程、內存等狀態監控呢?
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經歷?當時是如何解決的?
5.考慮到安全性問題,大多數企業都會選擇混合云,選擇IBM的云,穩定但貴,您比較看好哪些云服務提供商?為什么?
下面就來看看運維的小伙伴們都是怎么回答的?
網友stukirito的回答:
1.云計算時代,運維人員是否會面臨著失業的風險?
以上說的是整體的國內運維趨勢 如今云計算時代 對運維保障的要求自然更上一個臺階 失業不失業完全取決于自己.
2.傳統的數據中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
既然使用到了虛擬化技術 那這個是具體問題具體分析。
3.對云計算而言,一大堆機器和設備放在一起,安全成為了一大挑戰。有哪些監控工具可以實現對資源的管理,對網絡流量、CPU利用率、進程、內存等狀態監控呢?
可監控的軟件多的去了 不過我相信目前大多數企業開始使用開源軟件的多 譬如 catic、nagios、zabbix等都可以 關鍵在于這些監控軟件如何適應你現有環境 那取決于運維對企業業務的熟悉度 對服務器環境的熟悉度等 才能因地制宜的去部署構建相關的監控環境 并根據相關反饋給的數據進行分析判斷
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經歷?當時是如何解決的?
如果是托管類的直接找云服務商去看 如果是私有云就要慢慢找原因了
5.考慮到安全性問題,大多數企業都會選擇混合云,選擇IBM的云,穩定但貴,您比較看好哪些云服務提供商?為什么?
這個比較難說 目前大多數企業選擇混合云 就是擔心云服務提供商提供的服務會有中斷 所以看企業自身需求做選擇吧
網友stay_sun的回答:
1.云計算時代,運維人員是否會面臨著失業的風險?
在it圈里技術的革新總是很快的,當你跟不上技術的發展的時候。你永遠面臨著淘汰。原來的vb,daifei,等等。傳統的運維注定被淘汰。自動化運維會持續發展
2.傳統的數據中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
新的數據中心雖然池化了,但是他對應的還是物理主機。檢查的難度更大。但是對于單點的故障解決就簡單多了。我覺得,云的運維最有難度的是平臺的故障。很不好解決
3.對云計算而言,一大堆機器和設備放在一起,安全成為了一大挑戰。有哪些監控工具可以實現對資源的管理,對網絡流量、CPU利用率、進程、內存等狀態監控呢?
最好的方法是調用系統的命令來收集你需要的數據。完成相應的問題。達到資源的最大化。
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經歷?當時是如何解決的?
運用這種平臺云服務器,及本可以保證使用。偶爾這種問題,也是沒有辦法的。畢竟他是寄宿在實體機上面,多個主機總會有資源的沖突。找供應商。解決問題吧。沒有辦法的
5.考慮到安全性問題,大多數企業都會選擇混合云,選擇IBM的云,穩定但貴,您比較看好哪些云服務提供商?為什么?
我還是考慮自建云平臺。作為互聯網公司。這個東西使用太貴了
網友pure_lotus的回答:
1.云計算時代,運維人員是否會面臨著失業的風險?
不會,云平臺也需要有人運維,云計算時代產生的云平臺運維新崗位比普遍運維更重要,工資還高了。但對于一般性的非IT企業的某些基礎架構類IT運維人員,是存在失業的風險,需要加緊轉型。
2.傳統的數據中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
資源都虛擬池后后,故障定位和排除明顯是痛點,很容易牽一發而動全身;另外自動化運維管理本身的可靠性要求也更高;還有運維是如何滿足客戶的安全審計要求也是難題。
3.對云計算而言,一大堆機器和設備放在一起,安全成為了一大挑戰。有哪些監控工具可以實現對資源的管理,對網絡流量、CPU利用率、進程、內存等狀態監控呢?
多吧,一般在開源基礎上做訂制開發,而且要分層級,平臺層和應用層要開分開。
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經歷?當時是如何解決的?
原因不明,猜測可能當時云服務廠商由于資源達到臨界點,在調整后臺部署或者做整體性的升級維護,造成臨時性的IO瓶頸。
解決辦法就是打電話或者等,有錢也可以選擇遠程冗員的硬盤空間備份,臨時切換到備份空間來操作。
5.考慮到安全性問題,大多數企業都會選擇混合云,選擇IBM的云,穩定但貴,您比較看好哪些云服務提供商?為什么?
國內嘛,估計以后微軟云和阿里云前景更好一些。主要是平衡成本和服務質量,微軟自有軟硬件產品比較多,使用顧客擁有成本比較低;阿里的中小客戶基數大。
網友xuexiaogang的回答:
1.云計算時代,運維人員是否會面臨著失業的風險?
如果有自動化運維的,那么運維人員的要求更加高,而且壓力也越來越大,技能還要提升。如果沒有自動化運維,那么運維人員不僅不會失業,而且人員還要不斷增加。
2.傳統的數據中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
全面監控難度大,而且問題排查不容易。很多是虛擬化來完成的,內部出現問題不好查也不好定位。
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經歷?當時是如何解決的?
扇區,塊等都會產生碎片或者邏輯故障等。需要的是經常的維護和檢查。空間回收和壞塊的處理尤為重要。
5.考慮到安全性問題,大多數企業都會選擇混合云,選擇IBM的云,穩定但貴,您比較看好哪些云服務提供商?為什么?
百度云、360云、新浪云還有七牛等都是不錯的云存儲供應商。在很多技術交流上都和他們接觸過并且使用過。感覺還可以。
網友“淡定與灑脫”的回答:
1.云計算時代,運維人員是否會面臨著失業的風險?
還奉行老思路吃老本的大齡運維,其實已經相當危險了,存在感將不斷下降,手工作坊式的低技術含量運維將越來越out。建議年輕入行的運維,一定要多學點開發技術,光會用幾個開源工具,養不起老婆孩子的。
2.傳統的數據中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
如果是公有云,那完全沒脾氣,只有選一個服務好的廠家了。如果是私有云,自己可以把原理性的東西研究清楚,提高troubleshooting能力。
3.對云計算而言,一大堆機器和設備放在一起,安全成為了一大挑戰。有哪些監控工具可以實現對資源的管理,對網絡流量、CPU利用率、進程、內存等狀態監控呢?
saltStack、puppet、nagios、cacti、zabbix。。。現在有一堆開源監控和配置管理工具了,但問題是,如果只是會用這些工具,運維的價值何在?作為一個有理想的運維,應該搞點自己的小工具,成為這些工具的補充。
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經歷?當時是如何解決的?
有冗余,不用怕,往往重啟后就恢復了。具體原因,還得問廠家。
5.考慮到安全性問題,大多數企業都會選擇混合云,選擇IBM的云,穩定但貴,您比較看好哪些云服務提供商?為什么?
看企業老板是什么思路,有的不差錢,有的很差錢。貴的一般都好一些。
網友forgaoqiang的回答:
1.云計算時代,運維人員是否會面臨著失業的風險?
這個是肯定滴,現在的趨勢就和農民種地類似,整體的崗位數量在下降,每個人管理的“田地”(服務器等IT資源)在增加。小型企業的運維人員需求(哪怕是兼職的網管)也在減少,小公司會把大部分的IT運維遷移到一些公有云上,管理簡單,成本也可以接受。中型企業可能也會用公有云和部分自己的服務器,至于大型公司,基本上都在維護自己的私有云,幾乎不會使用其它公司的服務。
所以整體來說,工作崗位數量在下降,但是對于運維人員的技能要求卻在上漲,運維開始成為高大上的職業,只有真正具有高技能的運維人員不會面臨失業,而是面臨漲工資。
2.傳統的數據中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
個人感覺云時代的時候更像是一個統計學的結論,只要集群整體運行正常就算是正常了,對于“池”中的某條“魚”(硬件設備)死了,可以短暫的不用去理會,定期替換維修即可。云時代下大家都是看著各種“儀表盤”來進行管理,很少關心底層的硬件,經過層層抽象導致的結果就是排查難度上升,需要一層一層的去檢查,最終故障很有可能發生在最下一層的物理層次上。
3.對云計算而言,一大堆機器和設備放在一起,安全成為了一大挑戰。有哪些監控工具可以實現對資源的管理,對網絡流量、CPU利用率、進程、內存等狀態監控呢?
工具非常多,很多商業化的工具、開源的管理工具等等,比較經典的仍然是 Zabix、Cacti 等開源監控程序,同事Puppet等管理工具也具有監控功能,這些工具都是開源的,能夠根據自己的需要進行定制,很多支持插件模式,可以使用很多其它人已經開發好的插件完成一些個性化的需求,完整整個運維的監控工作。
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經歷?當時是如何解決的?
是的,這個情況的確有遇到,很多時候是因為自己的業務系統出問題了,整體來說感覺阿里云還是比較穩定和公正的,磁盤和CPU資源限制的比較準確,作為 IaaS的基礎設施,它們除了對硬件性能進行限制之外,剩下的都是客戶的OS操作系統在處理自己的業務。對于I/O變慢的情況,好多都是自己的程序過度使用磁盤I/O造成的。
5.考慮到安全性問題,大多數企業都會選擇混合云,選擇IBM的云,穩定但貴,您比較看好哪些云服務提供商?為什么?
現在國內有多種云服務提供商,有些針對性的提供對 消息語音隊列,有些是針對存儲,有些則能夠提供 平臺托管,有些就是提供IaaS級別的,目前公司主要采用的服務是阿里云的,也考慮過騰訊云,看上去目前阿里是技術上做的最好的,SAE、BAE等平臺不太適合我們的業務。對于消息隊列還是比較看好 語音云 這家提供商。至于基礎設施類的,個人感覺還是vmware或者xenserver的比較靠譜,但是費用高昂,中小型公司不會采用。
對于中大型企業應該會采用商用的私有云服務,但是對于阿里、騰訊、百度,它們應該是完全自主的云管理系統。