在一些大范圍擴展的環境中,云監控和云自動化已經成為關鍵所在,但是并不是每一個人都會向亞馬遜求助。
本周偶遇的亞馬遜Web服務(AWS)五個專題小組中的三個表示他們正在構建自己的云監控工具,其余的則使用類似Sensu這樣的開源工具。
“自建的工具沒有的話就無法開展工作,”Craig Tracey說道,他是市場軟件初創公司HubSpot的DevOps領導。HubSpot只是那些想要監控一切的IT部門之一,Tracey說道。現在運行著1400個AWS實例,同時在Rackspace也進行部署用來執行大數據分析,并且托管二十多個應用。
“我們監控了很多別人忽略的東西,比如,如果有人啟動一個沒有跨有效區域的實例,我就會得到報警,”Tracey解釋道。
于此同時,那些依賴亞馬遜CloudWatch的IT專家則抱怨其怪異的模式。
Brian Tarbox是金融數據分析公司Cabot Research的軟件工程師,該公司有1000個實例在AWS上運行,他說他們嘗試在CloudWatch中創建一種度量的機制,從而檢測自己環境中的工作隊列的規模,但是CloudWatch返回一條消息說已經有過多的度量機制在使用中。
“隨后會返回說我已經擁有這些基礎的度量機制,我不用關心1000個實例中的每一個,但是我沒法找到我的度量結果,”Tarbox說道,“我會得到一份錯誤報告,我將這份報告發送給他們,會直接回復一個連接,在同一個窗口中顯示我的度量圖表,但是我的度量內容并不存在。”
其他人對此也表示贊同。
“CloudWatch非常表面化,而且工作使用起來有很多困難,”Joey Imbasciano說道,他是Stackdriver的云平臺工程師,“你要么忍受,要么就試著構建自己的內部度量,可能圍繞一些開源工具,比如Graphite、StatsD或者其他的托管服務。”
Chef、Puppet和云自動化監控
關于云自動化,是上面的企業的架構的關鍵特性,配置自動化工具,比如Chef和Puppet都得到了很好的贊譽,但是使用者也知道這些工具目前為止只能快速在AWS上提供。
每個月HubSpot都會增加或者減少200-300個實例,使用一個操作系統的圖標實現。使用Puppet可以用十分鐘到十五分鐘在其環境中增加或者減少實例,Tracey說道。
然而,這些專題小組表示也有方法可以加速云自動化。
用Puppet花費20到25分鐘就可螺旋增加或者減少實例,Acquia高級架構師Barry Jaspan說道,這是一家開源軟件公司,該公司可能每天都要增加或者減少100多個實例。
為了降低每個實例的分配時間,Acquia每天為一個基礎的操作系統鏡像拍快照,綁定各種實用程序,隨后使用這些綁定作為次日發布實例的基礎。
Jaspan強調并不是為不同的配置創建各種綁定,因為“你絕對不可能記得你所做的一切。”
Opscode是Chef的制作者,他說如果有大量的軟件要安裝,任何工具都要花費很長時間進行配置。
Puppet Labs對此拒絕發表評論,亞馬遜也沒有回應。