Monitoring這個市場有多大?相信很多人都沒有概念。國際權威調研機構Gartner在前不久的一篇報告中預測:“As a group, the monitoring market is expected to reach 11.6 billion (constant currency) by 2020. ”88億美元和116億美元,這兩個數字的巨大,恐怕出乎了很多人的意料。
在美國,VC和PE紛紛對Monitoring這個領域投入巨資,貝恩資本和金門資本攜手以67億美元進行了BMC的私有化,Thoma Bravo斥巨資對包括Compuware和Riverbed在內的六家Monitoring公司進行了私有化,總金額超過百億美元。在VC領域,且不說New Relic在IPO之前的4億美元融資和AppDynamics的3億美元融資。就在前不久IconIq對Datadog這家成立不足四年的公司完成了9600萬美元D輪投資,再次刷新了Monitoring領域的融資記錄,也讓監控市場再次成為SaaS領域最受矚目的一個賽道。
2016年,是大規模監控之年!大規模監控在國外稱為Web Scale Operation,在美國,這個領域已經無聲無息然而卻無比迅速地成為DevOps環節最核心的一環,很多初創公司成為這個領域最受矚目的明星。DataDog、SIgnalFX、Sysdig、opsclarity、instana、bigpanda等等,不斷攀升的知名度和融資額,一次又一次,一輪又一輪,讓很多創業和投資界的人士發出感嘆。Web Scale Operation就是下一個APM市場。這個領域,一定會誕生一家甚至多家獨角獸,而像Sequoia Capital、BenchMark Capital、Greylock Capital這些知名VC早已布局其中。就在今天,Moogsoft 這家2011年成立的公司,完成了3100萬美元的C輪融資,領投方是Northgate Capital。
我們OneAPM自己,也有Web Scale Operation的產品,叫做Cloud Insight ,我是從 2015 年下半年開始籌備 Cloud Insight 的,期間經歷多次波折,但最終做出來了一個自己最喜歡的產品。在這里,我想談一談自己的心路歷程。
近幾年,國內的很多技術發展趨勢總是跟著國外的步伐。從某種意義上來說,國外公司的一些發展歷程可以作為國內企業戰略的參考。作為擁有多年技術經驗的工程師,我們曾將開發流程轉變為敏捷開發,也曾感受到云基礎架構的顛覆力量。從開始著手做這個產品時,整個技術團隊看得很清楚,十年后的 IT 基礎架構必然會發生翻天覆地的變化。因此,我們完全相信,未來云計算市場必然需要一種新的數據監控和管理平臺。
那么,這個數據平臺要解決什么問題呢?主要是解決數量級的問題。原來的監控通常只面對幾十臺物理機和一些相關的數據庫中間件的服務,而今天的監控可能要面對幾千臺的云主機和幾萬個Docker實例。今天的應用、服務、容器、主機之間的關系變得復雜和多變,更需要一種更加動態和彈性的可視化方式。因此,我們創造了Cloud Insight這款次時代的產品,而整個團隊的賭注就是:敏捷開發和新一代云平臺的結合將徹底改變相應的監控管理問題的量級,并迫使整個堆棧和新型監控與分析工具(特別是這一點)實現重組。
其實,在國外有一款很棒的基礎組件監控產品——Datadog,他們從 2010 年底開始籌備這個產品,而且取得了不少成果,更是拿下了 Facebook、Airbnb 這樣的重量級客戶。五年的時間轉瞬即逝,Datadog自成立以來發現的理論得到了大規模的證實,而且比預期的規模更加廣闊。因為在過去的幾年中,云用戶群體出現爆發式的增長。在國外,無論是微型科技創業公司還是大銀行,各種規模的企業都開始使用公有云或私有云服務。
而國內也一樣經歷了 Docker 的爆發式增長,云平臺也被愈加廣泛的使用到各個行業,同時,DevOps 理念也在層層滲入。尤其是在云平臺的使用方面,不少企業架構于混合云環境,甚至使用多種云廠商產品,這些都是很好理解的事情,也是兩種狀態(從沒有云到普及云)之間很正常的過渡。
那么,我們所說的監控“規模”究竟指的是什么呢? 就像 Datadog 所認為的那樣,它是四個維度的產物:
1,基礎設施單元的數量提到規模,大多數人立即想到的就是這一點。從過去的幾年中,任何生產環境所包含的“基礎設施單元”數量都呈現出指數級增加。曾經,這些基礎設施單元都是實體服務器或相當經久耐用的虛擬機,而現在,基礎設施單元越來越多地由短暫的云實例、容器和微服務構成。那些在 2010 年運營著數百臺服務器的企業,現在都輕松管理著數千甚至數萬個基礎設施單元。換句話說,企業正在用“海量”可移動的組件取代了那些相對靜止的機器。
2,代碼和配置的修改頻率幾年前,一個很大型的軟件團隊一年可能只發布一次或幾次產品。而現在,很多企業一天就發布好幾次代碼更新,這是因為大小企業都已經從瀑布開發流程切換到了敏捷開發流程。如果用這一頻率乘以企業擁有的大規模團隊數量,就能得到隨時變化的生產環境數量了。
3,與基礎設施互動的技術人員數量這可能是技術人員近年來感受到的最大的“文化轉變”了。在過去,基礎設施僅由運維團隊(或大型企業中的“共享服務”小組)進行管理,而現在,包括運維團隊和開發團隊在內的多個團隊都可以接觸到基礎設施。帶來最直接結果就是:與基礎設施互動的技術人員數量激增。
4,棧區涉及的平臺、工具或服務數量從瀑布開發過渡到敏捷開發的另一個結果是:企業從只有一個中央企業架構小組負責事先制定所有基礎設施決策,轉變為授權各個團隊自行決策——這樣的話,各個團隊就可以每周或每月推出新的產品,而無需受制于集中式決策。不同的團隊會選用不同的平臺和工具,最終形成了一個更加多元化的生態系統。這一趨勢,連同開源和 SaaS 服務的崛起,大大增加了可選組件的數量。簡而言之,與數年前相比,企業現在用來構建并運行應用程序的技術選擇性已經大為增加了。
2016,我們想做點“大”規模監控的“事”由于以上各個維度的迅速變化,監控問題的量級也發生了巨變。而借助 Cloud Insight,可以幫助企業在這些維度之間來去自如。所有跡象都表明,2016 年不僅會是公有云和私有云的豐收年,還將開創大規模監控的紀元。稍過時日,大家或許會發現,用 Cloud Insight 輕松管理復雜環境下的千百臺主機,運維與開發實時協作,多種數據一體化展現是多么有趣的事。