緊張精彩的2015年已經結束了,現在是時候回過頭來看一看數據分析軟件市場的潮流。 已經有幾個趨勢繼續變得壯大(比如開源,云托管,基于Hadoop的SQL解決方案),同時AWS上的Redshift開始成為數據倉庫中的一支重要力量。
SQL解決方案繼續在Hadoop的生態系統里大行其道
除了Spark,大部分Hadoop的生態系統里的新聞都來自Presto, Impala and Drill。 關于MapReduce繼任者的斗爭還在持續,而在列表中的所有候選者的一個主要的共同點就是他們都提供SQL界面。這個趨勢從2010年Hive開始逐漸取代Pig就一直如此。
因為太多的Hadoop生態系統提供的價值圍繞在分析和商業智能上,而過去數十年整個分析世界已經運行在SQL的基礎之上,并且圍繞它建立了很多無法替代的公司競爭力,所以在經過了很多關于NoSQL和Hadoop的憧憬以后,大家發現還是要回過頭來面對這個事實。
Druid看起來要火
在主流的大規模基于內存的OLAP數據庫中,LinkedIn的Pinot和Metamarkets的Druid是兩個主流選擇。 Druid似乎從Yahoo得到了不少關注,而且不少最前沿的高科技公司也開始越來越多地使用它來驅動實時商業智能(BI)。
十月份,Druid一些主要貢獻者宣布了Imply.io,一家為Druid提供商業支持及打造出圍繞Druid的生態系統的公司。總體而言,很多聰明人開始用Druid來做內存數據庫,以便對海量數據集進行交互式分析。
開源機器學習庫Galore
十一月, 谷歌開源Tensor Flow ,一個利用數據流圖譜進行計算的廣義庫。 它被大量用于機器學習,特別是深度神經網絡。 它還在加盟了十一月微軟發布的Theano,Torch,DMLT。
雖然上面提到的這些庫不是可以把人工智能添加到任何產品的簡單插件,但是以他們為基石任何有足夠多的數據的人都可以來訓練他們的系統來制造最先進的算法。 當大家都開始在基石上建造,產品的整體復雜性,無論是分析相關還是其他方面,都會不斷提高。
IBM在Spark上發力
6月,IBM 宣布把3500研發人員放在Spark相關項目上。 Spark是在許多方面是Hadoop的生態系統里的MapReduce的繼承人。 它為開發人員提供了四大法寶(低級別數據處理語言,機器學習庫,圖形算法和SQL-on-Hadoop數據庫)來進行數據的混合及匹配。
雖然仍然在用戶實踐的最初階段,Spark已經得到了背后龐大的開發者的支持。十月份,IBM宣布了基于Bluemix的Spark-as-a-service ,并且把其數據工程產品移植到Spark上。這件事情對以開發Apache Spark為主業的Databricks 公司的影響十分值得關注。
商業智能開源軟件開始興起的一年
從歷史上看,開源軟件的創新基本上在軟件堆棧的較底層。 隨著時間的推移,以及對開源軟件企業可行的商業模式的的發展,越來越多的面向最終用戶的軟件正在以開源的方式進行開放。
去年,兩個古董的開源BI公司之一的JasperSoft被Tibco以$ 1.85億美元收購。另一個公司,Pentaho,則在前年2月就被日立數據系統公司以超過$ 5億美元收購。
同時,在2015年還涌現出了多家輕量級的開源項目。AirPal和Re:Dash把重點放在使用戶能夠快速,輕松地在Redshift上進行SQL查詢(詳見下文),而Metabase還提供了一個非常易于安裝的工具,允許非技術用戶對多種數據庫進行數據查詢和分享數據報表。
專有事件分析公司繼續涌現
雖然Google Analytics仍然是大家默認的首選,仍然有很多人致力于開發以收集并分析在網站和移動應用上的用戶行為為中心的,集所有功能于一身的分析系統。
與此同時,作為Google Analytics的主要競爭對手,Mixpanel(截止去年已募集$ 6.5億美金),于去年7月跟隨Heap公司的腳步,發布了Codeless Analytics。它主要是通過添加SDK到您的移動應用里,自動對移動應用進行數據埋點,并同時獲得對用戶行為事件的分析,而無需手動對特定事件進行埋點。 十一月,該公司發布了Predict,它可以讓你使用輕量級的機器學習來預測用戶是否會執行一個動作(如轉換付費)。
與此同時 - Heap已經因為它在移動和網絡事件的數據分析上的簡單易用性而獲得了一定的知名度; Amplitude在八月融資$ 9百萬美元;而以增快數據分析速度為核心業務的Interana也在一月份A系列融資$ 2000萬美元。
同時,廉價和簡單地運行一個數據倉庫的方案的出現(如AWS的Redshift)也對傳統的使用專有事件分析軟件的理念帶來了沖擊。
正在興起的建立于云端的分析架構
在2015年,一個用于處理商業智能的新的標準正在越來越多的創業公司(以及愿意保持創業心態的中型公司)中形成: 上世紀90年代的統一數據倉庫的概念正在回歸。允許這樣做的關鍵因素是AWS Redshit作為分析數據倉庫的廣泛采用。
因為Redshitshift相對于老一輩的數據庫(如Aster,Vertica, Teradata等)比較容易維護,它很快成為科技創業公司里數據倉庫的首選。
有兩組初創企業乘著這股浪潮:那些幫助把你的數據轉移到Redshift上的和那些讓你對在Redshift上的數據進行分析的。
第一組包括一些公司講業務完全圍繞在將數據加載到Redshift(如Alooma,Etleap,Textur)。此外, Segment去年正式宣布了將數據送到Redshift上的能力。 同時,RJMetrics,一個電子商務分析的供應商,推出了他們的系統里關于數據攝取的部分幫助您將數據送到Redshift。
總而言之,許多公司都把自己的賭注押在AWS上,絕大部分在去年秋天QuickSight發布前。隨著AWS的數據管道等攝入服務不斷完善,他們的業務模式是否仍然存在還有待觀察。鑒于AWS的移動分析SDK和數據攝入管道的存在,可能留給這些公司的生存空間會逐漸消失。
鑒于QuickSight的預覽版目前只能提供很基本的功能,一些BI軟件供應商在2015年從在Redshift上投入巨資的客戶上獲得了很多業務。 Looker, Mode Analytics, Periscope and Metabase是在Redshift被用來做分析數據的產品里比較突出的。 然而,這個領域會怎樣發展很大程度上要看AWS來年會帶來怎樣的新產品。
總而言之,2016年正在成為一個非常值得紀念的一年,尤其在融資放緩的影響更加明顯的情況下。
偉大的回火(公司估值壓縮)
雖然在事件形成的過程中很難感覺到,但回過頭來看,股票市場里股價對營收比的壓縮對私募市場的影響很明顯,特別是當Fidelity公開將它手中一大批其后期投資降低估值的時候。
在做分析軟件的公司中,Cloudera的估值變化不大,而Dataminr的估值下降了35%。 在一般情況下,分析創業公司的獲取資本的成本,無論是早期或晚期,都變高了很多。雖然大量的風投公司扔在獲得新的資金,并有足夠的錢去投資,總的感覺是,對初創企業的估值已經緩慢開始下調。
今年會有一些動蕩,無論是在募資上,還有更重要的是,在很多分析公司的客戶群的相關預算上。由于大多數公司的客戶終身價值對客戶流失的敏感度,2016年看起來會是一個需要系好安全帶準備迎接大風浪的時間。