實時數據分析就是技術界傳說中的大王烏賊:確實有公司在做實時數據分析,卻難覓其蹤跡。
Mixcloud,這一流媒體音頻內容的在線平臺就是這種神秘生物的一員。這家總部位于倫敦被稱作“音頻YouTube”的創業公司,不僅使用實時分析以做出快速的業務決策并創造更好的產品,而且在致力于構建一個面向客戶的實時數據分析門戶網站。Mixcloud首席技術官,也是四個創始人之一的Mat Clayton說,當這個門戶網站完成以后, Mixcloud的客戶將能夠看到是誰在何時收聽他們音樂目錄。
2008年推出的Mixcloud,為用戶提供了一個創建“cloudcasts”的地方,DJ混音,播客,電臺節目,甚至原創內容都可上傳至該平臺上用作在線流媒體和一般消費。(該產品還配備移動應用程序版本和可嵌入其他網站的播放器插件。)正如作家可以通過互聯網自行出版他們的作以饗讀者, cloudcast控們現在也可以在云平臺上播出他們創作的音頻。
分析調整
Mixcloud作為一個純互聯網公司,收集了絕對訪問用戶的相關數據。最初,該公司使用Google Analytics的免費工具來測量基準指標,但是當Clayton和他的團隊希望在更細化的級別上分析數據時,卻遇到了困難。Google Analytics在深入或分割大量的流量數據時使用了很多估計值。但是他們卻不提供那些估計值的區間,Clayton在最近的一次網絡研討會上說到,該區間就是所謂的置信區間,它能夠給出估計值的可信程度。這意味著,當Clayton和他的團隊加入多個估計值的情況下,總誤差可能超過100%。
“就算退一步說,方差也極大。”Clayton說,公司對在這樣的信息基礎上作出產品決策感到很不安。付費版本的Google Analytics解決了這個問題,他說,但“這明顯更加昂貴,我想上一次我看到該費用的時候是六位數字。” 現在Google Analytics仍被用來測量基準指標,但Clayton和他的團隊也意識到,隨著Mixcloud的擴大(網站現在有超過3萬月活躍聽眾,且可以觀測到平均每分鐘有三個小時的目錄內容被上傳),他們需要一個更復雜的分析工具。
“我們決定,我們需要一套系統,更準確,而且能夠與我們不斷擴大的平臺相適應, ”他說。
先進的軟件
雖然我們的小高科技團隊里有不少工程師,但核心競爭力卻不是創建分析平臺,Clayton說,所以他開始尋找和引入外部平臺。最終他選定了一個相當新鮮面孔的供應商,成立于2009年,據網站稱獲得幾家歐洲頂級風投公司資金注入的Acunu Analytics。 Acunu Analytics依賴與一個開源的NoSQL數據庫Apache Cassandra – 該數據庫最初由Facebook開發 -目的是要迅速的處理大量數據。
“Cassandra擁有可支持大規模互動Web應用程序的傳輸實時性能,波士頓Wikibon項目研究員Jeff Kelly,在去年的Cassandra峰會后寫道。 “它集合了其存儲和訪問數據列和超快速嵌入的能力,以及分布式計數器的使用和對固態硬盤的充分利用。”
在前端,Acunu Analytics為用戶提供實時的儀表板和即時查詢功能。這些儀表板使Clayton和他的團隊得以實時了解服務器狀態,以及如“跟進”或“播放”等按鈕的網站模塊運行情況。“如果用戶不能點擊'播放' - 這確實發生過...... [儀表板] 能夠讓我們發覺相關指標的飛速下降,從而提醒我們發現問題,”他說。 “然后,我們就可以去調試和修復它了。 ”
實時監控不僅確保了高品質標準在彈指一揮間得以維持,而且它也使Clayton的團隊能夠測試出各個模塊如推薦框,在頁面的什么位置最受歡迎。通過移動頁面上的這些模塊以測試到底是什么觸發最大量點擊參與,Clayton和他的團隊可以梳理出用戶友好模塊和“最有效點”的位置,然后努力在那些上面“加倍下注”。
“我們處理每天增長200%的點擊“關注”的有效用戶量,而點擊了“關注”的用戶又關注了200%的更多其他用戶。在網絡研討會上克萊頓說,“這還僅僅是分析應該把每一個按鈕精確的放置位置 –放在哪里有用,放在哪里不好用。 ”
Mixcloud也通過使用實時Acunu Analytics技術,在不需要網站離線的情況下推出新產品或網站功能。在 “飛行模式”下進行升級,根據不同的風險級別,向部分用戶或全部用戶推出新的產品,他說。
關鍵門戶
Mixcloud通過使用數據改進整個產品是整個故事里很重要的一段 – 而公司對分析的應用正書寫著更多新的篇章。這其中包括實時分析門戶網站,一個讓用戶可以了解跟蹤自己的內容如何在網絡上運行的前瞻性個性化產品,據Clayton描述。
“用戶上傳內容以后,”他說,“實際上在短短幾個小時內,該內容就被病毒化傳播,或者得到極大的關注,而能夠提供給這些用戶關于真實情況的清晰數據將會是一件好事,這樣用戶就可以解決任何出現的問題,把內容推送到正確的網絡位置,將注意力集中在正確的地方。
數據爆炸性膨脹是一個困難的問題,他說,“我們如何搞定,是下一個挑戰。”