Web智能提供商ComScore對其“大數據”分析系統做了一次巨大的改變。
位于美國弗吉尼亞州的ComScore公司將“大數據”環境從Cloudera Apache Hadoop轉到了MapR公司提供的平臺上。ComScore自稱有超過1000臺服務器并繼續將Cloudera用作培訓目的,更換的決策大部分是基于成本的考慮,另外還有MapR支持NFS協議。
ComScore的CTO Mike Brown說:“我們要投資購買的MapR,每年還按節點支付一定百分比的維護費用。NFS可以讓我們的企業系統很容易訪問集群中的數據。”
日益增長的數據存儲促使ComScore采取行動
ComScore監控并度量在線購買者的行為。公司跟蹤了超過200萬消費者,這些消費者允許ComScore監控和分析他們在網上的購買和點擊行為。通過分析消費者的行為,ComScore能用有價值的智能方式為廣告商提供關于如何確定目標市場的方案,并按他們的要求做出統計。
“大部分網絡廣告都是通過我們的工具來做規劃,購買和銷售,”Brown說:“我們為廣告商建議最適合投放廣告的站點。
跟蹤200萬消費者,分析他們的行為,意味著ComScore每天必須要處理巨大的數據量。據Brown說,公司當前管理了超過PB級別的數據。
由于數據持續大量地增長,公司于2009年開始使用Hadoop,并于去年七月實現了從Cloudera到MapR的切換。
隨著全球經濟出現滑坡,許多IT專家說為 數據管理項目采購、審批、申請資金都比較困難。據公司的核心業務的副總裁Will Duckworth說,如果實施MapR這就不成問題了。
Duckworth說,ComScore在經過相對輕松的實施過程后,于去年七月正式上線MapR。當時,公司有還運行著Cloudera產品,要求不停機或少停機完成到MapR的遷移。ComScore的IT團隊通過拷貝Cloudera數據再將數據重新加載進MapR就很容易地實現了這一目標。
“如果要再做一遍,我們可能就不會重新裝載數據了,因為數據量現在更大了,”Duchworth說:“我們可能會采用滾動的方式,先處理25%的機器,先將他們轉為MapR,然后拷貝數據,然后再做另外25% 的機器,就這樣完成所有的。”
Duckworth和Brown特別喜歡MapR的直接訪問NFS功能,它將Hadoop分布式文件系統數據顯示為NFS文件,可以很容易地匯總,修改或覆蓋。
“HDFS是內部的,但為了從Hadoop存取數據,你必須要做一些類似HDFS導出的操作,”Brown 說:“使用MapR,可以先將HDFS裝載為NFS,然后再使用本地的工具,無論是Windows還是Linux,UNIX都行。”
排序軟件增加數據準備的速度
MapR Hadoop分布式計算極大地加快ComScore大數據管理操作,但這不是公司所采取的唯一的高性能計算解決方案。
ComScore 也使用了業務應用巨頭SAP的高速分析數據庫Sybase IQ來增強其客戶知識平臺(CKP),這是給用戶提供用戶網上行為分析的數據倉庫。
據ComScore透露,CKP服務監視了100萬客戶的行為,SybaseIQ數據倉庫目前存有40T的壓縮信息。
此外,ComScore正在運行Syncsort的數據集成和排序軟件以加速Hadoop處理。公司于2009年上線了Syncsort, 最近已升級到Syncsort DMExpress 6.5,軟件的最新版本新增了對Hadoop的支持。
在將數據裝載進MapR做進一步處理和分析之前,DMExpress聚集重復的字符串,幫助ComScore壓縮進來的數據流。他們將ComScore直接嵌入到Syncsort的25~30個業務應用中以增加數據準備過程的效率。
Brown說:“我們購買了Syncsort來幫助解決排序的問題,因為數據量增長得很快, Syncsort的壓縮算法通過尋找重復字符串并排序數據,把這些重復數據放在一起,從而增加了壓縮比。”
大數據分析最佳實踐
Brown說,正在考慮大數據分析可行性的組織應該記住,要規劃潛在的數據增長——因為大數據爆炸沒有跡象會減慢下來。
對數據排序軟件感興趣的公司應該尋找易于實施并完全能與現有的硬件兼容的產品。
“這種技術可以讓很多系跑得更快,”Brown解釋說:“但是有個問題沒有考慮:是否能很容易地將這個軟件與現有的應用集成。”
責任編輯:軟件頻道 聯系郵箱:[email protected]
新浪微博 騰訊微博 搜狐微博 網易微博 開心網 人人網 | 更多分享到: