国产在线视频二区,日本不卡免费高清一级视频,国产微拍精品一区

大數據分析案例：從Cloudera轉到MapR

責任編輯：hli

作者：Mark Brunelli

2012-03-07 11:57:35

摘自：TechTarget中國

在將數據裝載進MapR做進一步處理和分析之前，DMExpress聚集重復的字符串，幫助ComScore壓縮進來的數據流。對

Web智能提供商ComScore對其“大數據”分析系統做了一次巨大的改變。

位于美國弗吉尼亞州的ComScore公司將“大數據”環境從Cloudera Apache Hadoop轉到了MapR公司提供的平臺上。ComScore自稱有超過1000臺服務器并繼續將Cloudera用作培訓目的，更換的決策大部分是基于成本的考慮，另外還有MapR支持NFS協議。

ComScore的CTO Mike Brown說：“我們要投資購買的MapR，每年還按節點支付一定百分比的維護費用。NFS可以讓我們的企業系統很容易訪問集群中的數據。”

日益增長的數據存儲促使ComScore采取行動

ComScore監控并度量在線購買者的行為。公司跟蹤了超過200萬消費者，這些消費者允許ComScore監控和分析他們在網上的購買和點擊行為。通過分析消費者的行為，ComScore能用有價值的智能方式為廣告商提供關于如何確定目標市場的方案，并按他們的要求做出統計。

“大部分網絡廣告都是通過我們的工具來做規劃，購買和銷售，”Brown說：“我們為廣告商建議最適合投放廣告的站點。

跟蹤200萬消費者，分析他們的行為，意味著ComScore每天必須要處理巨大的數據量。據Brown說，公司當前管理了超過PB級別的數據。

由于數據持續大量地增長，公司于2009年開始使用Hadoop，并于去年七月實現了從Cloudera到MapR的切換。

隨著全球經濟出現滑坡，許多IT專家說為數據管理項目采購、審批、申請資金都比較困難。據公司的核心業務的副總裁Will Duckworth說，如果實施MapR這就不成問題了。

Duckworth說，ComScore在經過相對輕松的實施過程后，于去年七月正式上線MapR。當時，公司有還運行著Cloudera產品，要求不停機或少停機完成到MapR的遷移。ComScore的IT團隊通過拷貝Cloudera數據再將數據重新加載進MapR就很容易地實現了這一目標。

“如果要再做一遍，我們可能就不會重新裝載數據了，因為數據量現在更大了，”Duchworth說：“我們可能會采用滾動的方式，先處理25%的機器，先將他們轉為MapR，然后拷貝數據，然后再做另外25% 的機器，就這樣完成所有的。”

Duckworth和Brown特別喜歡MapR的直接訪問NFS功能，它將Hadoop分布式文件系統數據顯示為NFS文件，可以很容易地匯總，修改或覆蓋。

“HDFS是內部的，但為了從Hadoop存取數據，你必須要做一些類似HDFS導出的操作，”Brown 說：“使用MapR，可以先將HDFS裝載為NFS，然后再使用本地的工具，無論是Windows還是Linux，UNIX都行。”

排序軟件增加數據準備的速度

MapR Hadoop分布式計算極大地加快ComScore大數據管理操作，但這不是公司所采取的唯一的高性能計算解決方案。

ComScore 也使用了業務應用巨頭SAP的高速分析數據庫Sybase IQ來增強其客戶知識平臺(CKP)，這是給用戶提供用戶網上行為分析的數據倉庫。

據ComScore透露，CKP服務監視了100萬客戶的行為，SybaseIQ數據倉庫目前存有40T的壓縮信息。

此外，ComScore正在運行Syncsort的數據集成和排序軟件以加速Hadoop處理。公司于2009年上線了Syncsort，最近已升級到Syncsort DMExpress 6.5，軟件的最新版本新增了對Hadoop的支持。

在將數據裝載進MapR做進一步處理和分析之前，DMExpress聚集重復的字符串，幫助ComScore壓縮進來的數據流。他們將ComScore直接嵌入到Syncsort的25~30個業務應用中以增加數據準備過程的效率。

Brown說：“我們購買了Syncsort來幫助解決排序的問題，因為數據量增長得很快， Syncsort的壓縮算法通過尋找重復字符串并排序數據，把這些重復數據放在一起，從而增加了壓縮比。”

大數據分析最佳實踐

Brown說，正在考慮大數據分析可行性的組織應該記住，要規劃潛在的數據增長——因為大數據爆炸沒有跡象會減慢下來。

對數據排序軟件感興趣的公司應該尋找易于實施并完全能與現有的硬件兼容的產品。

“這種技術可以讓很多系跑得更快，”Brown解釋說：“但是有個問題沒有考慮：是否能很容易地將這個軟件與現有的應用集成。”

責任編輯：軟件頻道聯系郵箱：[email protected]　

新浪微博騰訊微博搜狐微博網易微博開心網人人網 | 更多分享到：

大數據

熱門專題

科技驅動創新行業智行千里

《2022聯想智能化轉型行業白皮書》重磅發布

飛利浦商用顯示器:智能科技助力高效工作

智能科技助力高效工作

破內卷“出?！眲菰诒匦?數字化為全球業務保駕護航

破內卷“出?！眲菰诒匦?，數字化為全球業務保駕護航

高端訪談

國藥國際CIO馮偉：數字化轉型要打破信息化建系統的固有思維

中國國際醫藥衛生有限公司數智化中心總經理馮偉在接受企業網D1Net專訪時提到：“回過頭來看，數智化建設最難的是轉思維，必須打破信息化總想去建系統的固有思維，要以平臺化思維、站在運營和業務的角度思考問題。思維轉變后，很多問題將迎刃而解。”

創維集團信息總監寧江：數據治理是數字化轉型的必由之路

創維集團信息總監寧江在接受企業網D1Net采訪時提到：“如今，站在數字化轉型的全局之下回顧過去幾十年的信息化建設，似乎建了很多煙囪，系統之間、流程之間不能共享數據，孤島林立。不同時期有不同時期的特征，都有其合理性和必要性，如今再來解決這些問題為時未晚。

海爾智家技術總監高麗：云原生加速企業數字化轉型

海爾智家全球數字化平臺用到了哪些云原生技術產品?如何實現降本增效?在云原生技術應用方面有哪些實踐和探索?云原生技術發揮了哪些價值?在本期“云原生降本增效大咖說”中，企業網D1Net采訪了海爾智家全球數字化平臺技術總監高麗。

熱文推薦

精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數據分析案例：從Cloudera轉到MapR

業務服務

網站地圖

友情鏈接

合作伙伴