全球時尚在線零售商GiltGroupe,制定有針對性的營銷活動,使得其銷售額達(dá)到五億美元;每一分鐘,F(xiàn)ab.com這家為設(shè)計師和客戶提供交流平臺的網(wǎng)站,都會結(jié)合用戶的購買歷史信息、會員信息發(fā)現(xiàn)趨勢,以驅(qū)動業(yè)務(wù)決策。
那些傳統(tǒng)的實體公司可能都會面臨自己的挑戰(zhàn),但并非僅僅只是這些傳統(tǒng)實體企業(yè)缺乏數(shù)據(jù)信息。其實,從群發(fā)的郵件、攝像機(jī)的視頻、銷售點系統(tǒng)、庫存系統(tǒng)和大多數(shù)企業(yè)的報告中,大多數(shù)企業(yè)均可以收集到足夠的數(shù)據(jù)信息來填充他們的大數(shù)據(jù)庫。將如此眾多的海量信息收集到一個單一的位置將是一個巨大的挑戰(zhàn)。
將磁盤或磁帶運(yùn)送到一個中央位置以便上傳到一個大數(shù)據(jù)庫的方案并非總是可行或可取的,而且在整個企業(yè)的網(wǎng)絡(luò)中傳輸這么多的數(shù)據(jù)信息往往也是不可能的。這不僅僅只是帶寬不足的問題。即使連接數(shù)百兆的網(wǎng)站,高速網(wǎng)絡(luò)的延遲和網(wǎng)絡(luò)質(zhì)量,也會極大地削弱實際吞吐量。例如,在100Mbps的連接情況下,端到端仍然會被限制在每流量5.24Mbps(假設(shè)有100毫秒的延遲,且無數(shù)據(jù)包丟失)。如果數(shù)據(jù)丟失哪怕只增加0.1%,吞吐量也會下降至每流量 3.69Mbps。
訪問數(shù)據(jù)時,網(wǎng)絡(luò)的限制問題也會帶來挑戰(zhàn)。對于大多數(shù)數(shù)據(jù)庫,用戶通常喜歡在他們的本地設(shè)備上復(fù)制數(shù)據(jù)和工作,而這又導(dǎo)致了需要在整個網(wǎng)絡(luò)上復(fù)制千兆以上的數(shù)據(jù)。運(yùn)用類似的做法實施大數(shù)據(jù)項目會導(dǎo)致網(wǎng)絡(luò)成本飆升,性能表現(xiàn)不佳和用戶挫折感增強(qiáng)。但是,企業(yè)不能限制本地用戶訪問大數(shù)據(jù);限制員工訪問和使用大數(shù)據(jù)是大數(shù)據(jù)項目失敗的一個重要限制原因。
網(wǎng)絡(luò)成本的膨脹是唯一影響大數(shù)據(jù)項目成本的因素。由于Hadoop的使用和其他開放源碼軟件包和擴(kuò)展存儲的使用,相對而言,較之傳統(tǒng)企業(yè)的數(shù)據(jù)倉庫,軟件和存儲的成本較低。但這些費(fèi)用往往不會影響行業(yè)內(nèi)地安全性、災(zāi)難恢復(fù)和可用性等監(jiān)管要求。
大部分企業(yè)未計算的還包括人力成本。鑒于今天的大數(shù)據(jù)市場的不成熟,據(jù)Gartner公司預(yù)計,企業(yè)需要在人力成本方面花費(fèi)約20?25倍于供應(yīng)成本的咨詢和集成服務(wù)費(fèi)用。(相比之下,在成熟的市場,如商業(yè)智能系統(tǒng)市場,據(jù)Gartner公司預(yù)計,其咨詢服務(wù)費(fèi)用僅為供應(yīng)成本的三倍左右。)盡管當(dāng)前人力成本很可能會持續(xù)上升。但企業(yè)仍然需要培訓(xùn)或聘請相關(guān)的人員來分析大數(shù)據(jù)。“數(shù)據(jù)科學(xué)家”是結(jié)合了商業(yè)智能(BI)分析和統(tǒng)計學(xué)知識的專家,是那些發(fā)掘數(shù)據(jù)集以發(fā)現(xiàn)有價值的新見解,促進(jìn)企業(yè)業(yè)務(wù)流程自動化和優(yōu)化的一類熱門人才的稱號。
云計算對于大數(shù)據(jù)來說是相當(dāng)完美的匹配。大數(shù)據(jù)所需要的存儲、計算、功率、復(fù)雜的數(shù)據(jù)庫的基礎(chǔ)設(shè)施和高端的數(shù)據(jù)處理能力均能夠被諸如亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)這樣良好的云服務(wù)產(chǎn)品來滿足。
AWS 以極低的價格提供無限彈性云計算(EC2)、彈性塊存儲(EBS)和簡單存儲服務(wù)(S3)。它提供的DynamoDB是一款高度可用的分布式數(shù)據(jù)庫集群; 而ElasticMapReduce是一個管理平臺,支持基于Hadoop的分析棧。這些富有成本效益的資源和技術(shù)幫助企業(yè)在亞馬遜建立自己的分析,獲得更深入和更豐富的洞察。
但其面臨的挑戰(zhàn)仍然存在:如何將數(shù)據(jù)轉(zhuǎn)移到云或企業(yè)的數(shù)據(jù)中心。數(shù)據(jù)加速軟件解決了這個問題。通過在線路兩端運(yùn)行的實例,數(shù)據(jù)加速軟件可以提高吞吐量超過200倍。例如,移動100GB的數(shù)據(jù),僅僅只需6.2分鐘,不再是22小時。數(shù)據(jù)加速通過優(yōu)化協(xié)議,以矯正延遲,復(fù)制數(shù)據(jù),以最大限度地利用帶寬。并且,在某些情況下,可以在傳遞過程中恢復(fù)丟失的數(shù)據(jù)包,而不需要重傳上傳,破壞吞吐量。因為數(shù)據(jù)加速軟件可以按小時授權(quán),對于那些只需一次性轉(zhuǎn)移或不常轉(zhuǎn)移的大數(shù)據(jù)而言,成本可以非常低。
數(shù)據(jù)加速軟件是任何大規(guī)模的數(shù)據(jù)部署實現(xiàn)的關(guān)鍵一步。無論是部署在云中或在企業(yè)內(nèi)部,其都可以縮短時間,匯總數(shù)據(jù),極大地提高企業(yè)部署大數(shù)據(jù)項目的價值。