隨著云時代的到來和SaaS概念的引入,越來越多的企業(yè)開始選擇由SaaS應(yīng)用提供商、運營商等通過互聯(lián)網(wǎng)平臺提供SaaS應(yīng)用服務(wù),SaaS應(yīng)用的數(shù)據(jù)量面臨著TB級的增長速度;不同的SaaS應(yīng)用體系,提供的數(shù)據(jù)結(jié)構(gòu)也不完全相同,數(shù)據(jù)有文本、圖形甚至小型數(shù)據(jù)庫;SaaS應(yīng)用數(shù)據(jù)隨著云服務(wù)平臺的分布性特點,有可能分布在不同的服務(wù)器上,如何對這些異構(gòu)異源的數(shù)據(jù)進行數(shù)據(jù)挖掘,是云時代的企業(yè)面臨的難題。
云時代企業(yè)數(shù)據(jù)挖掘面臨的挑戰(zhàn)
挖掘效率:進入云計算時代后,BI的思路發(fā)生了轉(zhuǎn)換。以前是基于封閉的企業(yè)數(shù)據(jù)進行挖掘,而面對引入互聯(lián)網(wǎng)應(yīng)用后海量的異構(gòu)數(shù)據(jù)(據(jù)預(yù)計到2020年,爆發(fā)式增長的數(shù)據(jù)量將突破35ZB(1ZB=10億TB))時,目前并行挖掘算法的效率很低。
多源數(shù)據(jù):引入云計算后,企業(yè)數(shù)據(jù)的位置有可能在提供公有云服務(wù)的平臺上,也可能在企業(yè)自建的私有云上,如何面對不同的數(shù)據(jù)源進行挖掘也是一個挑戰(zhàn)。
異構(gòu)數(shù)據(jù):Web數(shù)據(jù)的最大特點就是半結(jié)構(gòu)化,如文檔、報表、網(wǎng)頁、聲音、圖像、視頻等,而云計算帶來了大量的基于互聯(lián)網(wǎng)模式提供的SaaS應(yīng)用,如何梳理有效數(shù)據(jù)是一個挑戰(zhàn)。
SaaS應(yīng)用的數(shù)據(jù)挖掘希望能夠通過海量數(shù)據(jù)存儲平臺,引入快速并行的挖掘算法,提高數(shù)據(jù)挖掘的質(zhì)量。
如何選擇合理的基礎(chǔ)架構(gòu)
對于企業(yè)而言,如何將各種應(yīng)用數(shù)據(jù)進行整合挖掘,提煉出適合其使用的商業(yè)信息是企業(yè)的一大急迫需求。傳統(tǒng)的BI模式大多基于數(shù)據(jù)倉庫,是關(guān)系型數(shù)據(jù)庫的模式。面對急劇增長的異構(gòu)數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)倉庫和原有的并行計算技術(shù)由于挖掘效率低,已經(jīng)不能解決海量數(shù)據(jù)挖掘工作,影響著數(shù)據(jù)的及時提取。
一直以來,商業(yè)智能系統(tǒng)往往基于傳統(tǒng)的SMP架構(gòu)小型機而構(gòu)建。隨著近年來X86平臺的性能與日俱增、可用性日漸提升、擴展性飛速增長,X86平臺在越來越多的市場領(lǐng)域開始侵蝕小型機份額,商業(yè)智能也成為X86架構(gòu)向RISC小型機發(fā)起進攻的另一個戰(zhàn)場。例如,Oracle推出的基于英特爾至強平臺的Exadata數(shù)據(jù)庫云服務(wù)器,通過獨有的smartscan技術(shù),以及數(shù)據(jù)處理過程下移的設(shè)計,在X86架構(gòu)基礎(chǔ)上同時提供了較高的OLAP性能(數(shù)據(jù)倉庫應(yīng)用)和OLTP性能。此外,IBM也推出了基于X86平臺的商業(yè)智能解決方案,基于IBM獨有的EX5架構(gòu)服務(wù)器和XIV網(wǎng)格存儲系統(tǒng)提供了不輸于小型機的智能信息處理能力。
選購要點:
1、高可用性:BI的基礎(chǔ)架構(gòu)層,需要建立起數(shù)據(jù)挖掘云服務(wù)平臺,而這個平臺,必然是高可用性的。
從高可用性來看,需要集中解決三個方面的問題:一是數(shù)據(jù)保護,需要利用CRC、ECC等硬件機制來對傳輸?shù)臄?shù)據(jù)進行校驗、糾錯,如果無法糾正,就將損壞的數(shù)據(jù)進行隔離,以保證不造成更大的數(shù)據(jù),避免系統(tǒng)的重啟和宕機。
目前英特爾至強7500或E7合作的方案擁有諸多優(yōu)勢,如成本低、性能高、可靠性(RAS)高、可擴展性好等優(yōu)勢。在可擴展性能上,X86平臺橫向的向外擴展功能,即由兩臺以上的機器構(gòu)成集群。能滿足大多數(shù)企業(yè)關(guān)鍵應(yīng)用環(huán)境的負載需求,包括對內(nèi)存和CPU要求都較高的數(shù)據(jù)庫、商業(yè)應(yīng)用和虛擬化。進而避免傳統(tǒng)UNIX雙機方案“成本高昂,備機資源平時嚴重閑置浪費,主機故障切換期間用戶服務(wù)被迫停頓”等諸多困境。
此外,7500一些設(shè)計已經(jīng)將計劃宕機時間最小化,這當(dāng)中包括系統(tǒng)分區(qū)管理技術(shù)、CPU和內(nèi)存的熱添加和熱移除等,將系統(tǒng)維護時間降低到最小。
2、虛擬化:數(shù)據(jù)挖掘云服務(wù)還是要依賴于虛擬化技術(shù),要計算資源自主分配和調(diào)度,也就是說虛擬化技術(shù)是數(shù)據(jù)挖掘云服務(wù)技術(shù)的支撐。
千萬不要被概念忽悠
大數(shù)據(jù)有很多不同的使用情況。因此,企業(yè)需要根據(jù)自身業(yè)務(wù)情況采用不同的的數(shù)據(jù)挖掘平臺。對于那些注重應(yīng)用分析和處理要求的客戶來說,有很多專門的解決方案,例如惠普Vertica,此外還有很多高性能NAS或者目標系統(tǒng)。
同樣地,對于注重視頻、安防監(jiān)控、閉路電視、模擬仿真、大帶寬或吞吐量的話,可以考慮惠普Ibrix、戴爾Exanet、BlueArc、HDS、NetApp、Data Direct Networks、Oracle 7000、EMC Isilon和VNX等。
總的來說,用戶可能會面對一大堆勸說你遷移到更昂貴系統(tǒng)的市場炒作。可能你現(xiàn)在的系統(tǒng)已經(jīng)足夠好的——如果可以擴展的話,廠商提供給你的并不一定可能很好地運行在你目前的環(huán)境下。
對用戶而言,需要警惕各種關(guān)于大數(shù)據(jù)的炒作,他們也許想要縮小你的選擇范圍。除了大數(shù)據(jù)所能帶來的機遇之外,還有很多不同的方面需要考慮,例如它的特性、應(yīng)用、使用實例以及部署方案。