數(shù)據(jù)正在呈幾何級數(shù)增長,來自社交媒體(微信、微博)以及傳感器設(shè)備的非結(jié)構(gòu)化數(shù)據(jù)受到了越來越多的關(guān)注,而與傳統(tǒng)企業(yè)交易系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)一起,它們將有可能帶來新一輪的產(chǎn)業(yè)變革。機(jī)器學(xué)習(xí),自然語言處理,輿情分析等詞匯幾乎每天都會出現(xiàn)在媒體的報(bào)道當(dāng)中,然而真正講它們大規(guī)模投入應(yīng)用的企業(yè)卻少之又少。
如今,企業(yè)CIO們幾乎人人都在討論大數(shù)據(jù),許多人認(rèn)為大數(shù)據(jù)就是搭一個(gè)Hadoop集群,把所有的數(shù)據(jù)全部存進(jìn)去,再通過各種各樣的API調(diào)用進(jìn)行分析。然而答案并不是這么簡單,大數(shù)據(jù)與IT方方面面都有聯(lián)系,從基礎(chǔ)設(shè)施到中間層再到前端的應(yīng)用。Hadoop不是萬能的,它只是大數(shù)據(jù)的一部分,想要真正駕馭大數(shù)據(jù),我們需要考慮更多的事情。
我們的數(shù)據(jù)究竟有哪些問題?
事實(shí)上,我們要解決的大數(shù)據(jù)最基本的問題是存儲和報(bào)表。我們該如何存儲快速增長的數(shù)據(jù),關(guān)鍵是在業(yè)務(wù)人員需要用到這些數(shù)據(jù)的時(shí)候,可以快速地訪問。即席查詢生成報(bào)表,對業(yè)務(wù)進(jìn)行預(yù)測,充分利用大數(shù)據(jù)流中隱藏的價(jià)值。
你的數(shù)據(jù)都有哪些類型組成?關(guān)系型數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)還是音頻視頻?你如何存儲不同類型的數(shù)據(jù),然后讓企業(yè)內(nèi)部的人員可以訪問這些數(shù)據(jù)?答案其實(shí)在云端,云存儲技術(shù)基本上可以應(yīng)對大數(shù)據(jù)的存儲需求,你可以存儲任何類型的數(shù)據(jù)然后輕松地進(jìn)行擴(kuò)展。高端的SAN存儲技術(shù)在大數(shù)據(jù)時(shí)代已經(jīng)落伍,而且高昂的成本是企業(yè)所無法承受的。SAN存儲適合的是關(guān)鍵業(yè)務(wù)數(shù)據(jù),每一條記錄對企業(yè)都是至關(guān)重要的。大數(shù)據(jù)正好相反,比如銷售訂單,這些數(shù)據(jù)是絕對不能丟失一條的,而一條微博或者日志文件怎沒有這么高的要求。包括華為、亞馬遜等云存儲服務(wù)可以使用廉價(jià)的設(shè)備為企業(yè)提供大數(shù)據(jù)存儲解決方案,實(shí)現(xiàn)可靠、可擴(kuò)展并且性價(jià)比更高的存儲。
當(dāng)然,電視的出現(xiàn)并未讓廣播電臺滅亡,在大數(shù)據(jù)時(shí)代也是如此。SAN依舊有它的價(jià)值,但并不是所有數(shù)據(jù)都要存在上面。我們需要云存儲是因?yàn)椴煌愋偷臄?shù)據(jù)都有著特殊的存儲需求。比如讀密集型的數(shù)據(jù)一般需要關(guān)系型數(shù)據(jù)庫;日志文件只使用HDFS存儲就可以;需要大量寫操作的數(shù)據(jù)則需要 NoSQL數(shù)據(jù)庫;而存在大量讀寫操作的系統(tǒng)就需要強(qiáng)大的大數(shù)據(jù)架構(gòu)來作為支撐。你的系統(tǒng)也許需要低延遲、高一致性、高度可靠或者需要控制存儲的成本,每一種需求都意味著不同的存儲解決方案。低延遲可能意味著要上SDD或內(nèi)存設(shè)備,高一致性意味著要建立交易系統(tǒng),高可靠意味著要使用數(shù)據(jù)庫復(fù)制功能。所以,大數(shù)據(jù)已經(jīng)告別了“放之四海皆準(zhǔn)”的關(guān)系型數(shù)據(jù)庫時(shí)代,Oracle+小型機(jī)+高端存儲(或者說IOE)的組合已經(jīng)不能處理所有的數(shù)據(jù)難題。
那么企業(yè)到底需要什么?答案是以服務(wù)的方式提供的靈活可擴(kuò)展的云存儲解決方案,能夠滿足上述不同的存儲需求。比如亞馬遜的RDS,DynamoDB,華為的對象云存儲等。當(dāng)然,并不是所有的云存儲都可以滿足需求,企業(yè)需要更高的靈活性,同時(shí)出于延遲以及法規(guī)遵從等原因,這就要求能夠從不同的系統(tǒng)中將數(shù)據(jù)快速方便地進(jìn)行遷移,從內(nèi)部系統(tǒng)到公有云,或者從一個(gè)云提供商遷移到另一個(gè)云提供商。
商業(yè)智能與ETL的未來發(fā)展
除了存儲方案之外,我們還應(yīng)該關(guān)注前端應(yīng)用。傳統(tǒng)的ETL也將經(jīng)歷變革。業(yè)務(wù)人員肯定不希望為了導(dǎo)入一點(diǎn)額外的數(shù)據(jù)就讓IT部門更改schema,這樣的工作量和成本太高了。理想的狀態(tài)是有一個(gè)簡單的工具,讓業(yè)務(wù)人員就能夠做即席查詢,比如Tableau就能夠解決這樣的問題。然而,隨著數(shù)據(jù)量的不斷增長,TB甚至PB 級別的數(shù)據(jù)需要進(jìn)行處理,那么軟件的成本就要考慮在內(nèi),這時(shí)候你該怎么辦?
ETL和BI工具的未來將運(yùn)行在Web端,任何的業(yè)務(wù)人員都能夠用它來生成報(bào)表。動態(tài)的HTML5用戶界面可以通過拖拽就完成數(shù)據(jù)的查詢與報(bào)表生成,如果你還需要對業(yè)務(wù)用戶進(jìn)行培訓(xùn)才能夠使用這些工具,那么就真的OUT了。
新一代的BI工具能夠應(yīng)對實(shí)時(shí)、圖形化、大對象以及非結(jié)構(gòu)化數(shù)據(jù)的處理,同時(shí)能夠?qū)⑦@些數(shù)據(jù)存儲在云端。每種數(shù)據(jù)可以托管在不同的云服務(wù)上,但都可以通過一個(gè)API進(jìn)行訪問。企業(yè)無需再關(guān)心什么樣的數(shù)據(jù)用什么樣的存儲,云服務(wù)提供商就可以搞定。
最后,有一點(diǎn)很重要。越來越多的企業(yè)開始意識到,數(shù)據(jù)分析已經(jīng)成為了一種“戰(zhàn)略武器”。下一代的商業(yè)巨頭,也許就會從那些知道如何收集數(shù)據(jù)并把它們轉(zhuǎn)化有價(jià)值洞察力的企業(yè)中誕生。千里之行始于足下,在構(gòu)建大數(shù)據(jù)分析模型或者投入機(jī)器學(xué)習(xí),招聘數(shù)據(jù)科學(xué)家之前,企業(yè)需要先解決好如何存儲大數(shù)據(jù),而答案就在云端。