業務準備好管理大數據的管理和處理了嗎,更不用說保持法規所要作的?
多大才算大?讓我們來看看:1EB(exabyte)是1000PB字節,或1000000TB的數據。到目前為止,大多數企業數據的討論在TB以內,但不會太長久。最近的一份來自思科的報告稱全球移動數據的流量在2010年到2015年之間會增加26倍。僅移動數據量一項的預計就會在2015年每月超過6EB(exabyte)。到那時,查詢將在PB規模,萬億的記錄數據集上運行,需要更大的規模來處理機器產生的數據的新容量。
這意味著,三年內討論將圍繞著EB(exabytes)的數據進行 ― TB被PB所替代,然后再到EB(exabytes)字節只需短短的三年。Oracle把它們最新的數據倉庫設備命名為Exadata是有理由的 !
世界上移動設備的激增,以及法規上對CDRs和無線接入協議(WAP)記錄的存儲和維護需要,把電信行業置于大數據潮流的風口浪尖上。
而當數據大量增加時,商業和法律條規加緊了對移動數據的保留。例如在美國,移動數據必須保存兩年或三年,而在世界的其他地方,數據必須保留七年(中東),10年(印度)或更長時間(日本)。
但并不只有通信領域是這樣的。大數據的保留和管理的要求在其它如公用事業的智能電表,和有網絡日志的網絡安全這樣的領域涌現,它們都有一種共同的思路:在一種高度管制下的行業中由機器產生的大量的大數據。
刊登在2011年5月26日的《經濟學家》雜志上的一篇題為“用大數據的建構”的文章說:
去年人們儲存了足夠的數據可來填充60000家國會圖書館。全世界有40億手機用戶(其中12%的人擁有智能手機)已經將他們自己變成了數據流。YouTube每分鐘收到24小時的錄像。制造商在他們的產品中嵌入3千萬個傳感器,在互聯網這樣的東西上將無聲的金屬片轉換成數據生成的節點。智能手機的數量以每年20%的速度增長,而傳感器數量的增長率為30%。
以如此龐大的量和速度進入了大數據時代已經成為IT與業務上的挑戰。對于那些沒有適當的策略和基礎設施的企業,它可能是非常昂貴和危險的。
然而,大數據也是大機遇
不管是受法規還是競爭原因的驅動,大數據是大業務,這點可以從分析市場內的收購合并活動量就可以看出。EMC對Greenplum的收購,IBM對Netezza的收購,惠普對Vertica的收購。 雖然這些和其它解決方案,相對于傳統的聯機事務處理(OLTP),關系型數據庫管理系統(RDBMS)和數據倉庫系統,已成功為企業降低了復雜的深度分析的成本, 但他們對大量數據的長期保存成本上并不是最佳的。對不斷增長的數據庫的存儲、硬件和管理成本的密切關注是一個非常現實的問題。
讓我們檢查一下保留大量的機器生成的數據的經濟情況。硬件和軟件投資的資本支出(CAPEX) 需要開始消化,而每個人最終也是最初關注的是數據查詢。這個問題很大程度上已經被許多關系型數據庫管理系統(RDBMS)和數據倉庫解決方案和設備解決,它們通常以每TB的存儲進行測量和定價。
但是持續經營性支出(OPEX)推動了整體成本以維持任何正在實施的系統。組成總資本支出(CAPEX)和持續經營性支出(OPEX)的維度方程包括,支持加載吞吐量和數據查詢的服務器,必要的物理存儲數據和存儲種類。壓縮、存儲和檢索如此大量數據的效率最后決定該方程 ― 從減少所需的空間,(人)的管理和技能,到所需硬件和存儲的種類。
減少大數據的問題
以更全面的方式解決大數據問題的業務不僅是檢驗分析需求,還有整體數據的保留成本,這些成本可以TB(terabytes)來測量,但也可能是PB(petabytes),很快EB(exabytes)作為字節容量也會迅速增加。新的管理類型上的經濟正在發生改變,而規定只會變得更嚴格。
所有的企業,特別是那些高度管制行業,需要為大數據做好準備,就像他們為主要的企業方案和改革IT項目上所作的準備一樣:建立一種戰略,實事求是的,做最壞的打算,引進專家,而且不要害怕有為長期的節約現在的支出。從長遠來看,有合理的策略和適于大數據的基礎設施會讓最成功的企業更有優勢。