【IT168技術】大數據好用,但誰會為它投資?在目前中國的經濟環境下,大中型國企臃腫緩慢的業務流程對于大數據不是太過于感冒。可以說誰都不是十分清楚大數據究竟是怎么創造價值的,下面我們就來一起看看大數據技術背后的故事。
毫無疑問,世界上所有關注開發技術的人都意識到“大數據”對企業商務所蘊含的潛在價值,其目的都在于解決在企業發展過程中各種業務數據增長所帶來的痛苦。
現實是,許多問題阻礙了大數據技術的發展和實際應用。
因為一種成功的技術,需要一些衡量的標準。現在我們可以通過幾個基本要素來衡量一下大數據技術,這就是——流處理、并行性、摘要索引和可視化。
誰會用到大數據?
一年前,大數據技術的一些主要用戶是大型Web企業,例如Facebook和雅虎,它們需要分析點擊流數據。但是今天,“大數據技術已經超出了Web,是要是有大量數據需要處理的企業都有可能用到它。”例如銀行、公用事業機構、情報部門等都在搭乘大數據這輛車。
實際上,一些大數據技術已經被一些擁有很前衛技術的企業在使用了,比如受社交媒體推動而需要創建相應Web服務的企業。它們對于大數據項目的貢獻非常重要。
而在其他垂直行業中,有些企業正在意識到,它們基于信息服務的價值定位要比它們先前想象的要大得多,所以大數據技術很快就吸引了這些企業的注意。再加上硬件和軟件成本的下降,這些企業發現它們已經處在了一場企業大轉型機遇的完美風暴中。
大數據處理的應對三大挑戰:大容量數據、多格式數據和速度
大容量數據(TB級、PB級甚至EB級):人們和機器制造的越來越多的業務數據對IT系統帶來了更大的挑戰,數據的存儲和安全以及在未來訪問和使用這些數據已成為難點。
多格式數據:海量數據包括了越來越多不同格式的數據,這些不同格式的數據也需要不同的處理方法。從簡單的電子郵件、數據日志和信用卡記錄,再到儀器收集到的科學研究數據、醫療數據、財務數據以及豐富的媒體數據(包括照片、音樂、視頻等)。
速度:速度是指數據從端點移動到處理器和存儲的速度。
大數據技術涵蓋哪些內容?
①流處理
伴隨著業務發展的步調,以及業務流程的復雜化,我們的注意力越來越集中在“數據流”而非“數據集”上面。
決策者感興趣的是緊扣其組織機構的命脈,并獲取實時的結果。他們需要的是能夠處理隨時發生的數據流的架構,當前的數據庫技術并不適合數據流處理。
例如,計算一組數據的平均值,可以使用一個傳統的腳本實現。但對于移動數據平均值的計算,不論是到達、增長還是一個又一個的單元,有更高效的算法。如果你想構建數據倉庫,并執行任意的數據分析、統計,開源的產品R或者類似于SAS的商業產品就可以實現。但是你想創建的是一個數據流統計集,對此逐步添加或移除數據塊,進行移動平均計算,而且數據庫不存在或者尚不成熟。
數據流周邊的生態系統有欠發達。換言之,如果你正在與一家供應商洽談一個大數據項目,那么你必須知道數據流處理對你的項目而言是否重要,并且供應商是否有能力提供。
②并行化
大數據的定義有許多種,以下這種相對有用。“小數據”的情形類似于桌面環境,磁盤存儲能力在1GB到10GB之間,“中數據”的數據量在100GB到1TB之間,“大數據”分布式的存儲在多臺機器上,包含1TB到多個PB的數據。
如果你在分布式數據環境中工作,并且想在很短的時間內處理數據,這就需要分布式處理。
并行處理在分布式數據中脫穎而出,Hadoop是一個分布式/并行處理領域廣為人知的例子。Hadoop包含一個大型分布式的文件系統,支持分布式/并行查詢。
③摘要索引
摘要索引是一個對數據創建預計算摘要,以加速查詢運行的過程。摘要索引的問題是,你必須為要執行的查詢做好計劃,因此它有所限制。
數據增長飛速,對摘要索引的要求遠不會停止,不論是長期考慮還是短期,供應商必須對摘要索引的制定有一個確定的策略。
④數據可視化
可視化工具有兩大類。
探索性可視化描述工具可以幫助決策者和分析師挖掘不同數據之間的聯系,這是一種可視化的洞察力。類似的工具有Tableau、TIBCO和QlikView,這是一類。
敘事可視化工具被設計成以獨特的方式探索數據。例如,如果你想以可視化的方式在一個時間序列中按照地域查看一個企業的銷售業績,可視化格式會被預先創建。數據會按照地域逐月展示,并根據預定義的公式排序。供應商Perceptive Pixel就屬于這一類。
⑤生態系統戰略
許多最大最成功的公司都花費大量資金構建圍繞它們產品的生態系統。這些生態系統被產品特性和商務模型所支持,并與合作伙伴的產品和技術協同工作。如果一個產品沒有一個富有戰略的生態系統,是很難適應客戶的要求的。