大數據的價值開始日益受到重視,人們對數據處理的實時性和有效性的要求也在不斷提高?,F在對大數據的應用己經不局限于BI(商業智能)領域,在公共服務、科學研究等各方面,大數據也都在發揮著巨大的影響力,而且應用面要寬得多。比如美國國家海洋和大氣管理局嘗試利用大數據方法協助進行氣候、生態系統、天氣和商業方面的研究一谷歌流感趨勢則使用經過匯總的谷歌搜索數據來估測流感疫情。數據無疑已經成為信息社會日益重要的資源。
大數據的意義并不在于大容量、多樣性等特征,而在于我們如何對數據進行管理和分析,以及因此而發掘出的價值。如果在分析處理上缺少相應的技術支撐,大數據的價值將無從談起。
具體到企業而言,處于大數據時代的經營決策過程已經具備了明顯的數據驅動特點,這種特點給企業的IT系統帶來的是海量待處理的歷史數據、復雜的數學統計和分析模型、數據之間的強關聯性以及頻繁的數據更新產生的重新評估等挑戰。這就要求底層的數據支撐平臺具備強大的通訊(數據流動和交換)能力、存儲(數據保有)能力以及計算(數據處理)能力,從而保證海量的用戶訪問、高效的數據采集和處理、多模式數據的準確實時共享以及面對需求變化的快速響應。
傳統的處理和分析技術在這些需求面前開始遭遇瓶頸,而云計算的出現,不僅為我們提供了一種挖掘大數據價值使其得以凸顯的工具,也使大數據的應用具有了更多可能性。
云計算包含兩方面的內容;服務和平臺,所以云計算既是商業模式,也是計蕎模式。比如美國加州大學伯克利分校在一篇關于云計算的報告中,就認為云計算既指在互聯網上以服務形式提供的應用。也指在數據中心里提供這些服務的硬件和軟件。
就目前技術發展來看,云計算以數據為中心,以虛擬化技術為手段來整合服務器、存儲、網絡、應用等在內的各種資源,并利用SOA架構為用戶提供安全、可靠、便捷的各種應用數據服務;它完成了系統架構從組件走向層級然后走向資源池的過程,實現IT系統不同平臺(硬件、系統和應用)層面的“通用”化,打破物理設備障礙,達到集中管理、動態調配和按需使用的目的。
借助“云”的力量,可以實現對多格式、多模式的大數據的統一管理、高效流通和實時分析,挖掘大數據的價值,發揮大數據的真正意義。
大數據對技術提出高要求
大數據處理首先是獲取和記錄數據;其次是完成數據的抽取、清潔和標注以及數據的整合、聚集和表達等重要的預處理或處理(取決于實際問題)工作;再次需要一個完整的數據分析步驟,通常包括數據過濾、數據摘要、數據分類或聚類等預處理過權最后進入分析階段,在這個階段,各種算法和計算工具會施加到數據上,以求能得到分析者想要看到的或者可以進行解釋的結果。
涉及到龐大的數據量,這一整套處理流程在各個不同階段都會對傳統的技術手段提出挑戰。比如,海量的網絡化設備、海量的在線用戶、不間斷的網絡聯接,都在時刻生成大量的、多格式的內容數據和狀態信息,這些經由各種客戶端(網頁、應用或是傳感器等)采集而來的信息數據,連同成千上萬的訪問和操作請求,會以高并發的方式向系統服務器施加壓力。
通常為了避免由于服務能力的不足而造成服務請求排隊的問題,會來用負載均衡技術將單個服務器的壓力進行分攤,大幅提高服務性能;在數據采集時,也會通過在采集端部署大量的數據庫來對系統性能提供支撐,然后對采集到的數據(包括各種結構化、非結構化和半結構化數據等)進行數據清理、去重、正規化以及相應的格式轉換處理。在按照預定規則進行過濾后,輸出到分布式數據存儲系統中進行存儲,為之后的分析和展示做準備。
在分析階段,為了完成數據挖掘的目的,通常需要處理海量的歷史數據,構建復雜的數學統計和分析模型(比如計算冬天的氣溫水平對特定厚度的羽絨服銷量的影響),并針對大量的結果之間的關聯性做出高效正確的處理,同時還要支持數據更新帶來的重新評估;而在展示階段,則應當隱藏諸如數據存儲拓撲和數據存儲結構等實現細節,對業務應用暴露規范的數據訪問接口,對復雜的數據訪問需求提供透明支撐,大大減小業務應用的構建難度。
這些復雜的需求對技術實現和底層計算資源提出了高要求。所以,為應對這些復雜的大數據處理工作,需要從服務器、網絡、存儲、軟件等各個環節構建一個兼具高可用性和高可靠性的系統環境,提供端到端的全面解決方案。
大數據與云計算相輔相成
傳統的單機處理模式不但成本越來越高,而且不易擴展,并且隨著數據量的遞增、數據處理復雜度的增加,相應的性能和擴展瓶頸將會越來越大。在這種情況下,云計算所具備的彈性伸縮和動態調配、資源的虛擬化和系統的透明性、支持多租戶、支持按量計費或按需使用,以及綠色節能等基本要素正好契合了新型大數據處理技術的需求;而以云計算為典型代表的新一代計算模式,以及云計算平臺這種支撐一切上層應用服務的底層基礎架構,以其高可靠性、更強的處理能力和更大的存儲空間、可平滑遷移、可彈性伸縮、對用戶的透明性以及可統一管理和調度等特性,正在成為解決大數據問題的未來計算技術發展的重要方向。
基于云計算技術構建的大數據平臺,能夠提供聚合大規模分布式系統中離散的通訊、存儲和處理能力,并以靈活、可靠、透明的形式提供給上層平臺和應用。它同時還提供針對海量多格式、多模式數據的跨系統、跨平臺、跨應用的統一管理手段和高可用、敏捷響應的機制體系來支持快速變化的功能目標、系統環境和應用配置。
比如在基于云計算平臺而構建的新型企業信息系統中,在以分布式集群技術構建高性能、高延展的存儲平臺之后,我們可以實現對不同業務應用中不同格式、不同訪問模式的海量數據的統一存儲,相關的數據分析系統則構建于分布式工作流和調度系統框架之上,采用分布式計算手段面向多模式海量數據提供數據的轉換、關聯、提取、聚合和數據挖掘等功能。在企業信息系統中經常提到的BI的具體業務功能,比如決策支撐、銷售預測等,就可以由上層業務應用通過調用數據分析系統所提供的功能附加業務邏輯來實現。
云計算使大數據應用成為可能;沒有云計算的出現,大數據將仍是空中樓閣,缺乏根基和落地可能。借助云計算技術,可以提高系統整體的彈性和靈活性,降低管理成本和風險,并且改進應用服務的可用性和可靠性;云計算不僅為大數據處理打造一個高效、可靠的系統環境,而且充分發揮云計算平臺的優勢,為大數據應用找到更多樣化的出口。
如果說大數據是一座蘊含巨大價值的礦藏,云計算則可以被看作是采礦作業的得力工具;沒有云計算的處理能力,大數據的信息沉淀再豐富,或許也只能望洋興嘆,入寶山而空手回;但從另外的角度說,云計算也是為了解決大數據等“大”問題發展而來的技術趨勢,沒有大數據的信息沉淀,云計算的功用將得不到完全發揮。因此,從整體上看,大數據與云計算是相輔相成的。