數據孤島是大數據價值提升的重大障礙
這顯然是個難題!呈指數級速度增長的數量存儲量,不同的數據來源,數據的多元化,使用者的多元化,甚至各種各樣不同的分析工具,都使得真正的大數據很難得到最大程度的利用并獲得價值。
以常用的交易型數據庫為例,交易型數據庫作為底層數據基礎,一般會放在ERP、CRM及企業客戶的各種業務系統之下,從里面經過整理變成中間層數據倉庫,然后再分析展示出商務智能,從而為企業提供一定程度的決策依據。但隨著物聯網時代到來,數據來源更加多樣化,不僅僅只是ERP、CRM及業務系統,各種PC端數據、移動端數據、傳感器數據等越來越多,以往從數據庫到數據倉庫再到商務智能BI的數據處理之路造成的數據孤島,已成為提升大數據價值的極大障礙。
數據湖是大數據時代的必然
最近幾年出現的數據湖方案,因為能有效解決傳統數據倉庫存在的數據孤島問題,同時也能夠兼容傳統數據倉庫的數據分析方法,而且特別適合與機器學習結合,做出更多預測性的分析。
數據湖和傳統數據倉庫有以下區別:數據倉庫是在數據庫的基礎上把數據經過分類、提煉、整理好后放在數據倉庫,小型的數據倉庫最早以前也曾被稱為數據集市,部門級的數據可以放在數據集市里。數據倉庫一般是企業級別,但數據倉庫的方法對數據有非常嚴格的要求,必須是能夠被識別的固定好格式的數據,整理各種數據便需要極長的時間,無法適應現在數據時刻處于快速變化中的環境。而數據湖則顧名思義,就是把所有數據像湖水一樣先蓄在這個湖里,也就是形成了一個中心數據存儲的容器,這個容器可以存無論是格式化的還是非格式化的各種各樣的數據,而且從數據量上也非常容易實現對數據量的快速縮放,并且對這些數據可以進行查詢、分析。換言之,數據湖就是一個集中式的、安全的存儲庫,以云計算技術和基礎設施為依托,允許企業或機構以任意規模,存儲所有的結構化和非結構化數據。客戶可以按原樣存儲數據,無需先對數據進行結構化處理;可以對這些數據運行不同類型的分析,從數據儀表板和可視化數據展現,到大數據處理、實時分析和機器學習,指導客戶做出更好的決策。
因此數據湖有如下兩大特點:
第一, 數據不限形態,可以存儲原始的自然的數據,可以是結構化的,也可以是非結構化的。
第二, 可快速縮放存下海量的數據,并具備高可用,高持久、安全、合規等特性。
AWS推出兩大數據分析服務AWS Glue和Amazon Athena
由于數據湖的天然優勢,近年來圍繞數據湖和大數據分析生態,業界發展出包括Hadoop、MapReduce、Spark等在內的一系列開源框架和組件,為組織搭建平臺和創新應用帶來了豐富的工具和方法。云服務商將數據湖技術引入拓展其服務范圍,更是順理成章。
近期,AWS宣布,在西云數據運營的AWS中國(寧夏)區域推出兩個重磅的數據分析服務AWS Glue和Amazon Athena,以完善其中國區域的數據湖解決方案。前者可以簡化數據提取、轉換和加載過程;后者可以通過通用的結構化查詢語言,直接在數據湖中進行交互式數據查詢。
具體而言,AWS Glue是一種全托管的數據提取、轉換和加載(ETL)服務及元數據目錄,實現了數據分析準備工作的自動化,讓客戶從準備數據到開始分析的時間由幾個月縮短到幾分鐘。由于AWS Glue是無服務器服務,客戶在執行ETL任務時,只需要為他們所消耗的計算資源付費。Amazon Athena則是一種交互式查詢服務,它讓客戶可以使用標準SQL語言、輕松分析Amazon S3中的數據,幾秒鐘內便可獲得查詢結果。
AWS云端大數據分析體系更趨完善
至此,AWS的云端大數據分析體系便趨于完善。既有面向大數據處理的Amazon EMR,用戶可在AWS上輕松運行Spark、Hadoop、Presto、Hbase等大數據分析;也擁有對應實時數據分析這一分析框架的重要組成部分Amazon Kinesis,可支持用戶輕松地實時收集、處理并分析視頻和流數據;數據湖則可以與機器學習和人工智能結合,通過Amazon SageMaker開展更多自動化的預測性分析,充分釋放大數據的潛能。
上述產品及解決方案給合涵蓋了數據移動、數據存儲、數據湖、分析和機器學習五大維度,可針對各類現代應用和大數據分析場景,讓各行各業的用戶都在AWS上快速構建,通過各種產品方案組合匹配需求。
茄子快傳是一家全球化的互聯網科技公司,累計有18億用戶。茄子快傳搭建了一個數字內容連接入口,幫助全球200多個國家和地區的用戶獲取優質數字內容。茄子快傳數據運營負責人何誠表示,“茄子快傳的數據量大,分析維度多,業務也非常復雜,所以經常需要多維度多顆粒度的高并發分析,AWS的分析工具很好地滿足了我們日常的數據提取和分析需求。使用Amazon Athena,我們可以輕松地運行交互式查詢,分析數據,不必構建和部署額外的集群。同時,我們運行新數據分析所需的時間縮短了30%,大幅減少了成本與運維方面的風險。”
AWS首席云計算企業戰略顧問張俠博士指出:“Amazon Athena和AWS Glue服務將由西云數據運營的AWS中國(寧夏)區域推出, Athena完全不需要管理基礎設施,任何能夠編寫SQL查詢的人都能以高性價比的方式快速分析他們在Amazon S3中的數據。而隨著AWS Glue的正式上線,客戶可以輕松地從任意多的數據源傳輸和處理數據,整合數據到數據湖,并且可以選用多種AWS分析服務,迅速開始分析所有數據。這極大的加快了AWS中國客戶對數據的響應需求。”