在過去的幾十年里,數據倉庫一直是企業信息與決策支持系統的核心組件。這些中央知識庫包含了企業信息與決策制定中所有重要的數據(內部與外部)。然而,在現今如智能手機、電視、手表、筆記本電腦、平板電腦、桌面電腦和游戲設備等各種設備互聯的環境中,再加上如Twitter、Facebook、LinkedIn、普通文件、博客、網站、系統日志和傳感器等各種來源的數據,數據增長已經成為公司目前面對的三大主要挑戰之一。組織內部數據的指數級增長,致使傳統數據倉庫已經達到一個關鍵臨界點——需要大量的資源投入到硬件、優化、支持和維護中。
而且,在最近幾年中,一些組織使用ApacheHadoop處理各種來源的大數據,如博客、傳感器、社交媒體、系統日志及其他設備。然而,傳統數據倉庫不允許最終用戶查詢結構化和非結構化數據。這意味著最終用戶不能收集和分析數據,無論是什么樣的規模和類型都一樣。此外,傳統數據倉庫并沒有針對低延遲大容量數據負載和高吞吐量復雜分析工作負載進行優化——而這是大數據的需求之一。
Analytics Platform System:一種現代數據數據倉庫
為了滿足企業需求和幫助組織遷移到一個針對低延遲大規模數據負載和高吞吐復雜分析工作負載的現代數據倉庫,微軟在2014年4月推出了Analytics Platform System(APS),也稱為ParallelData Warehouse(并行數據倉庫,PDW)。APS是一個針對現代數據倉庫需求的高性能和可擴展的并行處理設備。這個認證的硬件平臺在一個設備上集成了SQLServer PDW軟件(SQL Server專門為了在APS中運行的大規模并行處理版本)和一個可選的HDInsightHadoop 平臺(基于Hortonwoks Data Platform的Windows版微軟Hadoop產品)。APS的大數據功能及其包含的PolyBase支持使用標準的SQL查詢去訪問Hadoop數據和加入關系型數據,而不需要將數據預加載到數據倉庫中。這種在傳統數據倉庫和大數據部署環境之間實現的無縫整合使APS成為一個主流的企業級大數據平臺。
此外,APS還支持一些新場景,包括使用Power BI建模、可視化和協同工具等去處理本地數據集。例如,原生微軟BI集成允許最終用戶使用熟悉的工具去分析關系型和非關系型數據,如微軟Excel。
Analytics Platform System的新特性
APS可以處理最大規模的關鍵任何需求,因為它是一個大規模并行處理設備,可以并行和分布的方式去處理高度并發和復雜度的查詢。SQL Server PDW運行在APS設備之內,它使用內存內和可更新的行存儲索引去改進了數據加載和查詢響應時間,最多比傳統數據倉庫系統高50倍,從而允許最終用戶將查詢時間從幾小時縮短為幾分鐘,或者從幾分鐘縮短為幾秒鐘。
APS在軟件中內置了可靠、可擴展和高性能的存儲特性,它們降低了硬件成本——而且它內置了支持容錯的硬件冗余性。此外,穿點設備還能幫助組織減少數據中心和管理成本,因為它組合了關系數據倉庫和Hadoop。APS提供了內存內可更新的字段存儲索引,支持高達15倍的數據壓縮率,最高可以節省70%的存儲需求。
APS是一個基于機架的系統,因此不會過多購買容量,一開始可以只使用四分之一的機架,它支持修改設備容量大小,然后將來在需要時可以使用傳統SQL Server系統橫向擴展的相同工具來擴展它的大小。微軟與戴爾、惠普和Quanta合作設備了APS,而微軟是客戶獲得硬件和軟件支持唯一聯系方。因此,作為一個數據倉庫設備,APS提供了單位存儲空間最低價格的用戶可用存儲(壓縮后)。