自2008年以來,SAP Hana一直是領先的數據庫管理系統之一。它比許多其他數據庫管理解決方案能夠更有效地處理數據,主要是因為它可以使用一些最先進的Hadoop工具。
沒有Hadoop,大多數SAP Hana數據庫將是相對無用的。訪問大多數數據集將是困難的,特別是在它們存儲原始數據的時候。
為什么Hadoop是SAP Hana的骨干
邁克爾·考克斯和戴維·埃爾斯沃斯在1997年發表的“數據可視化應用控制需求調查”一文中提出了大數據這一術語。然而,大數據的應用直到最近才變得真正可行。
這個問題與存儲容量無關。云計算的進步地指數級增加了人們存儲數據的能力。然而,在存儲數據后,訪問數據是另一個問題。大多數數據提取工具可以從存儲數TB數據的數據陣列中獲取。據數據科學中心稱,它將一些應用的數據可訪問性提高了109%。
許多數據已經以非結構化格式存儲,這可能難以提取,開發Hadoop來使流程更容易。
一些SAP Hana解決方案允許用戶存儲高達4.6TB的數據。然而,數據通常以不同的文件類型存儲,這些文件類型很難以一致的格式提取和組織。Hadoop使得這個過程更加簡單容易。
SAP Hana如何與Hadoop集成
將SAP Hana與Hadoop集成可以使訪問遠程數據集群變得更加容易。但是,設置是一個耗時的過程。第一步是設置和安裝集群??蚣芸梢酝ㄟ^幾種方式構建:
·內部部署群集本地集群模型是處理需要少于50個節點的特定位置的項目的理想選擇。
·基于云計算的群集。如果用戶需要在大型地理位置進行協調,或者需要超過50個節點,那么基于云計算的群集就會更好。
確定正確的群集后,用戶將需要創建一個測試環境。Cloudera Director是其中一個更好的模型。
執行幾個測試模擬后,用戶可以使用Hadoop來訪問SAPHana智能數據。
使用Hadoop與SAP Hana有什么好處?
SAP Hana管理員使用Hadoop有很多原因。許多人選擇在HANA上使用SAPUI5,因為它具有特殊的Hadoop基礎設施。
成本效益
據戴爾EMC公司介紹,成本效益是整合Hadoop和SAP Hana的主要原因之一。其成本節省取決于存儲的數據量,而不管數據是否是結構化的,非結構化,還是半結構化的。
“VMAX所有閃存陣列通常由各種存儲組,SAP ANA生產和非生產數據庫以及非SAP Hana工作負載組成,每個都具有自己的存儲弦CR。因此,整個系統CR是各種底層存儲組比率的組合。通過工作負載的正常組合,您可以看到大約2:1的系統CR。該比例可能會更高或更低,具體取決于工作負載組合。當內聯壓縮與其他VMAXAllFlash節省空間的功能(如虛擬配置,零空間回收和節省空間的快照)相結合時,可實現4:1的總體效率。
快速響應時間
響應時間,可擴展性和可靠性之間存在權衡。Hadoop優先考慮快速響應時間,因此它是管理員需要緊急訪問數據的應用程序的理想選擇。對于可擴展性更為關注的應用程序,Hadoop可能不太可取。
用戶將需要首先概述其優先級。然而,由于大多數SAP Hana用戶的優先權是大多數權宜之計,因此Hadoop通常是他們的解決方案。
批處理和挖掘原始數據
使用更原始的大數據提取工具難以獲取原始數據。Hadoop使它更容易,這是SAP ana應用程序中廣泛使用的主要原因之一。
實體Hadoop框架是SAP ana應用程序的關鍵
當用戶設置SAP Hana數據環境時,幾乎總是需要將其與Hadoop進行集成。否則訪問非結構化數據將是非常困難的。