隨著物聯網和大數據的應用與發展,企業中的數據量每天都在增加,因此需要了解如何滿足這些新的IT計劃的存儲需求。
從冰箱到汽車,物聯網涉及幾乎所有配置傳感器的所有設備,并通過互聯網連接將數據傳輸到中央存儲庫進行存儲。一旦存在,它就成為大數據的一部分,這是對所有信息的分析。
然而,大數據的應用遠遠超出了物聯網(IoT)。大數據項目可以分析來自傳統或現代數據庫甚至非結構化數據的數據。大數據還可以將傳感器收集的看似無關的信息與傳統數據庫中的信息相關聯,以提高組織效率。例如,交通運輸公司可以在其車輛中使用傳感器來引導駕駛員選擇提高運輸效率和降低燃料成本的路線。
采用大數據或物聯網項目的好處可以提高生產力,更好的健康或更加愉快的生活。隨著用戶對這一概念越來越適應,這些技術允許安裝越來越少的設備,數據組織的收集量呈指數增長。人們面臨的挑戰是如何存儲這種數據,因為其在類型和數量上與傳統存儲數據明顯不同。
存儲需要一個大數據和物聯網項目
從存儲的角度來看,物聯網和大數據是相似的,但他們有不同的需求。物聯網項目的存儲響應取決于用例。對于傳感器,物聯網存儲系統需要同時處理來自數百萬個傳感器的快速輸入。因為這些傳感器產生的數據通常很小,所以目標存儲系統需要存儲可能達到數萬億個小文件,而不會影響性能。
但物聯網項目的數據還可以包括來自攝像機或無人機的監視圖像。此數據類型通常是連續流,因此其存儲取決于高帶寬和存儲,這需要比傳感器用例更少但卻大得多的大容量文件的能力。而這種挑戰更加令人生畏的是,組織為這兩種物聯網用例都需要提供更大的存儲空間。
從大數據的角度來看,存儲系統需要訪問物聯網項目創建的所有或至少大部分數據。組織還可以使用大數據項目來分析現有數據庫和其他非結構化數據,以及關聯不同的數據集。
到目前為止,大數據最常見的基礎是Hadoop文件系統。Hadoop文件系統(HDFS)創建處理服務器集群,并將分析作業分配給集群中任務量最少的節點。其意圖是節點需要分析的數據在該節點上都是本地數據。這種情況消除了對昂貴的網絡基礎設施的需要,并能夠使用低成本的服務器級存儲設備,而不是昂貴的共享企業級存儲設備。
物聯網和大數據的數據占用和存儲I/O的要求與傳統數據中心應用并不相同。首先,物聯網數據通常是連續饋送。數據大小可以從小到大,而所需要存儲的文件數量可以達到數萬億。這使其更容易快速創建大量的數據,其結果是存在對容量增長的持續需求。
這種增長必須快速擴張,并且不會造成破壞。物聯網項目的存儲系統還需要成本有效地擴展,以便組織能夠長時間存儲PB級數據。這需要更低的管理成本和負擔。大多數IT人員根本無法管理來自六個不同供應商的十幾個存儲系統。IT專業人員需要將其存儲硬件要求推廣到一至三個涵蓋一級和二級應用程序的存儲系統,以及物聯網和大數據創建的大量非結構化數據。
尋找到物聯網項目挑戰的答案
物聯網和大數據的應用為IT專業人員帶來了一系列挑戰。物聯網有兩種不同的文件存儲需求,大多數組織最終都需要這兩者。第一個需要隨機攝取數萬億的小文件。第二個需要高得多的帶寬流的文件,只是數量少得多,但卻大得多。單個存儲系統極少提供這兩種功能。通常,它們被調整為處理數萬億的小文件或調整為大型的流文件。
從大數據的角度來看,存儲系統需要訪問物聯網項目創建的所有或至少大部分數據。
大數據項目帶來了另一組挑戰。首先,來自物聯網項目的大部分(如果不是全部)數據需要轉移到Hadoop集群進行分析。第二,Hadoop集群必須能夠訪問業務中的傳統數據,例如數據庫和用戶數據。此外,HDFS本身也有挑戰。例如,單個節點負責分析作業分配。它還存儲群集的所有元數據。如果該節點關閉,整個集群可能會失敗。
組織還面臨Hadoop的本地存儲設計的挑戰。通過在節點之間復制數據副本來進行數據保護。大多數組織將選擇三方復制作為默認值。這意味著從容量角度看,這些挑戰將會乘以三倍,再加上已經駐留在物聯網存儲系統上的數據,這對容量提出了更高的要求。
Hadoop設計中的另一個挑戰是,集群中處理作業的最可用節點實際上可能不會在其上存儲數據。這意味著作業將具有處理其能力較差的節點,或者該作業需要將數據傳送到最有能力的節點。
然后,其核心問題變成:單個存儲系統可以解決所有這些問題嗎?答案取決于用例。對象存儲系統顯然是用于物聯網數據的后端存儲設備。經驗告訴人們,對象存儲系統經足夠支持Hadoop環境。
對于物聯網環境,對象存儲系統善于處理高要求的文件對象計數環境。大多數對象存儲系統也可以是用于Hadoop環境的后端存儲設備,通過Amazon簡單存儲設備的兼容性,或在某些情況下,本機提供HDFS支持。為Hadoop基礎設施提供共享存儲后端增加了網絡延遲,但它減輕了單個主要控制節點的負擔。它還消除了對3倍復制的需要,因為大多數對象存儲系統使用基于奇偶校驗的數據保護方案,例如擦除編碼。
使用對象存儲系統的另一個優點是物聯網設備可以直接將數據發送到Hadoop環境使用的同一存儲設備中。數據的共享意味著容量消耗的減少,并且不浪費等待數據在物聯網數據存儲設備和Hadoop存儲設備之間傳輸的時間。
該設計面臨的挑戰是數據中心可能仍然需要為其生產應用環境提供另一個存儲系統。組織還可能需要存儲和處理來自IP攝像機和類似物聯網設備的視頻數據。如果是這種情況,那么一些對象存儲系統可能并不合適;調整其他存儲系統以同時有效地處理大文件和小文件不是最佳的選擇。
超越對象存儲
數據中心內的協議開始混合。市場上的許多存儲系統可以提供各種協議支持,包括對象,網絡文件系統(NFS),服務器消息塊(SMB),全球互聯網小型計算機系統接口(iSCSI)甚至光纖信道(FC)。
每個協議對不同的用例執行良好。例如,采用光纖信道(FC)是關鍵任務數據庫的理想選擇,但對于Tier2和Tier3應用程序而言,它們通常被認為過于昂貴。全球互聯網小型計算機系統接口(iSCSI)通常是較低優先級應用程序的首選協議。網絡文件系統(NFS)非常適合高性能文件共享,并且正在獲得作為虛擬機映像存儲區域的牽引力。即使對于大數據或物聯網項目,有時網絡文件系統(NFS)也比對象存儲更合適。
大多數數據中心將必須選擇至少一個存儲系統對其主要存儲系統進行補充。雖然對象存儲正在引起人們更的關注,但高性能和高性價比的NFS/SMB解決方案正在回歸。這些系統像對象存儲系統一樣向外擴展,通常具有類似的擦除編碼類型的數據保護,并支持各種協議。在某些情況下,他們可以執行所有上述操作。
組織選擇哪種策略,將取決于他們期望管理的物聯網類型和大數據以及項目的范圍。另一個考慮因素是其當前存儲資產的年限和適用性,以解決物聯網和大數據問題。如果數據中心的當前生產存儲支持Tier1和Tier2應用程序的高性能要求,則在后端添加對象存儲可能是理想的。
如果Tier1和Tier2應用程序的性能要求稍微有些偏差,那么提供所有協議的單一存儲基礎設施可能會受到關注。雖然這些更通用的系統不能表現得如同集中式系統,但是它們通常為典型的數據中心提供足夠的性能。此外,他們提供了整合到單個存儲系統的好處。其結果應當是更低的成本,操作更為簡單性。
物聯網和大數據可以改變組織如何開展業務的方式。這二者的組合可以提供的洞察力使得企業能夠顯著地改進其創建新產品和響應客戶的方式。但這些舉措對IT基礎設施,特別是存儲系統將會產生重大的影響。
IT專業人員需要一個大數據和物聯網項目的戰略,使存儲基礎設施充分發揮其潛力。而正確地選擇產品可以滿足挑戰,無論是數量龐大的文件和高容量文件,還是綜合存儲系統。