大數據和物聯網項目給IT基礎架構帶來了前所未有的壓力。
Internet of Things(IoT) 和大數據應用已經給網絡和存儲架構帶來了壓力,更不用說這還需要IT專家使用不同的技能和工具來管理這些新的部署了。
雖然執行起來很有挑戰性,但是也有一些為IT團隊而設的指導方針來幫助他們托管IoT和大數據。這得從審查基礎架構中大規模、數據密集型的項目需求開始。
更多的處理能力
一旦項目進入到具體的實施階段,IT組織連同它的硬件、軟件和服務供應商很可能需要去定義合適的系統架構和操作系統,每個系統處理器的數量以及系統的數量——不管是物理的、虛擬的還是基于云的——這需要一些主動性。
大數據項目大部分是基于Windows或者Linux操作系統,架構在業界標準的x86平臺服務器上的。但在一些情況下,也有一些基于大型機或者單一廠商系統架構和操作系統的實用的工具。大多數情況下,IT團隊會將業界標準的服務器使用scale-out架構做成集群,以支持需要大量計算、內存、網絡和存儲的負載。
IoT項目也趨向于包含基于單一廠家的后端系統以及大型機。
要最大化可使用的處理能力,同時減少在硬件上的總體投資,需要很好地對系統、集群和其他組件進行配置。這需要很明白企業的目標以及深入了解所選的大數據工具和NoSQL數據庫。同樣的,對于選擇與繁雜的不同智能手機、平板、汽車和從未如此擴張的其他智能設備進行通信的工具,也需要有一定的了解。
錯誤配置的服務器集群或者其他基礎架構的重大錯失(甚至選擇了錯誤的工具)都可能成為項目操作的阻礙并且導致項目失敗。
有一些后端數據分析和報告工具在一個大集群系統里面運行,有一些則通過其他小的集群來支持:一些小集群負責存儲分析需要用的原始數據,有一些小集群負責提供將原始數據處理成有用信息的工具,另一些小集群可能被用來支持將有用的信息轉換為適合的格式(表格、圖形或者其他形式),提供給分析師或者數據科學家。
IoT項目還需要增加響應客戶設備,提供需求的信息、指導或幫助的功能。企業需要熟悉這些工具的專家,以及對如何使用這些工具有很全面的了解。
為自己信任的顧問和供應商投入時間,學習對選擇的這些工具和方法進行技術支持需要什么。
對于內存、存儲和網絡的關注
僅僅增加更多的系統、內存和存儲并不總能提高IoT和大數據環境的綜合性能。不同的方法和工具需要不一樣的系統內存和處理能力。
每一種方法和所關聯的工具都有自己的限制。建設IoT和/或大數據平臺的IT規劃師需要對每一種考慮在內的工具所需要的資源進行調研,同時需要知道在資源充足的情況下他們會使用哪一種工具。
如果企業安裝了比所選工具所需更多的內存,那么這僅僅會增加能源消耗和熱量。非但不會給整體性能帶來任何幫助,反而會給數據中心能源和冷卻系統帶來不需要的壓力。
IoT和大數據平臺另一個參數是存儲的性能和容量。就像處理能力和內存容量一樣,存儲設備的選擇、存儲的專用能力和存儲的聯網方式都能對大數據產品的優化性能有幫助。在IoT技術的例子里,響應速度的快慢將直接影響到客戶是否喜歡這個企業(產品)。
就和內存和計算組件一樣,存儲的配置也必須滿足所選工具和方法的需求。不要指望簡單通過添加更多存儲,選擇更快的設備或者升級存儲網絡來得到效果。即使存儲性能增加了,但是也可能被網絡瓶頸帶來的影響抵消。
有一些大數據工具使用額外的內存能力作為數據存儲的一部分,創造了內存里的數據庫。這種方法能加速分析和報告的處理。但這是一種需要權衡的方法,因為如果系統沒有被可依賴的電力保護著,一旦失去電力則數據也會丟失。
不要被卷入任何一種存儲或者存儲網絡的炒作中。分析師會指出寄存于內存的數據庫或者閃存存儲并不會對所有情況都適合。
有一些存儲虛擬化軟件廠家,例如DataCore Software注意到了底層操作系統每一次只能處理一個單一的I/O請求。它的方式是通過增加軟件來讓操作系統能同一時間同步處理多個請求。
顯而易見的是不充分提供(underprovisioned)或者設計失敗的存儲系統會給大數據或者IoT系統帶來效果的降低。
網絡架構對于任何分布式或者集群計算工具來說都是至關重要的。它的容量、延遲和性能可以促進或阻礙這類技術。和處理器、內存和存儲一樣,網絡架構也需要細心選擇。
當大數據工具需要一些數據的時候,如果網絡沒有足夠的容量、響應慢或者對于不同類型I/O請求有偏向,那么性能就會變得很差。同樣的事情對處理IoT系統里面智能設備發出的小型、突發式的請求處理上卻并非如此。因此要對兩種類型的請求進行平衡是一種挑戰。
對于其他的組件,需要對網絡媒介特性進行調研,例如Gigabit以太網或Fibre Channel,在購買網絡之前進行成本/效益分析。
我曾經看到過一個項目,其目標是捕獲百萬級別的小型移動設備信息,并且進行分析——這是一個早期的IoT項目。這個公司發現它的網絡處理在負載的時候不夠快,因為網絡設計之初是為了管理大型數據傳輸而非百萬個小型數據請求的。