為大數據和較新的快速數據架構提供基礎設施并不是一個餅干切割的問題。兩者對硬件和軟件基礎設施都有著顯著的調整或改變。
較新的快速的數據架構與大數據架構有著顯著區別,并且快速數據提供了真正的聯機事務處理工具。理解大數據和快速數據需求的變化能夠幫助你做出正確的硬件和軟件選擇。
大數據架構
相比企業在以往通常收集數據的方法,大數據是通過更大的數據容量,分析和獲得更大的洞見的過程,大部分的數據(例如,社會媒體有關客戶的數據)是可訪問的公共云。這一數據,反過來,強調快速訪問,不再強調一致性,也造就了如Hadoop這樣一系列的大數據工具。因此,架構中的如下變化和重點是普遍的:
支持內部軟件,如Hadoop和Hive,以及橫向擴展的云功能硬件,用于社交媒體或其他大數據輸入起作用的場景。
支持現有的數據架構的虛擬化和私有云軟件。
支持大規模、深度和ad hoc分析軟件,且允許數據科學家為企業定制需求的軟件工具。
大規模擴展的存儲容量,特別是近實時分析。
快速數據架構
快速數據是可以在近乎實時的情況下處理流傳感器和物聯網數據的架構。該種架構更聚焦于快速更新,會經常性地放開讀取數據的限制,直到有數據被寫入磁盤才會鎖定。無論是通過現有的、典型的柱狀圖、數據庫或從專門設計的Hadoop相關工具,采用這種架構工作的企業通常適需要對數據進行一些初始的流分析。在這一新生領域中,架構和重點的變化是很常見的:
用于快速更新和初始流數據分析的數據庫軟件。
大幅度提高快速數據存儲的非易失性RAM和固態硬盤的使用(例如,1TB的主內存和1PB的SSD);
及時的軟件約束,類似于那些舊版實時操作系統。
快速數據架構與大數據架構的融合
快速數據的目的是與大數據架構融合起來。因此,為了將這兩種方式融合起來:
數據在快速響應的快速數據和減少限制的大數據存儲之間是分離的。
該種融合架構允許使用大數據數據庫和分析工具訪問快速數據架構存儲的數據。
這是一個非常簡要的概述,典型的實現和有一系列的選擇。主要的供應商銷售各種各樣的軟件和硬件,以涵蓋所有的大數據架構和絕大部分的快速數據架構,而開源供應商涵蓋大部分相同的軟件領域。因此,快速數據和大數據的實施往往是在成本與速度之間進行的平衡。聰明的買家能夠通過增加有效的架構來獲得競爭優勢。
在快速數據領域的小型供應商Redis Labs和GridGain,大型供應商Oracle和SAP都在快速數據以及大數據兩方面發揮了重要的作用。SAP可能是快速數據工具領域更加合適的供應商。在硬件領域,英特爾對快速數據有濃厚興趣。其他傳統的大數據廠商,如IBM和戴爾在收購EMC的過程中,還沒有來得及發表就表現得很興奮。在IBM和戴爾兩者中間,EMC賺足了面子和里子,因此未來它在快速數據架構方面可能比IBM更有針對性。