在網上,IBM提供了一個例子,32核心系統如何使用BLU技術,可以在不到一秒鐘的時間內對一個10TB的數據集執行查詢。“在10TB之中,你[可能]只有25%的數據交互用于日常運作。你只需要保持這25%的數據在內存之中,” Vincent說,“你今天可以以低于35,000 美元的價格買到一個擁有1TB的RAM和5TB固態存儲的服務器。”
此外,使用DB2可以削減運行一個單獨的數據倉庫的勞動力成本,可用的數據庫管理員通常都比數據倉庫專家要多。
在某些情況下,它甚至可以作為一個更易于維護的替代Hadoop的數據處理平臺,Vincent說。新的技術之一的壓縮算法,能夠以這樣的一種方式存儲數據,即在某些情況下,數據的讀取無需首先進行解壓縮的工作。
Vincent解釋說,數據壓縮的順序就是它的存儲一致,這意味著謂語操作,如添加 Where子句的查詢,不用先行解壓縮數據集就可以執行。讓數據在整個分析過程中保持壓縮狀態,能夠大大縮短分析所需要的時間。
節省時間的另一個訣竅:該軟件保存一個元數據表,其中列出了每個數據頁或每列的數據高低關鍵值。因此,執行查詢時,數據庫可以檢查,看看是否有任何尋找的值在數據頁上。“如果該頁面不在內存中,我們并不需要將其讀入內存;如果它是在內存中,我們不必把它通過總線帶到CPU,并燒毀CPU挨個分析頁面上的所有值,”Vincent說,“這使我們能夠更有效地利用我們的CPU和帶寬。”
通過柱狀處理,查詢可以只拉進在數據庫表中選定的列,而不是所有的行,那樣將會消耗更多的內存。Vincent表示:“我們已經開發出了一種算法,對確定哪些列和列的哪些范圍你想要緩存到內存中非常有效。”
在硬件方面,軟件自帶并行向量處理的能力,這是一種發出一個單一的指令到多個處理器的方式,采用SIMD(單一指令多數據流)指令集,可用在英特爾和PowerPC芯片。因而該軟件可以運行一個單一的查詢針對多列,可以分析跨處理器的并聯數據,系統可以放在寄存器。“寄存器是系統內存利用方面最有效率的。”Vincent說。
據悉,在測試過程中,結合使用BLU加速的創新功能,很多查詢功能在單項分析負載中運行速度比以往要快到1000倍以上。
在研究新的途徑將大型數據庫塞入到服務器內存的道路上,IBM并不孤單。上周,微軟宣布它的SQL Server 2014也配備了多項新的技術,統稱為Hekaton,包括以最大限度地利用運行內存,以及借用Excel的PowerPivot技術的柱狀處理技術。
Monash Research的數據庫分析師Curt Monash指出,隨著IBM DB2 10.5版本的發布,Oracle現在是唯一一個沒有真正的柱狀處理能力的主流關系數據庫管理系統(DBMS)供應商。
IBM自己使用DB2 10.5的 BLU組件作為DB2 SmartCloud基礎設施即服務(IaaS)的基石,以增強數據報告和分析工作的能力。
另外,BLU技術還可以插入到IBM其他的數據存儲和分析產品,比如Informix。