當前位置：存儲 → 企業動態 → 正文

戴爾葉毓睿：戴爾Fluid Cache for SAN實現500萬IOPS

責任編輯：editor006 |來源：企業網D1Net 2014-12-11 14:51:53 本文摘自：存儲在線

2014年12月2日，由中國軟件行業協會、中國計算機學會、武漢國家光電實驗室和國防科技大學大力支持，DOIT傳媒和存儲在線聯合主辦的中國數據存儲年度盛會—— 2014(第十屆)中國存儲峰會今天在北京盛大開幕。作為中國存儲產業的十年盛會，峰會以“掌控數據經濟·重塑商業價值”為主題，邀請超過1500位學術界頂級學者、產業精英和企業用戶出席，圍繞數據經濟和商業價值兩大話題，從云計算、大數據、軟件定義和閃存等四個技術方面舉行一系列主題演講和圓桌會議。

在下午的閃存分論壇上，戴爾架構師葉毓睿發表了題為《為應用提速!戴爾Fluid Cache for SAN實現500萬IOPS!》的主題演講，從應用的角度出發探討實現500萬IOPS這一驚人話題。以下是文字實錄：

葉毓睿：首先簡單介紹一下我自己，我叫Peter Ye，我之前是在一家Compellent存儲，公司在2011年被戴爾收購，現在是在戴爾的渠道部任職存儲顧問，支持戴爾的合作伙伴，去做一些培訓或者技術支持。

10月23號參加中國的閃存論壇，當時聽了一下有各個解決方案里面，比如說在全閃存陣列里，據說有50萬的、90萬的、100萬的、200萬的，實際當這個性能到100萬的時候，單純靠磁盤陣列內的已經很難支撐了，而且成本非常高。所以現在我們用了新的方式去突破這個瓶頸，就是Fluid Cache for SAN的解決方案。

今天我要給大家介紹的這個綱要在這里，在介紹之前我們可以先看一下什么是Fluid Cache for SAN，它的優勢以及它的場景。然后我會結合我們的實際的案例，也就是在最近的一個月的時間，由我本人親自參與的一個非常大的項目的一個POC(驗證)測試，一個很大的用戶，他也在旁邊觀察，看著測試結果。

首先我想請大家配合一下，就是今年的淘寶雙十一沒有在網上購物的請舉手。大部分都有，今年的淘寶的雙十一突破了去年，達到了571億的人民幣，我觀察了一下，它這個高峰時期的交易數在每秒8萬筆，這是最高峰期的時候。待會兒我會介紹一個實際用戶的測試案例是每秒大約在6萬5千多，雖然可能不是對等的比較，但是從量級幾乎可以達到這樣的程度。

我們在進行購物的時候可能最不能忍受是什么呢?就是當你去點頁面半天沒有出來，或者點提交的時候又在那里停止，其實這個就是它的延時過長。這樣的一個性能的問題會使客戶體驗大大降低，客戶有可能不再訪問這個網站或者去別的地方，這樣也意味著生意的流失。我們看到在這個當中會有哪些因素導致?比如低效的代碼，還有可能是基礎架構的原因，基礎架構最可能成為瓶頸的往往是存儲。為什么?我們可以看一下。這是我們看到在過去二三十年里面CPU的發展以幾千萬倍的速度發展，而存儲我們看到從原來的7200轉到15000轉，它的延時始終是在毫秒這一級，這當中有一個巨大的差距，這樣的差距就意味著存儲的性能實際上和CPU去相比較是它的一百萬分之一，怎么彌補這個差距呢?我們可以看一下。

實際上已經有一些手段和方案去彌補這樣的延時差距，比方說我們用像戴爾的存儲SC系列里面有一個很好的功能，就是頻繁訪問數據集中在外圈，不頻繁訪問的歷史數據集中在內圈，這樣就可以減少機械臂的擺動，僅此一個功能就可以使得像SATA(改成:SAS)盤等等可以提升20%的性能。還有一種方式就是一個IO寫進來，分散到所有的磁盤陣列，顯示燈同閃同滅，它突破了以前的局限性，可以使得性能隨著磁盤增加而提升。再就是自動分級，后面還會詳細講自動分級。

所以看到有一些相應的對癥下藥的方案，接下來我們可以看一下在后方存儲部署快速的閃存盤，早些時候我們需要300多塊盤才能堆出9000個IOPS，當我們把SSD用起來，放到我們的磁盤陣列里，像全閃存這樣的陣列。一塊盤有讀有寫的情況下大概到8000個IOPS，這個性能已經提升了很多，能耗降低了很多。但是這還不夠，那么這樣的方式我們需要注意什么呢?那么它的成本到底多高，壽命怎么樣，現在出現了很多SSD，但是市場主流使用的是SLC和MLC，一個是寫密集型，一個是讀密集型的盤。寫密集型SLC的壽命可以達到30萬次的全擦寫，讀密集型MLC可以達到3萬次。基于這樣的一些東西，戴爾的存儲SC系列采取了一個非常好的辦法叫做讀寫分離，怎么做呢?我們可以讓這些新寫入的數據或者修改的數據都存放在寫密集型盤，然后定期會遷移到讀密集型盤，這上面的數據只能被讀，這樣就使得讀密集型盤只有3萬次的壽命的局限性被規避了，寫都是在寫密集型盤完成，這個也是存儲界，僅僅戴爾的SC系列才有。

比如像6塊400G的SLC，加上6塊1.6TB的MLC，我們可以提供12TB的SSD性能，但是比純粹用SLC的方式大概下降到三分之二甚至二分之一。這些都是我們考慮的對癥下藥的一些手段。

實際我們這邊給出一個案例，就是應該是在上半年，我們已經成功落單了一個案例，我們和SAP HANA的集成案例。最早的時候它原有的系統要做分析，做BI分析需要兩個小時才能出結果，然后在計算過程中經常發生中斷，但是全閃存陣列以后20秒以內就可以出來了。

前面講的三個技術還不夠，只是部分解決了從存儲到CPU的鴻溝。現在來看一下我們還有什么方式，我們探討一下為什么會出現這種情況，其實在后面講有一個好處，之前都已經介紹了，就是因為IO延遲比較長。我們可以看到一個IO從服務器產生寫到磁盤陣列里，要經過內存CPU，還有光纖，還有前端卡到內存，再到存儲的后端的SAS卡等等，經歷10個環節甚至更多，所以IO延遲非常長，即使吞吐的帶寬大，但還是幫助不了，還是要走這些環節，延遲一定在毫秒級。

PCIe SSD性能很高，延遲更是能縮短到微秒級。但是PCIe SSD也面臨挑戰，比如這個服務器插了幾塊PCIe SSD，如果沒有用完，其他的服務器又沒有PCIe SSD的時候可以共享使用它的空間嗎?當PCIe SSD的服務器出了問題，或者就是PCIe SSD的設備本身出了問題，那么你的數據是不是能夠很好的保護起來?你的業務是不是能夠不中斷?還有你的方式是只為寫入進行加速和只為讀進行加速，或者兩者都可以進行加速嗎?再一個我現在已經把PCIe SSD插好了，比如有兩塊總共800G的容量，如果容量不夠可不可以在線擴容，應對應用規模不斷增長。

實際上我們有一個很好的方式來解決，就是我們會創建一個高速的共享閃存層，叫做FAN(Flash Area Network)，這個高速共享閃存層簡單講就是我們的PCIe SSD能夠把各個服務器所內嵌的PCIe SSD納入到一個全局的虛擬緩存池里面，而且在這個緩存池里面去做數據的保護，而且這個緩存池可以共享使用，可以動態的擴容。但是這個還不是最重要的，最重要是什么?我們這個數據放在服務器里總覺得數據不夠安全，還是覺得數據寫到磁盤陣列才是最安全。所以我們和后端的存儲機緊密集成在一起，數據最后會到磁盤陣列上的。這里就提到了前面也有一些朋友提到的技術，為什么要提到PCIe SSD呢?其實也是因為有了RDMA，才幫助到我們在虛擬緩存池做這樣的數據保護。戴爾網絡交換機S4800就是0.8微秒，我們寫到服務器的PCIe SSD，我們的PCIe SSD會立刻復制到另外一個服務器的PCIe SSD，就是用的RDMA的技術，這樣一來一回反復確認，總的延遲不會超過5微秒，這樣的延遲會使前端服務器感覺好象就是在本地進行讀寫，本地就進行反饋確認了，非常快，把整個的IO延遲從毫秒縮短到微秒級。

那么我們這個Fluid Cache for SAN解決方案的特點是什么?首先它主要是針對OLTP在線交易和VDI，重點是提供低延遲，非常小的延遲。然后通過數據靠近計算，同時做到什么呢?從服務器一直到后端存儲都沒有單點故障，可以有效把數據保護起來，在任何一個時刻都至少會有兩份數據。而且不只是說讀加速，我們還可以為寫進行加速，因為我們支持回寫(也即Write Back)的緩存技術，就是IO不是一定寫到磁盤陣列才反回去。我們使用單個界面，可以把Fluid Cache管理起來，可以動態的在線增減SSD設備，或者在線增減服務器節點。通過這樣同樣的單一界面也可以把后端的存儲管理起來，只需一個界面就可以管理，也不會因為多家的廠商的整合需要找不同的維護人員。我們還是一個開放性平臺，可以兼容其他的硬件，比如在我們這個PCIe SSD里面實際有兩種角色，一個是高速緩存服務器貢獻者，就是插了SSD盤的一些服務器節點，還有一些沒有插SSD的叫高速緩存服務器客戶端，對高速緩存服務器客戶端這樣的角色可以不用戴爾品牌的服務器，可以用其他品牌的服務器。最近的測試就把華為的服務器放進去測試，同樣也可以為它的數據庫進行提速。包括網絡交換機也可以支持其他品牌。

我們來看一下它的拓撲圖，常規狀況下我們的使用就是前端有各種各樣的服務器，有些可能是做集群，這些服務器都集中去訪問我們的共享存儲的邏輯卷，原來是直接訪問。如果是Fluid Cache for SAN一開始我們會先架設一個專有的高速的網絡，這個網絡通常就是由比如說前面提到的S6000或者S4800的交換機，還有服務器里插Mellanox網卡，一起就構成了一個私有的高速網絡，在這個網絡利用RDMA的技術使得一個服務器可以很快讀寫另外一個服務器節點上SSD的數據。如果服務器作為貢獻者，需要配置PCIe SSD。其他品牌的服務器，盡管它不能成為貢獻者，但它同樣能享用高速緩存池來提升性能，我注意到前面一個講座也提到了，大概是10：9，就是如果有貢獻者可能可以跑到100萬，那客戶端可以跑到90萬，因為它的延遲確實非常短，只有微秒的延遲。

再來看一下，這時候我們就安裝這個流動緩存的軟件，接下來做的是什么?就是單一管理界面里面，把原來我的服務器和存儲映射的邏輯卷，把這個邏輯卷映射到高速緩存池，經過映射完之后，這些邏輯卷就會被迅猛地提速，而且它提供靈活性，不是說你存儲的一百個邏輯卷都提速，而是有選擇的，那些邏輯卷希望被提速的，才通過映射放到高速緩存池上，有很大的方便。

我們這個方式和其他的解決方案的最大區別在哪呢?首先其他解決方案到目前為止通常還是停留在這個階段，雖然在服務器可以支持PCIe SSD，但都是各自為政，沒有形成一個Cache Pool。但我們可以，Cache Pool可以被大家共享使用。即便沒有插PCIe SSD的節點，比如華為或浪潮的服務器，或者可能原來老舊服務器，也可以利用這個Cache Pool為應用提速。

最后我們這些數據是和磁盤陣列緊密結合在一起的。數據都會每隔一段時間會Flush(刷新)到磁盤陣列上，讓它真正落地，形成數據保護。它有什么優勢?我們總結一下。

比如說我們可以靈活的去組織多個服務器，構成不同的高速緩存池，一個存儲可以支持多個不同的緩存池，或者一個緩存池可以有多個存儲。一個緩存池(也即Cache Cluster)里的多個服務器節點，可以規劃出不同的子集群，為不同的應用或者應用集群提速。不僅為讀進行加速，還可以為寫進行加速，第一次寫就加速。現在這個，是戴爾的服務器帶來的一個獨特的優勢，我們可以在服務器的前面板通過獨有的技術把2.5寸的PCIe SSD進行熱插拔，后面的案例分享就有，在線增減SSD設備。

第四個優勢也是很獨特的，當我的后端的磁盤陣列要創建一個保護點的時候，為了確保數據的一致性會發出一個請求，告訴流動緩存軟件，讓它把尚未刷新到磁盤陣列的虛擬頁先刷新到磁盤陣列，刷完之后再創建保護點，這樣在那個時間創建的確實是你要的數據，沒有數據丟失或者一致性的問題。這個也是目前為止我們獨一無二的優勢。

2013年12月的時候邁克爾.戴爾親自演示了這個解決方案，他可以冒這么大勇氣也是因為很自信，因為那么多參會的用戶和媒體記者，當時演示就是8臺的普通的兩路服務器R720，每個都插PCIe SSD，然后后面接SC8000，穩定地跑到了517萬IOPS，延時不到6毫秒。我們經過測試8臺的服務器的集群可以使得原來的Oracle延時縮短到1%，如果是SQL縮短到14%，提升是很可觀的。那使用場景包括OLTP和ERP等等。包括在一些基礎架構云平臺里面，這是所列出來的一些行業，如金融、政府、醫療、教育、制造、零售等。

接下來是最近我們做的測試，給一個超級大的用戶，他想觀察我們的流動緩存，首先我們測試一個節點的情況下，可以跑到42萬IOPS，這個跟剛才我們前面Intel介紹的都差不多，就是400多K左右，一個節點只看一塊PCIe SSD盤，如果一個節點放兩塊還可以提升，大概可以提升到60多萬個IOPS，延時不到0.3毫秒。再增加一個節點可以線性增加到85萬IOPS，延時仍然不到0.3毫秒，再增加一個節點可以達到122萬IOPS，延時大概在0.3毫秒。如果放兩塊SSD，每個節點就是60萬的IOPS。這個可能大家覺得不夠信服，現在來給你們看一個模擬用戶實際應用的場景。

用戶的需求是做大規模的并發定發，比方說他希望在2000萬條，這怎么分配?是200個并發用戶，每個用戶執行10萬次提交，就是先查A表，這個A表是十多億條記錄的表，B表是二十多億條記錄的表。每一次查就是一個10多億的表，相當于全表掃描，然后再插入到B表。這里比一次性5000條記錄提交或者10000條記錄再提交的要求更苛刻，這種情況下用戶當時期望是什么?就是時長不要超過一個小時，延時平均響應時間不要超過40毫秒。在這里，我特別強調延時，這是因為，用戶的使用場景有點類似網上購物，需要買到各個設備是測試之后延時最短的，因為他要保障他的IO從CPU產生到最后落地到盤里，再返回確認給CPU，整個延時要非常短，各個環節要盡量的壓縮延時，又為了確保數據的真實，所以提出了200個并發用戶，查10萬次，而不是一個用戶。所以我們看到友商的高端存儲是用了75分鐘，延時是85毫秒。那我們沒有用流動緩存，僅僅用戴爾的一個兩級閃存技術，就是讀寫分離的這種方式，我們測到2000萬只用了47分鐘，27毫秒。所以對這個成績我們很受鼓舞，就繼續加大它的量，5000萬條，我們用了500個并發用戶，用戶要求并發運行，這時候我們只用了66分鐘，時間稍微超一點，但延時是在40毫秒以內，每秒鐘的交易是12500，這個是我們用的業內知名的Benchmark Factory的工具，這是工具截圖，延時僅38毫秒。后來我們起用流動緩存，我們用的5個節點的，非常驚人，用戶大受鼓舞，延時才6毫秒，時間僅僅是12分鐘。可以看到每秒的交易數可以達到6萬5千多筆。前面提過，淘寶是每秒8萬多筆，雖然不是對等的比較，但是數量級相差不大。我們還沒用到8個節點，只用了5個節點。我們算了一下和我們自己全閃存比較都提升了五六倍，無論從時間還是延時，剛才的毫秒是38，到這里只剩下6毫秒，提升了6倍以上，IOPS從一萬多到六萬多，時間從66分鐘到12分鐘。

我們想乘勝追擊，繼續考慮一億條的記錄，這時候用的更多并發用戶了，1000個并發用戶。要知道，這么多用戶，IO爭用會導致延時的增加。但是也還不錯，半個小時，延時只有16毫秒，TPS稍微低一點，但也有5萬多，所以用戶已經決定購買我們的存儲。

除了剛才看到的驚人的IOPS值和延時縮短外，還有很多特點我們做了測試。比如在線增加SSD設備，我們在線增加了第二個SSD設備，除了Cache Pool有動態擴大外，IOPS從44.2萬提升到了60.9萬，而且延時還減小了，從0.29毫秒降到了0.2毫秒。包括在線增加節點，這里特意找了一個異構服務器，就是一臺華為服務器，從合作伙伴那里借了一臺華為服務器，這里顯示的這個空間給Cache Pool貢獻的都是0，因為它只是做為客戶端。我們動態的增加進去，也增加了一些戴爾服務器，作為貢獻者服務器增加，也即含有SSD設備，都可以讓Cache Pool容量增加。相應我們仍然測了很多數據，當時用了200個用戶并發跑在這個服務器上，這個其他品牌的服務器仍然享有被提速的好處，達到兩萬多的TPS的值。

實際上流動緩存是戴爾現在非常先進的技術方案，到目前為止還沒有其他的解決方案可以比這個方案更先進，由于我們采用的是自己的服務器、網絡交換機以及存儲，所以當用戶選用的時候不會因為不同方案的組合出現售后問題扯皮現象，而且一個界面可以管理，非常簡便。

流動緩存也是屬于戴爾的軟件定義存儲的眾多方案之一，為什么這么說呢?首先戴爾其實它的一個理念是什么?沒有說一個軟件定義存儲的軟件或者產品可以適用于所有的場景，而是根據用戶不同需求推薦。像這種超高性能一定是推我們自己的知識產權的，然后在一些虛擬化場景有可能推PS系列，或者PowerVault MD等等這些方案。但是在高性能這部分一定是這個方式，而且流動緩存的未來的潛力還非常巨大，因為之前它是通過我們收購的一個RNA演進過來的，RNA可以兼容所有的服務器，它甚至可以全局虛擬化每一個服務器的內存，只是說現在出于成本考慮有沒有必要現在就做。而且它還能夠虛擬化每一個服務器節點的SAS盤，所以它未來的發展潛力還很巨大，很有軟件定義存儲的特征的。

我們大致做了一個分類，現在進入到全閃存時代，大家聽說過比如兩年以后單位GB的固態盤可能低于SAS盤，這樣一個時代怎么應對不同的性能負載的需求?比如5萬以內IOPS，戴爾存儲MD系列或PS系列可以考慮，或者是IOPS在數千個到數十萬個，我們會推薦戴爾存儲的SC系列。當然在數十萬以上的IOPS還有一個選擇就是流動緩存，與其在磁盤陣列里堆幾百個固態盤，還不如去結合前端的PCIe SSD的技術，這樣的話有可能單位IOPS的價格會更低，這是在這個區間的處理，這是戴爾的解決方案。

額外再提一句，我們經常聽到兩年以后單位的GB的固態盤價格可能低于單位GB的SAS盤。但如果使用戴爾的解決方案，現在就能實現。為什么?我們對全閃存陣列的有不同的看法，我們認為全閃存陣列現在很好，可能很多用戶需要，但是用戶買的時候就覺得成本很高，怎么辦?應該是可以支持混合陣列的方式，全閃存可以和客戶端的一萬多轉或者7000轉的盤有機融合，數據可以流動。你全閃存的話是在這，如果是讀寫分離系列價格可能會降到三分之二或者二分之一，很多歷史數據顯示沒有必要放全閃存盤，再結合7200轉的盤就可以變成這個綠色的線，可以比純粹的15000轉的配置還要便宜，而且性能是全15000轉SAS盤的幾十倍。現在就可以以磁盤價格獲取閃存性能，前提是全閃存可以支持與后端機械盤做混合，否則就變成兩個孤島了。

再來看一下我們的閃存最近在幾個月里的捆綁的銷售包，比如說戴爾存儲PS系列，我們如果是用它的PS6210XS，是用的9個800G的，17個1萬轉的SAS盤。這個價格可能在幾十萬，二三十萬，具體要跟銷售聯系。如果是像能夠采用流動緩存的只有10%的用戶，剩下90%的用戶如果想用高性能負載，考慮預算控制的時候可以考慮SC 4000這個產品，比方用6個400GB的SLC加6個1.6TB的MLC，支持三千個虛擬桌面的用戶，達到95000個IOPS，如果需要擴容還可以增長12塊，仍然是2U高，里面雙控和24塊盤全都包括了。當然還能繼續擴展到更多盤箱。如果純粹是6+6價格不會超過60萬人民幣，所以相比其他友商的全閃存常常超過100萬的成本來講，戴爾SC4000是非常好的選擇。

最后總結一下就是我們的流動緩存的優勢，數據靠近計算，不存在單點故障。不僅對讀加速，還對寫加速。還有一個就是使用單個界面，可以在線增加節點，比如從5個到8個節點，或者在線增加SSD設備，而且配制靈活，可以選擇某些卷加速，某些卷不加速。都可以統統在一個大的Cache Pool里提速，而且我們兼容其他的硬件。

今天我這部分就到這里，謝謝大家!

相關資訊噱頭？淺談PCI-E 3.0和SSD硬盤的那點事噱頭？淺談PCI-E 3.0和SSD硬盤的那點事再掀閃存熱英特爾發布三款PCIe閃存卡再掀閃存熱英特爾發布三款PCIe閃存卡閃存2.0加速數據中心存儲變革閃存2.0加速數據中心存儲變革2毫米等于1TB容量！Intel黑科技新3D閃存2毫米等于1TB容量！Intel黑科技新3D閃存從存儲軟件到軟件定義存儲的演繹史從存儲軟件到軟件定義存儲的演繹史Memblaze基于PMC Flashtec NVMe控制器推出最新一代閃存加速卡Memblaze基于PMC Flashtec NVMe控制器推出最新一代閃存加速卡Host-Based和Device-Based閃存卡走向融合存儲專欄：Host-Based和Device-Based閃存卡走向融合IT雙日談：“大”有所失 “小”有作為IT雙日談：“大”有所失 “小”有作為英特爾將推出32層256Gb 3D NAND閃存顆粒: 10TB SSD不是夢英特爾將推出32層256Gb 3D NAND閃存顆粒: 10TB SSD不是夢3300MHz DDR4內存面市高頻DDR4普及在望3300MHz DDR4內存面市高頻DDR4普及在望

關鍵字：PCIE 戴爾 IOPS