今天有點時間,去老地方轉了轉,發現在Pure Storage領頭的全閃存陣列初創公司的猛烈炮火下,大廠已經亂了陣腳,形勢一片混亂。
存儲在線專欄文章:這兩天忙參加HCC,沒有關注其他新聞。今天有點時間,去老地方轉了轉,發現在Pure Storage領頭的全閃存陣列初創公司的猛烈炮火下,大廠已經亂了陣腳,形勢一片混亂。
首先是前段時間思科宣布,由于質量問題,全閃存陣列Whiptail(收購后改名Invicta)暫停出貨。
這兩天,EMC說XtremIO的軟件從V2.4升級到3.0,需要破壞性升級,網上咋開了鍋。
今天,NetApp急忙發布了一個半成品FlashRay,只有單控,不支持Scale out,為啥這么猴急?
大廠們,別亂了陣腳啊,Hold住!
啥,Hold不住,趕快求助Hold住姐啊。
閃存相關架構太新,對存儲的架構設計師是一個巨大的挑戰。總是到大量使用的時候,發現原來的底層設計考慮不全面,需要破壞性的升級。
在分享XtremIO的升級問題之前,我們先來看兩個定義。
NDU:Non-Disruptive Upgrades (非破壞性升級)
DU:Disruptive Upgrades(破壞性升級)
DU一般指影響到業務運行的升級,最少需要停機,嚴重的需要數據刪除,然后再從備份恢復。
因此,針對關鍵業務,NDU是一個重要特性。也是高端存儲區別與其他存儲非常關鍵的特性。
EMC在去年GA XtremIO產品的時候,承諾系統的可靠性很高。NDU是其承諾的一項(見下圖第3點):
"XtremIO eliminates the need for planned downtime by providing non-disruptive software and firmware upgrades to ensure 7×24 continuous operations."
但是,XtremIO最新發布的軟件版本XIOS 3.0,居然要求用戶采用DU升級。因此,用戶憤怒了,競爭對手也幸災樂禍。
EMC內部人士Virtual Geek在其博客中解釋了為什么需要DU升級的原因,下面有很多用戶或者競爭對手的反饋,建議存儲的架構師好好看看,絕對漲姿勢。文章很長,文后有鏈接,西瓜哥簡單說一下概要。
Virtual Geek說, XtremIO 2.4->3.0的DU升級其實不奇怪,業界經常發生。一般來說,存儲軟件的數據布局結構層或者元數據映射層有一個發生改變,就很難保證NDU升級了。
而XIOS 3.0在這兩個層面都發生了變化,在數據布局結構層,原來的重刪塊是4K大小,現在調整為8K。而在元數據映射層,由于引入在線壓縮的功能,因此這層也發生變化。
重刪的塊從4K調整到8K,據說是為了減少元數據的數量。大家知道,XtremIO是采用內存計算的方式,元數據都在內存里,隨著Flash容量越來越多,元數據膨脹太快了。
西瓜哥認為,XtremIO才發布半年,就需要這么傷筋動骨的改動,這些教訓,希望各位存儲架構師要吸取,預見性要做足一點。
Virtual Geek舉了一些DU升級的例子:
EMC的CLARiiON和VNX都有過ND升級的情況,比如Rockies update。
NetApp從ONTAP 7-mode升級到c-mode。
VMWare從VMFS-3升到VMFS-5。
很多初創公司,宣傳NDU前,其實已經多次DU過了。
一個中心思想,軟件為了提高性能,增加新功能,動了上面的說的數據布局層和元數據映射層,DU就是必須的了。當然,可以采用版本向下兼容,但這樣做難度很大。
Virtual Geek也讓大家放心,這種DU升級不會很頻繁。從XtremIO這兩年的路標來看,要增加動態scale-out功能(現在做不到動態負載均衡),遠程復制功能,甚至升級到haswell硬件平臺和以后的新平臺都可以保證NDU,不需要DU。
當然,用戶可以選擇不升級,但西瓜哥認為這個不現實。不升級沒有新功能,而且以后廠商也很難維護老版本。
如果是VMware環境,可以考慮用vMotion功能來規避業務宕機。
從后面很多反饋來看,大約有以下觀點:
XtremIO的用戶或潛在用戶:很生氣,后果很嚴重。銷售騙了我們,告訴我們可以NDU的,嗚嗚,其實已經是你們第二次DU了,你賠,你賠......
Pure Storage:我們的架構沒有這個問題,我們GA以來,都可以NDU的
NetApp:我們也沒有這個問題啊,我們從ONTAP 7.x升級到8.x都可以NDU的啊。那個從7-mode升級到c-mode,那是兩個平臺切換好不好,不是版本升級
......
哎,XtremIO,這個屁股不好擦啊。
說完EMC,我們再來看NetApp的FlashRay。
FlashRay的定位以前和大家分享過:
這個產品已經跳票,推遲發布了。但今天NetApp還是沒有Hold住,發布了一個半成品,來應對Pure Storage等Startup公司的競爭。
為啥西瓜哥說這是一個半成品,因為現在只能支持單控,也沒有提供scale-out功能,關鍵業務誰敢用。
不過,FlashRay有幾個特點,也應該是亮點吧:
支持變長重刪和壓縮,而且號稱粒度是byte級別壓縮
采用cMLC,這是除HP 3PAR外,第二個大廠采用cMLC
新的OS號稱從頭設計,名字叫Mars(火星) OS,又是一個來自星星的你。據說底層數據保護還是采用閃存優化的RAID-DP。但沒有說是否還采用WAFL,這個NetApp成名的武器。WAFL的原理其實大家都清楚,最大的特點就是Write Anywhere,也就是磁盤轉到哪里就寫到哪里:
但和其他的日記文件系統一樣,當容量比較滿的時候,需要尋找新空間,做類似閃存FTL層類似的垃圾收集工作,性能會有影響。WAFL經過NetApp十幾年的優化,在機械盤時代無人能及,成就了NetApp的NAS性能。但在全閃存時代,WAFL這些針對機械硬盤的優化,幾乎毫無價值,因為Flash不在乎你寫是隨機的還是連續的(這也許FAS不把閃存作為主存而是只做Cache的原因吧?)。
也許這是Mars OS老跳票的原因吧,確實需要從頭設計。
但目前的FlashRay發布太倉促了吧?會不會造成類似EMC的DU問題?
看來,Pure Storage等來勢洶洶,大廠們有的Hold不住了。在國內的市場上,西瓜哥也看到有些場合,本來是傳統高端存儲的地盤,但為了搞差異化,大廠的銷售紛紛用自己的全閃存陣列去替換自家的高端存儲,是否相煎太急?
看來,相對傳統的高端存儲市場,全閃存陣列的可靠性還是有不少距離啊。新架構必然要經歷這個過程,大家都理解,只是希望宣傳的時候不要太激進。作為用戶,也應該冷靜看待新產品的宣傳。記得以前做金融入圍的時候,大行有一個入圍原則,這個架構必須是市場使用過3-5年后的架構,當時就覺得太保守了吧,不給新廠商和新產品機會。現在西瓜哥似乎比較理解這些原則了。
好,今天隨筆就分享到這里,西瓜哥水平有限,觀點也許比較尖銳,僅代表個人觀點,各位大廠粉絲,歡迎技術攻擊,人身攻擊的不要。