當年進行普查數據處理時,對打孔卡進行打孔時的情景。
塊存儲即將走向滅亡,對象存儲在速度上優于文件存儲,而存儲級內存未來將成為服務器之上的惟一本地存儲機制,Robert Novak如是說--那么,他到底是何方神圣?
作為一名杰出的技術人員,Novak不久之前還效力于惠普服務器旗下的超大規模業務部門,而他的個人從業經歷也相當風光:2012年4月至2014年12月擔任Nexenta Systems公司系統架構主管,并于2014年在VMworld大會上公布了NexentaEdge--這是一款向外擴展存儲架構,能夠提供覆蓋大量集群的全局命名空間,同時實現全局化內聯重復數據刪除、動態負載均衡以及容量均衡等功能。
而在此之前,他還曾于2008年7月到2012年4月擔任Supermicro公司的企業級服務器業務主管。他的簡歷還包括在Sun公司的八年從業經歷,兩年效力于MIPS以及六年任職于Pyramid。再有,Novak還撰寫過《軟件定義數據中心傻瓜指南》一書,并于去年正式出版。
而從今年7月開始,他開始為自己參與的一家初創企業尋求融資,同時申請了兩項與對象存儲管理新機制相關的技術專利。
我們與Robert展開了一系列對話,希望了解他對于存儲技術的看法。當然,也希望大家樂于了解這位技術大牛的思路,并享受獲取答案的過程。
記者 Robert,為什么塊存儲即將走向滅亡?這與打孔卡之間又有著怎樣的聯系?
Robert Novak 我在存儲行業已經工作了很長一段時間。我曾經向那些大二的計算機科學學生們教授關于Unix文件系統的知識以及如何利用inodes(目前已經被更名為metadata)來追蹤文件被保存在磁盤驅動器上的哪些存儲塊當中。
在最近的工作當中,我審視了各類新型文件系統,并通過收集一切與存儲以及文件系統相關的論著來支持自己的研究任務。
而在每一部論著當中,其開頭出奇一致地以"單元記錄裝置"作為起點。絕大部分讀者朋友還很年輕,沒有經歷過那個時代;不過相信很多人都聽說過,當初IBM大型機的一大顯著特色就是使用80列打孔卡。這種卡片其實代表著一項古董級別的技術方案,也被稱為何勒內斯卡,其最早曾被用作地鐵車票。
何勒內斯打孔卡
這種所謂"單元記錄"機制的存儲能力太低,不足以在存儲設備上實現分別記錄(甚至連如今仍在使用的磁帶也存在這一問題),因此其單元記錄信息會被整理成記錄組,也就是"塊"。那么這跟我們現在討論的存儲塊有什么關系?這個嘛,塊機制可以說是何勒內斯卡所實現的第一種大型應用場景了。早在1890年,美國人口普查局就開始利用何勒內斯卡承載普查數據,而后利用分選機對這些數據進行整理與排序。
正因為如此,我才會認為我們在計算機上使用"塊"存儲機制的歷史已經長達125年。
記者 對象存儲機制是否基于底層文件存儲?這一切又是如何實現的?
Robert Novak 大多數對象存儲機制會首先將大量對象存儲為文件集合。當然,也有一部分對象存儲機制會直接在其文件系統當中立足于塊進行對象管理,不過總體來講大多數對象存儲方案以文件存儲為基礎且在文件存儲內進行空間劃分以區別元數據(包括對象名稱、創建數據以及數據歸屬等等)與數據(包括圖片、視頻、文檔)。這種分層機制可以通過以下圖片來理解:
對象存儲分層示意圖
記者 那么鍵/值存儲與直接磁盤尋址是如何改進這一存儲過程的?
Robert Novak 讓我們先來談談鍵/值存儲是怎么一回事。2013年,希捷公司公布了相關計劃以構建鍵/值存儲設備,也就是"Kinetic"驅動器。該系列驅動器于2014年,也就是一年之后正式投放市場。
有了這類驅動器,大家用不著了解磁盤本身或者驅動器上存儲塊的實際大小,甚至不需要知道數據到底被保存在驅動器上的哪個位置。
我們所需要掌握的僅僅是其中的"鍵"(在Kinetic驅動器當中,鍵最大可為4096 bit)。事實上,我們可以將鍵/值存儲看作是類似連鎖干洗店那種運作模式。大家只需要把自己的衣服送到干洗店中,交給專業人員負責清理即可。對方會讓顧客保留一份票據,其上有著與衣物相對應的編號。
幾天之后當我們重返干洗店并打算拿回自己的衣物(也就是'值')時,如果忘了帶上票據,那么服務人員的回答肯定是"沒有票據,就沒有衣物"。
鍵/值驅動器的工作原理就是這樣。只不過與干洗店不同的是,這里的票據或者說"鍵"不是由對方提供,而是我們自己針對數據所創建--當然,鍵本身需要具備全局惟一屬性。
從差異角度來看,鍵/值存儲機制意味著主機服務器根本不知道數據被保存在設備的哪個位置當中,也就是說其中不存在其它文件系統上所常見的數據關聯性。正是這種關聯性引發了塊指針重寫問題,進而導致疊瓦式磁存儲方案無法在相當一部分文件系統當中順利起效。
在鍵/值驅動器當中,數據是不具備"地址"的。驅動器的"地址"則表示為向其分配的一個或者多個IP地址。不過在使用了合適的廣播或者多播技術之后,大家甚至根本不需要了解具體驅動器的地址。我們只需要在使用數據時返回并進行查詢即可。如果換一種角度來解釋,鍵/值機制代表的其實是一種延后綁定方案。
對象存儲/塊存儲速度比較
記者 那么對象存儲機制會給使用直接IP地址的驅動器帶來哪些影響?
Robert Novak 通過在存儲設備上直接存儲對象,我們不再需要將某個對象的名稱轉譯為一組文件名集合--這些文件名代表的是元數據文件的"家族",旨在將富元數據與對象關聯起來。
其中存在著類似的包含一個或者多個文件的"家族",用于將對象表示為本質上屬于文件"片段"的單一文件或者多個文件。現在,我們可以直接實現PUT(面向鍵與值)或者GET(面向鍵)。
記者 那么對象存儲在速度表現上能否與塊存儲相媲美?
Robert Novak 與主流觀點相反,對象存儲的性能表現實際上要比塊存儲更出色。在相關模式示意圖當中,我們可以看到塊存儲已經開始通過漸進式轉變來實現更理想的數據訪問速度水平。
在早期磁盤驅動器當中,最快的訪問速度要求數據以連續塊形式保存從而保證面向磁盤驅動器的讀取操作以連續方式完成。不過隨著時代發展,相關情況也變得更加復雜,如今RAID技術的介入使得數據讀取需要跨越多塊驅動器來實現。
不過在對象存儲方面,如果大家將數據本身拆分成片段并將各片段(可能包含冗余部分)保存在多塊不同驅動器當中,那么我們就能夠在讀取數據時享受到類似于P2P種子的獲取方式,這意味著我們能夠突破入境數據通道(例如以太網端口)的傳輸帶寬極限。
記者 文件存儲機制是否會受到直接IP地址驅動器的影響?
Robert Novak 如果我所申請的專利技術能夠獲得成功,那么這方面影響將相當顯著。可以看到,如果將文件與塊以鍵/值驅動器對象的方式進行存儲,那么整個索引過程的速度將遠高于傳統塊存儲機制的實際水平。
Kinetic類驅動器上的對象存儲分層示意圖
除此之外,新型方案不會像傳統文件系統那樣在與疊瓦式磁記錄或者閃存轉換層對接時面臨諸多挑戰--這些挑戰會嚴重拖慢數據的訪問速度。
記者 您如何看待存儲業界的目前狀況?
Robert Novak 首先聲明,這僅僅是我的個人觀點而且不能代表任何業界主流廠商的意見--目前存儲行業正處于以合并與緊縮為核心的狀態之下,這是因為用戶所產生的數據總量正在大幅提升,而這種轉變已經對我們管理以及存儲數據的具體方式產生了重大影響。
很多人可能還沒有意識到,在對象存儲模式的支持下,相較于過去四五十年,我們將能夠在降低存儲容量需求的同時擁有可靠的數據保留手段。
在過去,如果大家身為CIO,那么除了不可或缺的RAID/MIRROR在線存儲機制之外,我們通常還需要以每天、每周、每月或者每年為周期為數據保留2到10份備份副本。
其中一部分副本需要保存在異地以實現地理層面的數據布局擴散,從而通過災難恢復體系應對各類環境性災難(包括颶風、龍卷風、地震或者洪水)、政治性災難(將數據遷移至海外以避免其內容被政府當局所窺探)乃至沖突性災難(例如911事件)。
對象存儲能夠實現全部上述目標,并在保證與傳統存儲相當的可靠性目標的基礎上將成本降低50%到80%。
記者 那么公有云又會給存儲行業帶來哪些影響?
Robert Novak 公有云屬于通過對象技術節約存儲空間的具體方案之一。不過它的問題在于,云環境下的數據訪問只有在WAN級別傳輸速度這一前提下才具有實際意義。換言之,如果只是用于向智能手機或者平板電腦交付數據那就比較合適,但在與面向歸檔記錄的分析應用相配合時則表現較差。
除此之外,公有云的存儲資源使用成本其實存在著一定欺騙性。對于智能手機或者平板電腦端的數據,公有云的使用成本算是比較友善。但一旦面臨大規模數據存儲需求,那么對云數據進行檢索所帶來的成本將遠高于將數據存儲在企業內部這種傳統型方案。
就短期來看,我們將迎來存儲單元數量的扁平化轉變趨勢,因為企業管理者在做出存儲設備購買決策之前會首先評估使用公有云資源的可能性,特別是在面向災難恢復以及冷門數據等存儲需求的情況之下。
他們已經購置了過量的存儲空間(旨在實現RAID性能優勢),而在進行下一波采購之后,他們首先需要想辦法將自己的現有資源充分利用起來。由于目前大多數企業都在想辦法削減可自由支配的預算,因此當存儲方面需要的預算量太過龐大時,會有越來越多的管理者決定利用云實現短期成本節約。
記者 您對于目前大型存儲供應商的合并浪潮感到憂心還是開心?
Robert Novak 從目前的合并浪潮可以看出,各大存儲廠商的管理團隊實在有點缺乏想象力。他們根本無法帶領用戶迎來一套真正的全新存儲模式。作為合并態勢的組成部分,相當一部分企業還在進行裁員--而且其中相當一部分都是真正擁有創新能力的團隊以及技術成果。
記者 那么您認為初創企業會迎來怎樣的前景?
Robert Novak 從短期角度講,初創企業的出現速度可能會有所放緩,這是因為很多投資者會將目前的合并趨勢視為一種警告。目前對此有兩種主要觀點,其一是合并的出現是因為存儲業界無法容納這么多從業廠商。
而另一派則認為合并趨勢的存在是因為大型廠商沒有實施以及改進新型技術,而當下正是向初創企業砸下投資的最佳時機。
持后一種觀點的群體相對較小,而且考慮到相關開發周期,向初創企業砸錢意味著投資者可能需要在很長時間之后才能獲得回報。
我個人真心希望能夠找到樂于在發展早期就向顛覆性市場轉型驅動企業砸錢的投資方。
記者 那您對存儲業界的未來有何看法?
Robert Novak 存儲行業將一步步擺脫SAS/SATA這類只適用于單一服務器的存儲機制。采用無狀態UDP連接機制的以太網連接型存儲設備將呈現出越來越高的智能化水平,從而處理更多必要性存儲與搜索功能。而除了引導與交換操作之外,服務器將不再使用任何本地存儲資源,甚至會隨著時間推移而徹底消除對本地存儲方案的依賴性。
惟一的"本地"存儲機制將只剩下Tier 0存儲類內存,數據在一段時間未受訪問之后將被從這里移出并復制到其它速度更慢的存儲層當中。
記者 看起來我們面臨著大量需要思考與消化的問題。而且在訪談過程中,我們不禁想到了Nasuni公司CEO Andres Rodriguez在討論對象存儲與底層文件系統時也曾給出過類似的觀點。
Kinetic類驅動器的潛在光明前景確實令人眼前一亮。當然,如果大家對于Robert的意見不甚認同或者覺得還有某些關鍵性因素未被他考慮在內,請在評論欄中分享您的看法。