數(shù)據(jù)中心正在對(duì)閃存“狼吞虎咽”,但也有些“消化不良”的感覺──以上是中國云計(jì)算服務(wù)業(yè)者阿里巴巴(Alibaba)的數(shù)據(jù)中心部門首席技術(shù)專家Wu Peng,在近日于美國加州舉行的閃存高峰會(huì)(Flash Memory Summit)上發(fā)表演說時(shí)分享的實(shí)際經(jīng)驗(yàn)。
Wu Peng表示,閃存供貨商最需要關(guān)注的是降低每GB成本,以及降低閃存的功耗與延遲,并提升可靠性;他指出,大多數(shù)閃存產(chǎn)品都會(huì)提供許多小時(shí)的故障間隔時(shí)間(mean time between failures,MTBF),以及多年保固:“但實(shí)際上我們?cè)庥霾簧傩阅芤?guī)格表現(xiàn)低落的情況,因此我們正在尋找更穩(wěn)定、生命周期性能表現(xiàn)確實(shí)的產(chǎn)品。”
盡管面臨以上問題,閃存正在大舉進(jìn)軍數(shù)據(jù)中心;阿里巴巴在去年所采購的閃存量,就占據(jù)全球企業(yè)用閃存消耗量的至少1%,而且其使用量仍在成長中。阿里巴巴自五年前就開始研究閃存儲(chǔ)存方案,該公司現(xiàn)在除了采用全閃存數(shù)據(jù)中心,也在內(nèi)容傳遞網(wǎng)絡(luò)(content distribution network)以及應(yīng)用程序服務(wù)器中大量使用閃存。
去年阿里巴巴這家電子商務(wù)公司,創(chuàng)下了在24小時(shí)內(nèi)完成1.88億筆交易量,以及每秒1.5萬次交易的新高紀(jì)錄;為了穩(wěn)定跟上需求速度,應(yīng)用程序需要更多所仰賴的、關(guān)于閃存運(yùn)作情況的信息。Wu Peng表示:“故障是無法避免的,但最好是要讓系統(tǒng)在硬件將發(fā)生故障時(shí)預(yù)先得知,以判斷何時(shí)發(fā)出警告以及何時(shí)必須將數(shù)據(jù)備份。”
阿里巴巴想通過簡(jiǎn)化硬件與軟件,以方便讓應(yīng)用程序得知底層閃存的狀態(tài);這家大型數(shù)據(jù)中心營運(yùn)商希望自己處理服務(wù)開通(provisioning)以及冗余(redundancy)問題,Wu Peng表示:“如果應(yīng)用程序能知道很多信息,就能做很多事。”
在阿里巴巴近期遭遇的問題中,RAID控制器在與閃存共同使用時(shí),糾錯(cuò)(error correction)與電池備援會(huì)產(chǎn)生問題;同時(shí)Wu Peng表示,閃存供貨商太專注于提供更高速度的數(shù)據(jù)傳遞速率,卻太少關(guān)注降低延遲。
Wu Peng認(rèn)為閃存有五大問題需要改善
長期來看,Wu Peng認(rèn)為需要建立一個(gè)新的軟件編程模型,以應(yīng)對(duì)不斷變化的儲(chǔ)存層次結(jié)構(gòu)以及閃存的出現(xiàn);此外,供貨商導(dǎo)向(vendor-driven)的軟件定義儲(chǔ)存(software-defined storage)概念仍在“非常粗略的方向”,能讓數(shù)據(jù)中心滿足不同應(yīng)用的儲(chǔ)存需求。
而眾多新一代內(nèi)存如STT-MRAM與相變化內(nèi)存(phase-change memory)的崛起,也為數(shù)據(jù)中心帶來新的問題;Wu Peng表示:“有許多專利的事情被推給我們,但我們有困難去了解那些技術(shù)會(huì)失敗,以及何時(shí)是著手布署的正確時(shí)機(jī)。”
Wu Peng并邀請(qǐng)所有的供貨商擁有多樣化應(yīng)用程序的阿里巴巴實(shí)驗(yàn)室測(cè)試新產(chǎn)品:“我們有一個(gè)程序,測(cè)試可能最終會(huì)應(yīng)用在我們基礎(chǔ)建設(shè)上的新東西;測(cè)試過程確實(shí)會(huì)很漫長,但我們一直歡迎新產(chǎn)品。”