分析閃存控制器的架構(gòu),首先得了解SSD。一般來說SSD的存儲介質(zhì)分為兩種,一種是采用閃存(Flash芯片)作為存儲介質(zhì),另外一種是采用DRAM作為存儲介質(zhì)。我們通常所說的SSD就是基于閃存的固態(tài)硬盤,其采用FLASH芯片作為存儲介質(zhì)。SSD的基本組成結(jié)構(gòu)包括Flash顆粒和Flash控制器,F(xiàn)lash控制器中有芯片,負(fù)責(zé)Flash的讀寫、磨損均衡、壽命監(jiān)控等等。
Flash控制器的主要的工作任務(wù)包括三大方面:一是后端訪問Flash,管理后端Flash顆粒,包括各種參數(shù)控制和數(shù)據(jù)IO; 二是前端提供訪問接口和協(xié)議:實現(xiàn)對應(yīng)的SAS/SATA target協(xié)議端或者NVMe協(xié)議端, 獲取Host發(fā)出的IO指令并解碼和生成內(nèi)部私有數(shù)據(jù)結(jié)果等待執(zhí)行;三是FTL層核心處理。下面我們具體來介紹一下Flash 控制器是怎樣做這幾件事的。
第一,后端訪問Flash的操作內(nèi)容
后端訪問Flash首先必須提到的是閃存通道控制器。這個控制器里面有多個通道,每個通道掛多片F(xiàn)lash。它與后端Flash顆粒之間存在托管協(xié)議。數(shù)據(jù)寫入Flash的時候,除了主機發(fā)送的數(shù)據(jù)或者原始數(shù)據(jù),其他數(shù)據(jù)都必須進行ECC校驗。ECC是通用的稱謂,里面有多種算法,其中包括糾錯率較低的BCH算法,LAPC低密度校驗碼等。數(shù)據(jù)讀出的時候,通過擾碼,加擾,解擾,看ECC是否出現(xiàn)錯誤,若有錯則在糾錯后將芯片發(fā)到內(nèi)部,供后續(xù)的程序處理。因此,后端訪問Flash的主要任務(wù)即是管理后端Flash顆粒,包括各種參數(shù)控制和數(shù)據(jù)IO。
第二,前端提供訪問接口和協(xié)議
前端提供訪問接口和協(xié)議,跟主機驅(qū)動通信,利用標(biāo)準(zhǔn)格式輸配到系統(tǒng)里面,接收主機端發(fā)過來的指令,即完成、實現(xiàn)對應(yīng)的SAS/SATA target協(xié)議端或者NVMe協(xié)議端,獲取Host發(fā)出的IO指令并解碼和生成內(nèi)部私有數(shù)據(jù)結(jié)構(gòu)等待執(zhí)行。如果遵從NVMe標(biāo)準(zhǔn),包括提交命令的方法、完成命令的處理方法等都定好了,包括各種隊列、隊列深度,Queue Pair的總體數(shù)量最大可以達到64K個,隊列深度也可達64K個,所以,系統(tǒng)里同時可能存在64K×64K IO排著,但是目前的系統(tǒng)是用不到這么多Queue的,因為底下的介質(zhì)速度還不足以支撐。
第三,F(xiàn)TL層——核心層處理
核心層FTL層,是一款Flash控制器的關(guān)鍵競爭力所在。它既可以是純軟件算法,包括元數(shù)據(jù)管理,數(shù)據(jù)布局影射、磨損均衡、垃圾回收、緩存策略、片間RAID和掉電元數(shù)據(jù)一致性保障等內(nèi)容。同時,它也可以在進行重復(fù)性工作時輔以硬加速引擎。這是非純軟件的,輔有硬加速的成分在里面。硬加速涉及到所使用的芯片。有的芯片支持硬加速,比如說鏈表的維護。這是因為做垃圾回收時需要要用到鏈表,拿傳統(tǒng)的軟件算法,插入一個或者追加一些項目,所耗費的CPU周期較大,此時用硬加速并行,再加上一些硬邏輯的加速,則可節(jié)省開銷。
Flash控制器的兩種策略和方式:
現(xiàn)有的Flash控制器可采用兩種方式:一種是少量的強核心加少量硬件加速。所謂強核心就是一個核心的性能高、頻率高,分支預(yù)判、并行度、單元數(shù)量、執(zhí)行管道,各種參數(shù)都高于一般水平。核心強了以后,硬加速就不需要這么多了,可以用少量的硬加速。
另一種方式則是大量弱核心+大量硬加速。比如說16個核心,每個核心比較弱,但是能夠增加執(zhí)行的并行度,有16個并發(fā)核心執(zhí)行,跑16套處理程序,這是兩種架構(gòu)。這是一種多核心協(xié)作架構(gòu)模式,其協(xié)作方式可以是同構(gòu)協(xié)作也可以是異構(gòu)協(xié)作
1. 同構(gòu)協(xié)作就是每個核心做的事都是完全一樣的,處理的步驟完全一樣。如果你的控制器陣列里面有16個IO,有16個核心,每個核心都能處理一個IO,這是同構(gòu)協(xié)作。
2. 異構(gòu)協(xié)作則是多個核心做不同的事情。處理同一個IO,第一個IO第一步,第一個核心處理,這個核心處理完以后,把這個IO扔到下一個核心,再處理下一步,等這個核心空出來以后,處理下一個IO的第一步,這就是所謂的流水線了,所謂的異構(gòu)就是如此。
產(chǎn)品實例:PMC的FlashtecTM NVMe 控制器
這是PMC的控制器,首先它有一個片上網(wǎng)絡(luò),網(wǎng)絡(luò)承載16個CPU核心,每個核心里面有一個類似網(wǎng)卡的控制器,網(wǎng)卡連到網(wǎng)絡(luò)上,多個CPU之間連起來。簡單說就是4口路由器或者交換機連起來的網(wǎng)絡(luò),多個CPU之間連起來,此外還有硬加速模塊。另外還包括以下幾部分:
·RAM控制器,因為芯片上需要有一定量的RAM放臨時數(shù)據(jù),寫放大,讀出來寫進去,都要走RAM;
·PCIe控制器,這個是跟前端PCIe對等的控制器,IO指令從這兒接收過來;
·后端Flash控制器,通過一定數(shù)量的通道連Flash顆粒;
·加速器(包括緩沖加速器),每做一個操作,都需要有相應(yīng)的內(nèi)存,把數(shù)據(jù)拷到內(nèi)存里面,內(nèi)存的維護很費時費力。比如在X86上運行的Linux,其管理內(nèi)存時需要耗費很多的計算量。對于閃存,精打細(xì)算,必須把性能做到極致,因此需用到硬加速。
·鏈表加速器,用鏈表來記錄一些信息,哪塊空著,哪塊被應(yīng)用,這塊用軟件維護很費力,所以需要在這里作加速;
·XOR加速器,XOR要用硬加速
·最后,來看一下軟件的并行度。16個核心,PMC提供的參考的固件,當(dāng)然SSD廠商會開發(fā)自己的固件,把自己優(yōu)化的東西放進去,優(yōu)化的算法放進去。基本上包含了這么一些程序,每個IO讀的地址可能有重疊,重疊就需要有一個鎖定協(xié)調(diào),有管命令解析的,有管啟動的,有管日志的,有管磨損均衡的,有管查表的,有管寫數(shù)據(jù)的,管前端的PCIe Manager,還有負(fù)責(zé)boot loader的核心,初始化的配置,需要由它處理,data manager,這是主程序,分析IO指令需要干什么,生成一堆的后續(xù)步驟下發(fā)下去。其實每一塊都可以跑在一個核心上,同一個角色可以復(fù)制多份,充分并行。16個核心,達到16份程序并行的運行,16個流水線的Stage,這樣就可以屏蔽處理過程中的時延。