問題的來源
2014年2月份,一位用戶匆匆打電話來。提到了他的網(wǎng)站每天有大量的訂單產(chǎn)生,他也用多備份備份了他的網(wǎng)站到網(wǎng)盤,但他還是比較擔(dān)心,萬一云盤有問題或停用了(百度云出現(xiàn)過這種情況),是不是他的數(shù)據(jù)就丟了?他告訴多備份工作人員,他之前的做法是,這些數(shù)據(jù)他手動(dòng)備份了好幾個(gè)地方,但是管理起來很麻煩,容易搞錯(cuò),有一次甚至直接刪除了。
這個(gè)用戶并非空穴來風(fēng),基于網(wǎng)絡(luò)環(huán)境復(fù)雜,會(huì)出現(xiàn)各種各樣的情況,如何建立起數(shù)據(jù)的容錯(cuò),糾正,關(guān)聯(lián)機(jī)制,對(duì)多備份而言是一個(gè)重要的技術(shù)問題。如果沒有一個(gè)很好的云端解決方案,用戶的重要數(shù)據(jù)備份上來后,也無法給用戶一個(gè)很好的可靠性保護(hù)承諾,備份也就失去了意義。
這個(gè)問題立即得到了產(chǎn)品技術(shù)團(tuán)隊(duì)的快速響應(yīng),在短短的3天之內(nèi),就找出了好幾套方案,其中從迅雷加盟的一位資深技術(shù)專家,提出了用Raid 5技術(shù)思想來增強(qiáng)云存儲(chǔ)的可靠性,既可以大大提高云存儲(chǔ)可靠性,同時(shí)還可以提高保存?zhèn)浞萁Y(jié)果的速度。
什么是RAID
獨(dú)立硬盤冗余陣列( RAID , R edundant A rray of I ndependent D isks),簡(jiǎn)稱硬盤陣列。 磁盤陣列是由很多價(jià)格較便宜的磁盤,組合成一個(gè)容量巨大的磁盤組,利用個(gè)別磁盤提供數(shù)據(jù)所產(chǎn)生加成效果提升整個(gè)磁盤系統(tǒng)效能。利用這項(xiàng)技術(shù),將數(shù)據(jù)切割成許多區(qū)段,分別存放在各個(gè)硬盤上。在數(shù)組中任一顆硬盤故障時(shí),仍可讀出數(shù)據(jù),在數(shù)據(jù)重構(gòu)時(shí),將數(shù)據(jù)經(jīng)計(jì)算后重新置入新硬盤中。
RAID比單顆硬盤有以下幾個(gè)好處:增強(qiáng)數(shù)據(jù)集成度,增強(qiáng)容錯(cuò)功能,增加處理量或容量。另外,磁盤陣列對(duì)于計(jì)算機(jī)來說,看起來就像一個(gè)單獨(dú)的硬盤或邏輯存儲(chǔ)單元。常見的有RAID-0,RAID-1,RAID-5,RAID-10。假設(shè)一塊磁盤的故障率為1%,那么采用最簡(jiǎn)單的RAID5也可以使數(shù)據(jù)的故障率降低30倍以上。即故障率將低于0.033%。
在這些技術(shù)中,RAID-5是一種儲(chǔ)存性能、數(shù)據(jù)安全和存儲(chǔ)成本兼顧的折衷方案。它使用的是Disk Striping(硬盤分區(qū))技術(shù)。RAID 5至少需要三顆硬盤 ,RAID 5不是對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行備份,而是把數(shù)據(jù)和相對(duì)應(yīng)的parity(奇偶校驗(yàn)信息)存儲(chǔ)到組成RAID5的各個(gè)磁盤上,并且parity和相對(duì)應(yīng)的數(shù)據(jù)分別存儲(chǔ)于不同的磁盤上。 當(dāng)RAID5的一個(gè)磁盤數(shù)據(jù)發(fā)生損壞后,可以利用剩下的數(shù)據(jù)和相應(yīng)的parity去恢復(fù)被損壞的數(shù)據(jù)。
多備份cloud 5的誕生
基于傳統(tǒng)備份價(jià)格高昂,對(duì)技術(shù)人員精力有限,同時(shí)云端備份價(jià)格低廉,并且與站點(diǎn)云端主機(jī)天然的血脈相承。我們的存儲(chǔ)研發(fā)專家組考核完技術(shù)的可行性后,立即著手于把RAID 5的思想移植到多備份智能代理模式上。
把數(shù)據(jù)按塊壓縮,劃分,加密后,往其中cloud A里寫數(shù)據(jù),同時(shí)會(huì)在其余的cloud B或cloud C寫入parity。一旦任何一個(gè)云設(shè)施數(shù)據(jù)遭遇不可抗力被毀滅時(shí),我們可以從另外的云設(shè)施調(diào)用parity來重建數(shù)據(jù)。也就是只有在同時(shí)有兩個(gè)及以上云端同時(shí)出現(xiàn)問題,才可能導(dǎo)致數(shù)據(jù)的不可用,這樣的概率有多小,恐怕工業(yè)級(jí)的6個(gè)9(99.9999%)才足以形容。
繼raid 5的模式在多個(gè)云平臺(tái)上應(yīng)用后,更多的低成本、可靠的存儲(chǔ)模式將陸續(xù)推出。