近日,百度與戴爾聯(lián)合推出百度易手機,這款手機上每個用戶可擁有100G免費存儲空間。這也引發(fā)了業(yè)界對百度大數(shù)據(jù)存儲能力的關(guān)注。百度為何能提供100G免費存儲空間,未來又將在大數(shù)據(jù)存儲方面做哪些工作。
百度技術(shù)委員會理事長陳尚義對騰訊科技解密,稱百度成立之初就開發(fā)了自己的大數(shù)據(jù)存儲系統(tǒng)。團隊云集包括谷歌、IBM、微軟等數(shù)據(jù)存儲和處理方面專家。他還透露,百度未來將開發(fā)跨數(shù)據(jù)中心存儲系統(tǒng)。
陳尚義介紹,百度每天面對海量數(shù)據(jù)。每天收集幾千億網(wǎng)頁,系統(tǒng)每天都產(chǎn)生海量日志,容量達到百PB級,需要數(shù)萬臺服務(wù)器存儲,這還不算用戶在使用百 度產(chǎn)品中自己生成的內(nèi)容(UGC)和百度客戶數(shù)據(jù),這部分數(shù)據(jù)加起來就有幾個PB,僅這些數(shù)據(jù)就比傳統(tǒng)企業(yè)的大上很成千上萬倍。并且隨著網(wǎng)頁資源增加和搜 索質(zhì)量提升,網(wǎng)頁和超鏈數(shù)據(jù)將隨之急劇增加。
百度數(shù)據(jù)呈現(xiàn)海量、高增長,結(jié)構(gòu)化和非結(jié)構(gòu)化大量并存,記錄大小差距巨大,數(shù)據(jù)一致性強弱不一,數(shù)據(jù)冷熱不均,突發(fā)事件常導(dǎo)致數(shù)據(jù)訪問波峰等特點。 與此同時,百度業(yè)務(wù)對數(shù)據(jù)存儲和處理提出極高要求。要求數(shù)據(jù)高可用、高可靠、高通量、高時效、高并發(fā)、高可擴展,要求百度的數(shù)據(jù)存儲能力和處理能力必須以 非常簡單的方式獲得擴容,以降低維護升級的代價。面對這些特點和要求,百度必須開發(fā)自己的大數(shù)據(jù)存儲系統(tǒng)。
陳尚義說,百度最早上線數(shù)據(jù)存儲系統(tǒng)時,開源系統(tǒng)還沒有發(fā)布,還由于開源系統(tǒng)的性能受限、無法充分利用機器的各種資源尤其是新硬件資源、無法為特定 的訪問模式做優(yōu)化、缺乏滿足工業(yè)界的穩(wěn)定性等諸多原因,百度不能使用開源系統(tǒng)。不僅開源的用不上,而且市場上無現(xiàn)成商業(yè)化產(chǎn)品可供百度使用,因為任何一個 廠商都沒有如此海量、如此復(fù)雜的數(shù)據(jù)。
百度一開始就自主開發(fā)了大數(shù)據(jù)存儲系統(tǒng),用于存儲網(wǎng)頁和超鏈、客戶信息和用戶產(chǎn)品、系統(tǒng)日志等海量數(shù)據(jù),支持Table、Pipe、File和KV等數(shù)據(jù)類型,滿足百度業(yè)務(wù)的流式和觸發(fā)式計算、文件存儲和訪問、低延遲、高并發(fā)的需求。
陳尚義說,在這些基礎(chǔ)上,百度還面向廣大網(wǎng)民推出云存儲系統(tǒng),在前不久發(fā)布的百度易手機上,每個用戶可擁有100G的免費存儲空間。除了給每個用戶100G的免費空間外,百度易手機上應(yīng)用和數(shù)據(jù),都是這套系統(tǒng)在背后支撐。
陳尚義還透露,為應(yīng)對上百PB的數(shù)據(jù),滿足諸多近乎苛刻的要求,百度采取了一些措施。包括開發(fā)網(wǎng)頁更新模型,將對磁盤的隨機寫轉(zhuǎn)化為批量的順序?qū)懀岣邤?shù)據(jù)的寫入速度,縮短了網(wǎng)頁數(shù)據(jù)的更新周期,提高搜索引擎等產(chǎn)品時效果性。
此外,還包括對涉及數(shù)據(jù)存儲和訪問的各個方面進行全局優(yōu)化。對訪問模式采用數(shù)據(jù)索引、緩存熱點數(shù)據(jù)、外存預(yù)讀、IO緩存等技術(shù)手段,降低在線訪問的延遲,提高系統(tǒng)的吞吐量;未來,百度還將開發(fā)跨數(shù)據(jù)中心的存儲系統(tǒng)。