十年鏈家網,S3終回歸
“現在,鏈家網存儲服務承載的總文件數量已達8270萬+,房屋實堪圖占66%,其他圖片占15%,音視頻占13%,文件備份占4%,其他類型數據占2%,總存儲容量43TB。”2016 AWS北京峰會上,鏈家網平臺服務架構師呂毅分享了最新的存儲服務相關數據。不過時至今日,這些數據或許又會有變化了。
事實上,早在2007年,鏈家在線(鏈家網前身)、HERP系統就已上線運營,到2008年“樓盤字典”項目啟動,2012年提出“真房源”,SE(Sales Effectiveness)、TE(Transaction Effectiveness)系統上線,“掌上鏈家”App發布,近六年時間,鏈家網存儲架構采用的一直是傳統文件系統。
隨著業務線不斷擴展,數據量不斷增長,傳統架構中存儲服務的瓶頸日益凸顯。2014年,更名的鏈家網明確了大力發展2C業務、著手自研究SE、TE系統的業務思路。其間,存儲架構經歷了從傳統文件系統到輕量級開源分布式文件系統FastDFS的變遷。再后來,鏈家網又選用了開源分布式文件系統Ceph,直到2016年,SE、TE合并為Link系統,“樓盤字典”積累了7000萬房產信息,更多的UGC、PGC內容產生,AWS S3終擔重任。
鏈家網存儲架構變遷
十年鏈家網,S3終回歸。巧合的是,2015年,鏈家網開始啟用AWS時,S3也已十歲了。呂毅表示,在大家熟悉的AWS S3能力之外,鏈家網對S3服務進行包裝后實現了更多的能力:采用Huge Bucket統一管理公司內部Bucket、使用數據庫存儲文件Meta信息供檢索、非常劃算的冷數據存儲、代理S3服務讓用戶可在S3能力上封裝公司通用邏輯……AWS S3為用戶提供了足夠抽象的能力,方便企業、個人基于S3通用能力之上進行改造與包裝,這些方面也都是鏈家網選擇AWS的重要原因。
選擇S3的N個理由
開源商用領域,Ceph一直是分布式文件系統的熱門選項。然而,并不是所有人都有時間和精力玩兒轉Ceph,尤其是在競爭激烈,業務瞬息變化的房地產市場,時間窗口是橫亙在所有市場行為主體面前的一座大山。
時不我待,千言萬語一個字:“快”!呂毅坦言,鏈家網在使用Ceph的過程中遇到了容量、運維、數據備份等方面的問題,各種因素疊加,反而推高了綜合成本,因此下定決心改造系統。
容量不夠、運維成本高、數據備份堪憂……使用Ceph過程中遇到的問題恰恰是S3用戶不需操心的事,容量規劃、存儲管理、數據備份,S3統統能輕松搞定,更無需硬件維護。此外,S3具備高達11個9的持久性,可讓長期數據留存“高枕無憂”。
鏈家網基于AWS S3的存儲架構
存儲架構改造過程中,不可避免地會遇到這樣那樣的問題。呂毅表示,以鏈家網自身的實踐經驗看,數據存量與增量問題、業務方遷移成本是兩個主要問題,相信這也是很多用戶面臨的共性問題。恰好在這些方面,AWS都能提供高均衡度的解決方案。“2015年底,鏈家網剛開始采用AWS服務時,EC2和ELB只承擔了外網20%的負載,本地數據中心和云通過AWS Direct Connect連接。現在,主備中心已經對調了位置,云端已承載了近80%的外網負載,并引入S3和數據倉庫服務Redshift,高效、可靠、安全地整理數據資料。”呂毅表示。
下一個十年,鏈家網又將經歷怎樣的變革之旅?搭上了云快車,未來充滿想象和期待。