對于擁有龐大用戶數量的通信網絡運營商來說,其數據的“產量”一直都很大。電信業的數據類型,主要包括客戶信息數據(如客戶入網資料、套餐情況)、業務過程數據(如通話記錄、客戶服務記錄等)、網絡運行數據(如網絡性能、客戶終端使用情況等)。數據的量級規模需要相應的存儲技術解決方案來支撐,解決方案的能力體現為數據容量、數據處理速度和數據吞吐速率等指標。
從傳統存儲走向分布式存儲
傳統上,運營商采用關系數據庫(RDB)或數據倉庫(DW),主要處理電信業務運營過程數據、資源信息、話單記錄等結構化的數據類型。對于核心業務(響應時間在1ms之內),一般的數據容量在20TB量級,吞吐速率IOPS在20K~2M量級;對于非核心業務(響應時間在20ms之內),數據容量可能達到3PB,吞吐速率IOPS達到1K~10K量級。傳統的存儲服務器采用2~16個控制器加上最大1500塊硬盤的配置,是可以滿足這種量級的關系型數據庫應用需求的。
在移動互聯網數據業務崛起之后,原有的這些結構化數據在全部數據量中所占的比例迅速降低。運營商經常會看到,80%以上的新增數據都是視頻流、網頁鏈接、圖片、文本等非結構化或半結構化數據,也就是如今眾所周知的“大數據”。對于運營商來說,大數據蘊含著眾多的增值業務創新機會,如:存儲(日志存儲和分析、搜索服務、應用商店內容下載、視頻內容存儲等),查詢(詳單、上網記錄、投訴系統等),分析處理(在線2G/3G話單處理、WAP內容分析、SMS監控和分析、日志分析、視頻文件分析等),以及諸多數據量大、需求靈活多變、需要高聚合帶寬訪問的抽取/轉換/加載(ETL)類應用等。
但要利用大數據實現業務創新,必須重新審視存儲解決方案。如果沿用傳統的SAN方案,采用專用存儲服務器來應對數據擴容的話,需要付出高額的前期投資;而且垂直化的專用存儲管理軟件,難以讓不同的子系統之間共享存儲資源,從而降低了運營商的投資回報率。分布式存儲的引入,能夠很好地解決傳統SAN難以根除的容量和性能均衡分布的難題。典型的分布式存儲系統,采用1~2U的存儲服務器,每臺服務器帶有8~24塊硬盤,在標準的服務器機架上很容易實現性能和容量的擴展,維護也非常簡單。
此外,不同類型的數據被訪問或被處理的“熱度”是不一樣的,大量的“冷”數據并不需要很高的響應速度,如果采用可擴展性更靈活的廉價存儲方案,能夠使運營商節省大量的設備投資成本。在分布式存儲系統中,數據類型按照數據的使用“熱度”,可以分為在線、近線、離線數據,對不同熱度的數據采取不同的技術策略。例如,在線數據如虛擬化的響應時間可能在30ms以內,近線數據如媒體資訊的響應時間可以放寬到100ms以內,而云盤、歸檔、備份等相對較“冷”的離線數據,響應時間即使超過1s也仍然處在用戶可接受的范圍之內。