根據Cisco預測,2010-2015年,全球移動數據流量將激增26倍,將達到6.3EB/月;寬帶IP數據流量將達到80.5EB/月。
數據的快速增長帶來了數據存儲、處理、分析的巨大壓力,大數據技術的引入,不但滿足了系統功能和性能的要求,帶來良好的可擴展性,降低了IT部署的成本,此外它還拓展了數據智能分析的應用領域。大數據技術成為當前面臨快速變化、數據爆炸時代的企業提升競爭力的有力工具。
大數據:云計算的延伸
什么是大數據?根據維基百科的定義,大數據指難以用常用的軟件工具在可容忍時間內抓取、管理以及處理的數據集。大數據的顯著特征包括:Volume 數據體量巨大;Variety 數據類型繁多,包括結構化數據以及非結構化數據如網頁、日志、視頻、圖片等等;Velocity要求的處理速度快。
大數據技術與云計算的發展密切相關,大數據技術是云計算技術的延伸。大數據技術涵蓋了從數據的海量存儲、處理到應用多方面的技術,包括海量分布式文件系統、并行計算框架、NoSQL數據庫、實時流數據處理以及智能分析技術如模式識別、自然語言理解、應用知識庫等等。
對電信運營商而言,在當前智能手機、智能設備快速增長、移動互聯網流量迅猛增加的情況下,大數據技術可以為運營商帶來新的機會。大數據在運營商中的應用可以涵蓋多個方面,包括企業管理分析如戰略分析、競爭分析,運營分析如用戶分析、業務分析、流量經營分析,網絡管理維護優化如網絡信令監測、網絡運行質量分析,營銷分析如精準營銷、個性化推薦等。下面列舉一些典型的應用場景。
典型應用1:網絡管理維護優化
隨著運營商網絡數據業務流量快速增長,數據業務在運營商收入占比重不斷增加,流量與收入之間的不平衡也越發突出,智能管道、精細化運營成為運營商突破困境的共識。網絡管理維護和優化成為精細化運營中的一個重要基礎。
傳統的信令監測尤其是數據信令監測已經面臨瓶頸,以某運營商省公司為例,原始數據信令達到1TB/天,以文件形式保存。而處理之后生成的xDR(x Detail Record)數據量達到550GB/天,以數據庫形式保存。通常這些數據需要保存數天或數月,傳統文件系統以及傳統關系數據庫處理這么大的數據量顯得捉襟見肘。面對信令流量快速增長、擴展困難、成本高的情況,采用海量分布式文件系統,數據存儲量不受限制,可以按需擴展,同時NoSQL數據庫可以有效處理達PB級的數據,實時流處理及分析平臺保證實時處理海量數據。基于大數據的信令采集及分析系統如圖1。
圖1 基于大數據的信令采集及分析系統
智能分析技術在大數據的支撐下將在網絡管理維護優化中發揮積極作用,網絡維護的實時性將得到提升,事前預防成為可能。比如通過歷史流量數據以及專家知識庫結合,生成預警模型,可以有效識別異常流量,防止網絡擁塞或者病毒傳播等異常。
典型應用2:用戶行為分析
用戶行為分析在流量經營中起重要的作用。用戶行為結合用戶profile、產品、服務、計費、財務等信息進行綜合分析,得出細粒度、精確的結果,實現用戶個性化的策略控制。今后還可以對管道內容進行分析,比如圖片、電影、網頁等,深入理解用戶的行為特征。目前流量經營分析中的瓶頸主要是數據的采集和處理。比如某運營商省公司建立了營銷門戶系統(如圖2),該系統為適應省公司精確化管理、針對性營銷要求,實現對營銷活動的日報統計等支撐,打造適用于全省各級營銷管理人員、一線經理及支撐人員的營銷支撐門戶,提供與營銷活動相關的日報、月報統計,包括量收、欠費、用戶發展、預警信息、機構樹匯總等內容。目前每月新增數據量達到4T,傳統方式分析結果需要26個小時,數據處理效率低,系統擴展困難。采用Data Cloud、并行分布式處理等大數據技術后,報表分析只需要2個小時,滿足了報表對時限的要求,系統擴展性好,可用性高。
圖2 某運營商營銷門戶系統
典型應用3:個性化推薦
目前在各類增值業務中,根據用戶喜好推薦各類業務或應用成為運營商服務用戶的一個有效方式,比如應用商店軟件推薦、IPTV視頻節目推薦。這一類應用需要處理的數據量大,實時性要求高,涉及到大量的非結構化數據以及智能分析,大數據技術成為系統實現中關鍵的技術。以IPTV節目推薦為例,不僅需要分析用戶已有日志及評論、打分等數據,還需要從互聯網通過網絡爬蟲分析獲得相關視頻和評論進行綜合分析。可以采用的相關技術包括并行計算框架、分布式文件系統以及文本分類/聚類/關聯算法、文本摘要抽取、情感分析和文本語義分析、文本挖掘等智能分析算法。
典型應用4:
基于平臺的數據云服務(DaaS)
當前移動互聯網領域,最大的流量是視頻數據。隨著社會化網絡、移動支付以及物聯網的發展,實體經濟和虛擬世界有更多的交集,數據的價值將不斷提升。運營商通過分析流量的內容,比如網頁的語義、圖片、視頻內容以及用戶的觀點、位置、時間關聯等,將獲得更多有價值的信息。比如某用戶在淘寶上的購物,穿插了在其它網站上瀏覽(比如手機評測網站)、與朋友的聊天或者在微博上發表的言論,用戶行為綜合分析之后能較準確地反應個體用戶的興趣愛好、價值取向、活動范圍以及社會關系等等。同時也可以對用戶群進行分析,挖掘出用戶群特征或者趨勢分析。電信運營商基于這一切做的分析結果,可以作為數據服務提供給企業、SP/CP、研究機構等,也可以針對用戶提供廣告推送。當然,針對這一塊的應用,用戶隱私保護、法律許可等都是需要考慮的,相關的體系還有待完善。
大數據風起云涌,相關技術及應用尚處于起步階段。電信運營商有必要在移動互聯網快速發展中抓住機會,大數據應用將大有作為。