IDC近日發布研究報告《中國互聯網市場洞見:互聯網大數據技術創新研究,2012》,對中國互聯網行業圍繞大數據的技術創新進行了專題研究。報告指出,大數據正在引領中國互聯網行業 新一輪的技術浪潮,截至2011年底,中國互聯網行業持有的數據總量已達到1.9EB。IDC預計,這一規模到2015年將增長到8.2EB以上。IDC 將大數據視為一個融合的體系:具備大規模的體量、多樣化的種類的數據集以及對這種數據集進行高速采集、處理與分析以提取價值的技術架構與技術過程。
互聯網行業正在擁抱大數據時代。在這背后,有三個關鍵的驅動因素:首先,網絡技術的升級和終端設備的爆發,使今天的用戶能夠使用多種設備、從不同位置、通過多種手段來接入互聯網,并在這一過程中不斷創造新內 容;其次,越來越豐富的在線應用與服務,尤其是社會化媒體業務,在不斷激勵用戶創造和分享數據,并帶動圖片、視頻等非結構化數據的迅速增長;第三,作為一個高滲透力的行業,互聯網正在同各 個垂直行業發生深度的融合,伴隨著這一過程,傳統垂直行業中原本隱藏于線下的孤島數據,正在源源不斷地注入在線世界。
IDC中國負責互聯網與新媒體研究的高級分析師周林表示:“從數據的角度解讀互聯網,各類業務的本質都是對數據資產的采集、整理、加工和變現的過程。因此,大數據將成為未來互聯網經濟的石油??吸引用戶貢獻數據的能力、持有大型數據的能力,以及將大數據集 通過分析轉化為業務價值的能力,將構成互聯網企業的核心競爭力。同其他行業相比,互聯網的數據循環更快,形式更多樣,變化也更為敏捷?;ヂ摼W公司必須建立起更為強健和高效的基礎架構,來從 浩瀚的數據中發掘價值。這決定了互聯網成為大數據技術創新的前沿。”
作為數據運營組織,互聯網公司正在從大數據的存儲、處理與應用等各個環節推進技術的創新,這種創新可以從空間和時 間兩個維度進行透視:
1. 從空間維度出發,以非關系數據庫、分布式計算架構等為代表,互聯網公司正在不斷提升數據處理的體量,尤其是強化對日益增加的非結構化數據的駕馭能力。分布式架構還讓互聯網公司 能夠利用大量相對廉價的服務器與存儲設備來應對大數據集,并靈活地進行彈性部署。這意味著互聯網行業正在步入數據處理的規模經濟時代,在大數據潮流中走在前面的互聯網公司,能夠贏得明顯的 數據成本優勢。
2. 從時間維度出發,流式處理、實時計算、內存計算等技術的涌現,體現了數據處理高度實時化的新趨勢。MapReduce等模型盡管能夠以優異的性能完成數據的塊式處理,但面對許多在線業務 每秒上萬次的動態并發查詢,仍然表現得力不從心;而流式計算等架構則能夠更好地應對這種業務場景,將大數據的處理進一步推向實時。
IDC認為,今后這兩個方向將進一步相互融合,在數分鐘甚至幾十秒內,完成TB級乃至PB 級數據集的計算,并從中提取富含商業價值的結論,將成為互聯網行業的新常態。
大數據技術的演化正在深刻地影響今天的在線業務。隨著對大數據集分析能力的提升,互聯網企業能夠從海量 數據中挖掘出用戶的行為習慣與興趣偏好,反向輸送給業務層。這種趨勢既能支持更精準的社會化營銷與廣告投放,直接增加互聯網公司的收入;同時也能提升在線業務的交互體驗,增強用戶的粘性, 降低用戶的召回成本,帶來間接但更持久的價值。
周林最后總結到:“互聯網行業在大數據技術浪潮中的異軍突起,也將為整個信息技術產業帶來新的機遇。一方面,大數據會催生對IT產品與解決方案更多的需求,將涵蓋從硬件、軟件到信息服務等多個層面;另一方面,越來越多的互聯網公司正在通過云交付的模式,將自身對于大數據集的存儲、計算與分析能力開放給第三方,使得數據即服務(Data as a Service)成為影響產業格局的新一代業務模式。”