“數據是下一代設計。不考慮數據的產品將被被時代所淘汰。”幫助客戶檢測與分析移動與web用戶數據與行為的Mixpanel公司CEO Suhail Doshi如是說道。Mixpanel是硅谷最成功創業孵化器Y Combinator的2009年夏季畢業生,并于去年獲得安德森·霍洛維茲(Andreessen Horowitz)領投的超過1000萬美元的A輪投資,在Mixpanel官網最顯眼處,寫著:“Actions speak louder than page views.” 即“用戶行為遠比網站訪問數更有說服力”。硅谷最具洞察力的孵化器和VC用錢投票出來的項目,點出了數據在移動時代的重要性,以及他們自己對數據的深刻理解。
訪問數(獨立訪問數與總訪問數)是傳統互聯網服務商最為看中的數據類型,比如門戶完全基于流量變現,騰訊、百度以及奇虎360也仍處于粗放式利用數據階段。根據IBM的報告,全球90%的數據是由過去兩年內產生。根據IDC的計算和預測,2012年全球范圍內產生了2.7ZB(相當于2^30GB,即1兆GB)的數據量,到2015年,將產生7.9ZB數據,而到2020年,講產生35ZB之多的數據量,相當于2012年數據量的13倍。誰在驅動數據量的急速增長?
如果說過去兩年中增長了占比90%的數據大部分仍然來自PC的話,未來的數據增長將更多來自可上網的移動設備,以及即將大量涌現的可穿戴式智能設備。智能設備的增長是一部分原因,更重要的原因來自未來人們日常中擁有的更多種類的設備,以及設備的更高的使用率,高使用率的驅動力來自于,更強的處理器,更高的存儲容量,更快的網絡條件,更廉價的網絡資費,以及多屏多系統之間更為融合與互通的應用生態系統。
雖然中國4G網絡還未開放,但就北美而言,4G網絡帶來的網絡流量的增加非常明顯。4G用戶產生的數據量是非4G用戶產生的數據量的20倍還要多。2012年全球只有不到1%的移動用戶使用4G網絡,但4G用戶產生的數據量已經占移動數據流量的14%。隨著中國這個全球最大智能手機市場對4G網絡的推進——最近國務院總理李克強已經發話,年內將推動內地4G牌照的發放——移動設備將在未來一二年帶來數據井噴。
數據量并不等于大數據,不過如果沒有足夠多的數據,大數據的“大”也就名不符實。我發在紐約時報中文網的《大數據時代》書評中粗暴的將大數據定義為很多很多的數據(IT術語日益增加且越來越玄乎,得為讀者減負不是),而事實上,“大量的數據”(即“Volume”)只是大數據定義的一部分。一般而言,大數據還包括另外三個V:Variety(種類多樣),Velocity(速度)以及遠遠未被充分認識及挖掘出來的最重要的V:Value(價值)。
如果說前三個V是大數據的特征,那么最后一個V則是我們認識和理解大數據的目的。大數據挖掘的過程,就是高效收集、存儲,并且管理、分析以及從中提煉價值的過程。數據無論大小,如果不去利用,那么它就是一文不值。——反而占據資源,提高成本。
以往PC時代,數據量更多發生在人與機器之間,即通過人主動操作生產的數據占主要部分。而移動時代的特點是,機器之間交流產生的數據占比將越來越多。比如過去一年以來開始流行的可穿戴式設備,比如Fitbit、Nike Fuelband、Pebble以及Google Glass甚至未來可能出現的iWatch,這些機器將制造越來越多的數據——記錄你走路的步數,心率,睡眠質量,并自動與你的iPhone連接,在網絡環境下傳輸到服務器,當你打開其它智能機器,這些數據又會再同步到你的電腦和平板上面。
在整個量化自我的過程中,如果你還像我一樣喜歡將個人數據都保存在Evernote上的話,仔細算算,這個過程將增長多少倍的數據量?人的時間和精力有限,幾何級的數據增長,未來將發生在機器與機器通訊之中。
移動時代的入口在越來越小,應用一方面碎片化,另一方面各個碎片應用之間的功能連接度與數據互通程度也越來越緊密,互相依存、相互融合的趨勢增加,這也為互聯網帶來更多式數據。相比于小數據時代的結構化數據,人們在更多碎片式應用中制造更多非結構化的數據。而如何從大數據中開采出更有價值的數據——用戶行為,將是互聯網服務商的下一個重要課題。