近幾年最火的詞,一定是大數據。
Bigdata
沒有哪個熱詞像大數據一樣在互聯網縱橫幾個年頭。不可否認的是,大數據確實給互聯網帶來了一定的好處:更高效的決策,更精準的預測,還包括更大膽的想象。
但你在擁抱大數據的時候,卻對數據的準確性心存疑慮,或者說是因為不清楚數據的獲取來源和方法而懷疑他的準確性。
今天就給大家科普下市面上,常用的獲取互聯網或移動互聯網的數據的渠道和方法,幫你徹底了解大數據。
總體來說,有三種,樣本量方法、電信運營商數據、加碼技術的方法,各家的具體獲取方法并不同。
首先來說下樣本量的方法
樣本的定義如下:
按照一定的抽樣規則從總體中取出的一部分個體,樣本中個體的數目稱為“樣本容量”,樣本是總體中有代表性的一部分。
獲取方法解釋:
基于采集軟件和固定樣本用戶采集網絡行為數據,可以完整監測用戶整個網絡行為數據,包括網頁、軟件、游戲等軟件。國內的,比如“艾瑞咨詢”,他的數據獲取方法之一就是利用這種方法。
第二種是通過電信運營商的數據來獲取的方法
Hitwise是最好的例子,ExperianHitwise是Experian旗下互聯網商業智能分析業務。
從1997年來,Hitwise通過與ISP及運營商建立合作,獲取用戶上網日志數據,所獲取數據包含運營商用戶通過寬帶接入設備、xDSL及小區寬帶上網設備以及通過路由WIFI接入的筆記本電腦、iPad及手機設備上網行為,但不包含通過GPRS及3G網絡上網設備及APP部分的使用行為。
Hitwise數據采集說明
還有一種就是通過加碼技術的方法
比如Googleanalytics,Googleanalytics是著名互聯網公司Google為網站提供的數據統計服務。可以對目標網站進行訪問數據統計和分析,并提供多種參數供網站擁有者使用。
獲取方法解釋:
Googleanalytics基于cookie技術以加代碼方式實施全網監測,全網監測,不受樣本限制,只能監測自身網站用戶站內的用戶行為數據,不能監測競爭對手用戶數據。
當訪問者訪問帶有GoogleAnalyitcs追蹤代碼的頁面時,GoogleAnalyitcs就會發回這樣一條數據給Google服務器。GoogleAnalytics也提供包括流量來源、搜索關鍵詞、訪客資料、入口頁面等。
綜合來說
每種方法統計的數據都不是絕對準確的,因為對于某些數據各個統計的算法會有些許不同,我們應該關注的是各個統計的指標走向趨勢。每一個工具都有自己的算法,重要的是數據提取出來的信息,更重要的是數據背后的insight!