俗話說:巧婦難為無米之炊。大數據要得以廣泛應用,挖據蘊含其中的價值,第一步就是需要采集數據。而數據采集的完整性、準確性,則決定了數據應用是否真實可靠。
在大數據時代,數據采集一般來說有三個特點:一是數據采集以自動化手段為主,盡量擺脫人工錄入的方式;二是采集內容以全量采集為主,擺脫對數據進行采樣的方式;三是采集方式多樣化、內容豐富化,擺脫以往只采集基本數據的方式。從采集數據的類型看,不僅要涵蓋基礎的結構化交易數據,還將逐步包括半結構化的用戶行為數據,網狀的社交關系數據,文本或音頻類型的用戶意見和反饋數據,設備和傳感器采集的周期性數據,網絡爬蟲獲取的互聯網數據,以及未來越來越多有潛在意義的各類數據。
我們常見的數據采集技術方面,過去傳統的數據采集方法包括人工錄入、調查問卷、電話隨訪等方式。隨著大數據時代的到來,數據采集方法有了質的飛躍,目前使用最多的是安卓系統或蘋果系統的采集軟件工具包,這種技術能幫助采集用戶數、活躍情況、流失比例、使用時長等基礎數據;網絡爬蟲也是廣泛使用的互聯網采集技術,常被用于大規模全網信息采集、輿情監控、競品分析等領域。
在工業制造業領域,傳感器也是常見的大數據采集裝置,通常用于自動檢測和控制等環節。當前,基于傳感器數據的大數據應用才剛剛起步,隨著未來攜帶傳感器+大數據平臺的智能設備將越來越多,智能醫療,智慧城市等方面的前景將無限廣闊。