數據采集才是大數據產業的基石
都在說大數據應用、大數據價值挖掘,卻不想,沒有數據何來應用、價值一說。就好比不開采石油,一味想得到汽油。當然,石油開采并不容易,各行各業包括政府部門的信息化建設都是封閉式進行,海量數據被封在不同軟件系統,數據源多種多樣,數據量大、更新快。
大數據時代最不缺的就是數據,但是最缺的卻也是數據,面對數據資源,如何開采、用什么工具開采、如何以最低成本的開采成為了重中之重的解決問題。
數據采集可以分兩種
(1)網絡上用網絡爬蟲進行數據采集,比如爬取圖片、新聞、公司等等互聯網上的信息;
應用實例:網上圖片采集、輿情系統的文章采集等;
(2)通過傳感器或者其他設備進行數據的采集;
應用實例:電子地圖地點采集、聲音、人臉采集等。
網絡爬蟲數據采集
所謂網絡爬蟲,就是一個在網上到處或定向抓取數據的程序,當然,這種說法不夠專業,更專業的描述就是,抓取特定網站網頁的HTML數據。抓取網頁的一般方法是,定義一個入口頁面,然后一般一個頁面會有其他頁面的URL,于是從當前頁面獲取到這些網址加入到爬蟲的抓取隊列中,然后進入到新頁面后再遞歸的進行上述的操作,其實說來就跟深度遍歷或廣度遍歷一樣。
爬蟲數據采集方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯。 除了網絡中包含的內容之外,對于網絡流量的采集可以使用DPI或DFI等帶寬管理技術進行處理。
傳感器數據采集
傳感器是一種檢測裝置,能感受到被測量的信息,并能將感受到的信息,按一定規律變換成為電信號或其他所需形式的信息輸出,以滿足信息的傳輸、處理、存儲、顯示、記錄和控制等要求。在工作現場,我們會安裝很多的各種類型的傳感器,如壓力的、溫度的、流量的、聲音的、電參數的等等,傳感器對環境的適應能力很強,可以應對各種惡劣的工作環境。
在日常生活中,如溫度計、麥克風、DV錄像、手機拍照功能等都屬于傳感器數據采集的一部分,支持圖片、音頻、視頻等文件或附件的采集工作。
好用的網頁數據采集工具-火車采集器
火車采集器(LocoySpider)是一款功能強大且易于上手的專業采集軟件,強大的內容采集和數據導入功能能將您采集的任何網頁數據發布到遠程服務器,自定義用戶cms系統模塊,不管你的網站是什么系統,都有可能使用上火車采集器,系統自帶的模塊文件支持:風訊文章,動易文章,動網論壇,PHPWIND論壇,Discuz論壇,phpcms文章,phparticle文章,LeadBBS論壇,魔力論壇,Dedecms文章,Xydw文章,驚云文章等的模塊文件。更多cms模塊請自己參照制作修改,也可到官方網站與大家交流制作。 同時您也可以使用系統的數據導出功能,利用系統內置標簽,將采集到的數據對應表的字段導出到本地任何一款Access,MySql,MS SqlServer內。
LocoySpider采用Visual C#編寫,可獨立在Windows2008下運行(windows2003 自帶.net1.1框架。最新版的火車采集器是2008版,需要升級到.net2.0框架才能使用),如您在Windows2000、Xp等環境下使用,請先到微軟官方下載一個.net framework2.0或更高環境組件。火車采集器V2009 SP2 04月29日
數據抓取原理
火車采集器如何去抓取數據,取決于您的規則。您要獲取一個欄目的網頁里的所有內容,需要先將這個網頁的網址采下來,這就是采網址。程序按您的規則抓取列表頁面,從中分析出網址,然后再去抓取獲得網址的網頁里的內容。
再根據您的采集規則,對下載到的網頁分析,將標題內容等信息分離開來并保存下來。如果您選擇了下載圖片等網絡資源,程序會對采集到的數據進行分析,找出圖片,資源等的下載地址并下載到本地。
數據發布原理
在我們將數據采集下來后數據默認是保存在本地的,我們可以使用以下幾種方式對數據進行處理。
1、不做任何處理。因為數據本身是保存在數據庫的(access、db3、mysql、sqlserver),您如果只是查看數據,直接用相關軟件打開查看即可。
2、Web發布到網站。程序會模仿瀏覽器向您的網站發送數據,可以實現您手工發布的效果。
3、直接入數據庫。您只需寫幾個SQL語句,程序會將數據按您的SQL語句導入到數據庫中。
4、保存為本地文件。程序會讀取數據庫里的數據,按一定格式保存為本地sql或是文本文件。
工作流程
火車采集器采集數據是分成兩個步驟的,一是采集數據,二是發布數據。這兩個過程是可以分開的。
1、采集數據,這個包括采集網址,采集內容。這個過程是獲得數據的過程。我們做規則,在采的過程中也算是對內容做了處理。
2、發布內容就是將數據發布到自己的論壇,CMS的過程,也是實現數據為已有的過程。可以用WEB在線發布,數據庫入庫或存為本地文件。
具體的使用其實是很靈活的,可以根據實際來決定。比如我可以采集時先采集不發布,有時間了再發布,或是同時采集發布,或是先做發布配置,也可以在采集完了再添加發布配置。總之,具體過程由您而定,火車采集器的強大功能之一也就是體現在靈活中。