為了從大數(shù)據(jù)中挖掘出有價(jià)值的信息,需要有針對(duì)大數(shù)據(jù)的數(shù)據(jù)處理系統(tǒng)。目前,一些大型的互聯(lián)網(wǎng)企業(yè),例如谷歌、Facebook 等企業(yè)都研發(fā)了針對(duì)大數(shù)據(jù)的數(shù)據(jù)處理系統(tǒng)。
1)批量數(shù)據(jù)處理系統(tǒng):
這種系統(tǒng)是對(duì)互聯(lián)網(wǎng)中產(chǎn)生的海量的靜態(tài)的數(shù)據(jù)進(jìn)行處理。例如對(duì)客戶在網(wǎng)站中的點(diǎn)擊量和網(wǎng)頁的瀏覽量等數(shù)據(jù)進(jìn)行處理,從而或者客戶對(duì)哪些商品比較偏愛。谷歌公司研發(fā)的 GFS(Google File System,即大規(guī)模分散文件系統(tǒng))和 Map Reduce(大規(guī)模分散 Frame Work)系統(tǒng)就是典型的批量數(shù)據(jù)處理系統(tǒng)。
2)流式數(shù)據(jù)處理系統(tǒng):
這種系統(tǒng)是對(duì)互聯(lián)網(wǎng)中大量的在線數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。這些在線數(shù)據(jù)具有復(fù)雜的格式,并且數(shù)據(jù)是連續(xù)不斷地來源于眾多的渠道,該種系統(tǒng)需要對(duì)這些實(shí)時(shí)的數(shù)據(jù)進(jìn)行實(shí)時(shí)的、快速的處理。例如生物體中傳感器的數(shù)據(jù)、商場(chǎng)人流量數(shù)據(jù)、定位系統(tǒng)的數(shù)據(jù)都需要高效地實(shí)時(shí)處理。Storm系統(tǒng)是典型的流式數(shù)據(jù)處理系統(tǒng),Twitter、Spotify、雅虎等公司都使用該系統(tǒng)。
3)交互式數(shù)據(jù)處理:
這種數(shù)據(jù)處理系統(tǒng)可以用人機(jī)交互的方式實(shí)現(xiàn)數(shù)據(jù)的處理。例如互聯(lián)網(wǎng)搜索引擎。Dremel 系統(tǒng)是典型的交互式數(shù)據(jù)處理系統(tǒng)。
4)圖數(shù)據(jù)處理系統(tǒng):
該種系統(tǒng)用于處理大數(shù)據(jù)中的圖數(shù)據(jù)。例如社交網(wǎng)絡(luò)中人與人之間的社會(huì)關(guān)系圖數(shù)據(jù)。Spark系統(tǒng)是典型的圖數(shù)據(jù)處理系統(tǒng)。
隨著社交網(wǎng)絡(luò)的發(fā)展、傳感器的廣泛應(yīng)用、物聯(lián)網(wǎng)的不斷擴(kuò)展,大數(shù)據(jù)已經(jīng)深入我們生活的方方面面,針對(duì)大數(shù)據(jù)的處理也越來越深入,如何更高效的挖掘大數(shù)據(jù)中蘊(yùn)藏的價(jià)值需要不斷地研究和改進(jìn)。