我認(rèn)為數(shù)據(jù)爆炸得益于以下幾點:處理能力增加,處理器小型化,以及成本也有所下降。這些變化的綜合結(jié)果是,從我們的手表到冰箱,幾乎都具有了處理能力。這就是快數(shù)據(jù)的例子。
為什么稱這樣的數(shù)據(jù)為快數(shù)據(jù)?有如下兩個原因:
1、數(shù)以百萬的終端節(jié)點推送流式數(shù)據(jù)。
2、數(shù)據(jù)更新頻率的期望為分鐘級,秒級更佳。
這些都是機(jī)器生成的數(shù)據(jù)。數(shù)據(jù)可以用來豐富用戶體驗,優(yōu)化用戶交互和提升企業(yè)洞察力。下一代應(yīng)用程序能夠破除快數(shù)據(jù)的限制,進(jìn)而推動快數(shù)據(jù)的發(fā)展。對于傳感器應(yīng)用、日志記錄管理或網(wǎng)站交互都是這樣。
我將在本系列文章里,通過特定的客戶案例來說明這一點。我們一直與一家從事貴重金屬開采等固定資產(chǎn)管理的公司保持合作關(guān)系。該公司在特定的時間段內(nèi)都使用傳感器對礦井中近十萬個設(shè)備進(jìn)行監(jiān)測。如果他們要尋找一把丟失的鏟子,那么報告晚幾分鐘或幾個小時都無所謂。但如果人體身上的傳感器監(jiān)測到心臟跳動停止,即使不要求立刻提示,也要盡快通知。如果我要建立一個系統(tǒng)來管理這些數(shù)據(jù),我會讓該系統(tǒng)快速的接收數(shù)據(jù),而且要做到非常快。
但數(shù)據(jù)事件并不是孤立存在的。繼續(xù)上面所說的例子。如果某儀器上的一個傳感器獲取數(shù)據(jù)的地點不在它的“授權(quán)區(qū)”,我不會關(guān)心這樣的數(shù)據(jù)。如果某個傳感器正要進(jìn)入修理狀態(tài),這個時候采集的數(shù)據(jù),我也不關(guān)心。在這種情況下,我會對這樣的傳感器事件進(jìn)行過濾,使用其他數(shù)據(jù)輔助我的決策,因為系統(tǒng)中的數(shù)據(jù)是相互關(guān)聯(lián)、相互依托的。(這是個業(yè)內(nèi)小秘密:我們常稱之為“交易”.)
進(jìn)行計數(shù)、聚合、排序等或者實時分析操作后,數(shù)據(jù)同樣擁有很大價值。我認(rèn)為,對數(shù)據(jù)進(jìn)行實時分析通常處于兩種目的。
工作人員想從儀表盤了解礦井的實時狀況,如多少傳感器正在工作,多少傳感器處于工作范圍之外,總體使用率為多少等等類似的情況。
另外一類是實時分析應(yīng)用于自動決策處理。比如說,如果某個工人身體上的傳感器傳出的信息表示某一時刻環(huán)境含氧量變低,這可能是傳感器的異常反應(yīng)。但是,如果系統(tǒng)監(jiān)測到在過去5分鐘之內(nèi)同一區(qū)域內(nèi)6個工人周圍環(huán)境的含氧量都突然降低,那么這就是一個需要立即關(guān)注的緊急事件。
礦井的固定資產(chǎn)管理是快速數(shù)據(jù)應(yīng)用于真實場景的一個實例,它告訴我們要管理快數(shù)據(jù),需要什么樣的系統(tǒng)。不過這只是一個例子。DDoS檢測、日志文件管理、廣告投放優(yōu)化等也有各自對應(yīng)的模式。
1、快速接入數(shù)據(jù),以提供訪問。
2、盡快處理數(shù)據(jù),根據(jù)每個事件進(jìn)行決策,以最大化利用事件價值。
3、對數(shù)據(jù)進(jìn)行實時分析,以支持自動決策和易讀的儀表盤。
如果你做到了這三點,就可以說真正利用了快數(shù)據(jù),而且還讓數(shù)據(jù)的應(yīng)用更加智能。
企業(yè)數(shù)據(jù)架構(gòu)建設(shè)需要直面快速數(shù)據(jù),并能在新架構(gòu)下的深度分析中獲得所需的結(jié)果。