在我以前的博客,我們已經討論了對物聯網的炒作和現實的對比,并介紹了物聯網服務的框架。在物聯網的產業方面,有一些商業模式使物聯網貨幣化。近日,Kaggle已經與一家主要工業集團進行合作。其目標是開發者和數據科學家們運行公共需求以創造最好的新算法,來減少航空旅行延誤。
作為一名飛行常客,我總是驚訝于航班有多少次不得不處于靜止模式并且只是環繞著機場。很多因素會導致這些延遲包括天氣狀況、交通擁堵和門的可用性。其中一個有趣的統計是,即使是削減掉10英里的平均飛行便可以為航空公司節省數百萬美元的燃油成本。
其中物聯網和大數據的銜接是一個很好的例子。該算法涉及到對飛行的歷史事件、飛行計劃、飛行軌道(實際GPS信息),天氣和FAA計劃的整體歷史分析。物聯網的真正好處是,飛行修正可以實時通過傳感數據完成,并且通過大數據分析還未出現的模式的可行性。
這帶來了一個有趣的悖論——大數據的精神分裂癥性質。為了提供一個可操作的見解,實時數據流分析是必須的。但是,這個時間點流傳感器數據沒有多大用處,除非我們知道相互依賴的歷史數據和相互作用的模式。
傳統的大數據解決方案,如Hadoop,依賴于使用各種基于MapReduce的HDFS架構進行批處理。最近,已經有許多個流處理系統,如正在得到了很多的關注的ApacheSpark。我們需要一個統一的基于依賴批處理和流處理的解決方案。作為IT領導者,最后我想要的是一個架構,在那里我可以維護多個代碼庫以解決單個業務問題。一種辦法是在MapReduce和風暴或類似的系統之上構建流處理應用程序。
在物聯網的世界里,最關鍵的成功因素之一是,我們如何能夠產生上下文敏感的,真正可操作的警報。這是一個老問題,對于這個問題人們已經不再關注汽車報警器在停車場熄聲了。在物聯網解決方案需要緊縮億萬傳感器數據元素,并找到可行的模式。例如,什么真正構成信用卡購買欺詐交易?什么天氣模式以及飛行員的技能和機場設備實際上會導致延遲?以下提議的架構解決了這個難題。
大數據決策模式
有一個提供實時可操作警報的儀表盤。儀表板獲得其標定的動力來自一個規則引擎。規則引擎不斷在批處理模式下運行,并通過數據挖掘算法和機器學習更新自己。實時流數據通過該批次系統生成動態規則連續搜索。這確保了只有在真正需要的時候警報才會響起。
一些開源的大數據技術來共同實現這一架構。其中一個亮點是采用ApacheKafka(高通量分布式消息系統)。Kafka允許監聽多個傳感器的話題,并提供流數據到ApacheStorm。Apache Flume 起著輸送成批處理和流式數據儲存庫中數據的作用。