在2015年至2020年的五年,物聯網預計將比任何其他類別的設備增長更快。機器對機器連接的數量將增長近2.5倍,從2015年的49億臺增加到2020年的122億臺。
然而,在物聯網世界中,為了減少通過網絡傳輸的數據量,能夠盡可能靠近數據源進行分析已經成為一種必要。不僅如此,如果企業的目標是為邊緣計算設備(運輸車輛、石油鉆井平臺、移動設備等)提供快速反饋,即使是有限的目標,也是至關重要的。
從數據到達響應點的那一刻起,數據的價值隨著差距的增大而降低;從業務的角度來看,企業需要快速分析,并盡可能接近數據源。
如果可以減少時間跨度,從而提供實時洞察和行動,它將提供更多的價值。
轉向邊緣計算分析
邊緣計算分析是對傳統數據收集和分析方法的一種改進。在這種方法中,在傳感器、網絡交換機或其他設備上對數據執行自動分析計算,而不是等待數據發送回集中的數據存儲,并進行分析在后臺運行。
人們現在都熟悉WiFi連接設備,如洗衣機、機器人吸塵器、家用恒溫器等。這些物聯網設備通常會發送統計數據或狀態,這是一個很好的事情,通過智能家庭集線器或顯示在手機上。然而,物聯網設備廣泛應用只是完成物聯網革命的一半,下一半是讓它們運行自我診斷和統計分析,然后再將信息發送給企業進行進一步分析,從而使他們最終不僅聯網而且智能。恒溫器就是一個簡單的例子,可以根據天氣、到家時間、交通和其他信息計算預測,因此可以開始加熱洗澡水,并告知真空吸塵器開始清潔,以便在主人到家之前完成。這不是通知主人,而是在源設備或邊緣計算設備上做出決策和采取行動。
邊緣計算分析不是將所有信息發送到一個單一的來源,然后才應用轉換和分析,然后才將反饋發送到其他設備,而是一種更快、更靈活的方法。
例如,如果以電信行業為例,那就是他們曾經的運作方式。通常在中央通信樞紐中,電話接線員在那里接聽用戶的電話,用戶不得不事先“訂購”一條線路,并且只有在這條線路開通后才能通話,所有呼叫都通過一個中心位置進行路由,其分析僅在其中心樞紐中完成。
如今,人們只需在其手機設備上輸入號碼即可呼叫,同時所有路由都將自動且更快地完成。無需等待信息到達中心樞紐即可進行分析。現在能夠以其選擇的任何方式(部分或全部)隨時分析信息,甚至可以在自己的設備上進行分析。
以另一個現實生活為例,例如幾十架飛機在機場上空盤旋、準備起飛或降落。在幾秒或幾毫秒內分析數據的能力不僅僅影響航空公司收入,其真正商業價值與旅客生命息息相關。因此每一秒都很重要,每一個輕微的失誤或技術問題都會產生巨大的多米諾骨牌效應。
理論上,如果在將數據發送到集中位置之前已經開始分析的初始過程,例如,在原始設備(飛機或任何其他計算機設備)上,可以根據初步見解采取行動,從而縮小洞察力和行動之間的差距。
人們可以在邊緣計算設備上執行部分算法或分析功能,同時以非侵入方式將數據從邊緣設備本地網格異步或同步到集線器或集中網格,在那里將執行進一步和更多的計算關于原始數據或匯總數據。
采用質量分析平臺
進行實時分析就是提取率、簡化工作流程、減少組件架構以降低總體擁有成本(TCO)。現在需要了解一下lambda或kappa架構,通過將所有信息視為數據流簡化所有事情是很好的,但由于架構中移動部分的數量太多,仍然會帶來意外的復雜性。
采用傳統的分析工作流程并將繁重的工作推到內存平臺上以實現收斂或數據流的統一是唯一合乎邏輯的結論。這個“NoETL”工作流程完全依賴于Kafka作為消息代理,而InsightEdge作為NoETL/流處理機制,除了所有其他Spark優勢之外。
第二個階段是polyglot分析,它定義了質量分析的能力,以便將實時數據流與存儲在持久存儲層上的存檔數據聚合。
考慮到專家預測的到2020年全球將產生40澤字節的數據,人們需要能夠處理此類數據量的平臺。采用建議的組件簡化架構,這兩個事件流之間的相關因子是Kafka/Data Lake中的關鍵參與者(或者更松散的術語Data-Swamps)。
這種架構使人們不僅可以保留返回每個數據的可能性,還可以利用高端而簡化的分析工具(如Spark)來運行內存計算,以實現實時和歷史數據融合。
最后的想法
很明顯,對數據進行實時分析已成為各行業企業的關鍵。實際上,為了跟上快速變化的世界和苛刻的客戶體驗或快速變化的法規,它變得必不可少。
然而,盡管大數據具有轉型潛力,麥肯錫全球研究所(MGI)2016年發布的一份報告發現,大多數行業仍未挖掘數據和分析的全部潛力。