•批量處理大數據源。
•實時處理大數據。
•預測分析和機器學習。
精心設計的大數據架構可以節省企業資金,并幫助其預測未來趨勢,從而做出明智的業務決策。
大數據架構的好處
可用于分析的數據量每天都在增長。而且,流媒體資源比以往更多,其中包括流量傳感器、健康傳感器、事務日志和活動日志中提供的數據。但擁有數據只是業務成功的一半。企業還需要能夠理解數據,并及時使用它來影響關鍵決策。使用大數據架構可以幫助企業節省資金并做出關鍵決策,其中包括:
•降低成本。在存儲大量數據時,Hadoop和基于云計算的分析等大數據技術可以顯著地降低成本。
•做出更快、更好的決策。使用大數據架構的流組件,企業可以實時做出決策。
•預測未來需求并創建新產品。大數據可以幫助企業衡量客戶需求并使用分析預測未來趨勢。
大數據架構的挑戰
如果做得好,大數據架構可以為企業節省資金,并幫助預測重要的趨勢,但它并非沒有挑戰。在處理大數據時,需要注意以下問題:
(1)數據質量
無論何時使用各種數據源,數據質量都是一項挑戰。這意味著企業需要做的工作是確保數據格式匹配,并且沒有重復數據或缺少數據將會使分析不可靠。企業需要先分析和準備數據,然后才能將其與其他數據一起進行分析。
(2)擴展
大數據的價值在于其數量。但是,這也可能成為一個重要問題。如果企業尚未設計架構以進行擴展,則可能會很快遇到問題。首先,如果企業不計劃支持基礎設施,那么支持基礎設施的成本就會增加。這可能會給企業的預算帶來負擔。其次,如果企業不打算進行擴展,那么其性能可能會顯著下降。這兩個問題都應該在構建大數據架構的規劃階段得到解決。
(3)安全性
雖然大數據可以為企業提供對數據的深入了解,但保護這些數據仍然具有挑戰性。欺詐者和黑客可能對企業的數據非常感興趣,他們可能會嘗試添加自己的偽造數據或瀏覽企業的數據以獲取敏感信息。網絡犯罪分子可以制作數據并將其引入其數據湖。例如,假設企業跟蹤網站點擊次數以發現流量中的異常模式,并在其網站上查找犯罪活動,網絡犯罪分子可以滲透企業的系統,在企業的大數據中可以找到大量的敏感信息,如果企業沒有保護周邊環境,加密數據并努力匿名化數據以移除敏感信息的話,網絡犯罪分子可能會挖掘其數據以獲取這些信息。
大數據架構因公司的基礎設施和需求而異,但通常包含以下組件:
•數據源。所有大數據架構都從源代碼開始。這可以包括來自數據庫的數據、來自實時源(如物聯網設備)的數據,以及從應用程序(如Windows日志)生成的靜態文件。
•實時消息接收。如果有實時源,則需要在架構中構建一種機制來攝取數據。
•數據存儲。企業需要存儲將通過大數據架構處理的數據。通常,數據將存儲在數據湖中,這是一個可以輕松擴展的大型非結構化數據庫。
•批處理和實時處理的組合。企業需要同時處理實時數據和靜態數據,因此應在大數據架構中內置批量和實時處理的組合。這是因為可以使用批處理有效地處理大量數據,而實時數據需要立即處理才能帶來價值。批處理涉及到長時間運行的作業,用于篩選、聚合和準備數據進行分析。
•分析數據存儲。準備好要分析的數據后,需要將它們放在一個位置,以便對整個數據集進行分析。分析數據存儲的重要性在于,企業的所有數據都集中在一個位置,因此其分析將是全面的,并且針對分析而非事務進行了優化。這可能采取基于云計算的數據倉庫或關系數據庫的形式,具體取決于企業的需求。
•分析或報告工具。在攝取和處理各種數據源之后,企業需要包含一個分析數據的工具。通常,企業將使用BI(商業智能)工具來完成這項工作,并且可能需要數據科學家來探索數據。
•自動化。通過這些不同的系統移動數據需要通常以某種形式的自動化進行編排。數據的攝取和轉換、批量移動和流處理,將其加載到分析數據存儲,最后獲得洞察力必須在可重復的工作流程中,以便企業可以不斷從大數據中獲取洞察力。