隨著大數據在企業中的應用逐漸深入,企業在構建大數據服務平臺的時候只是關注數據中心、機房、服務器等硬件設備的性能這些參數,其實大數據在企業當中的應用時非常廣泛的,大數據應用程序需要處理大規模信息,而且在出于彈性的考慮將數據復制到多個位置時,信息的規模變得越來越大。
這就需要企業在構建大數據網絡和服務平臺的時候,需要將大數據的不同屬性規模進行劃分和歸類,并將大數據應用分割成很多個小的“作業模式”進行信息的處理工作。
大數據應用需要“彈性”
如果有一組分布式資源必須通過互聯網絡進行協調時,可用性就變得至關重要。如果網絡出現故障,那么造成的后果是出現不連續的壞計算資源與數據集。
大多數網絡架構和工程師的主要關注點是正常運行時間。但是,網絡故障時間的根源又各不相同。大量數據都會有一個數據源,這些所謂的數據源就是來源于不同的結構層,數據之間進行協作和應用,當中出現差錯是肯定避免不了的。
上面這類問題就需要企業的IT管理部門設計一套能適應故障的彈性網絡,并以此來保障大數據服務和管理平臺的安全平穩運行,除了傳統的平均故障時間間隔方法,大數據網絡的真正設計標準一定要包含上述的彈性特質。
大數據擁塞問題要解決
大數據應用程序不僅僅是規模大,而且還有一種我稱為突發性的特性。當一個作業啟動之后,數據就開始流轉。在高流量時間段里,擁塞是一個嚴重的問題。
因此,網絡架構設計時應該盡可能減少擁塞點。按照可用性的設計標準,減少擁塞要求網絡具有較高的路徑多樣性,這樣才能允許網絡將流量分散到大量不同的路徑上。
數據一致性比延遲更重要
根據很多項測試可以發現,絕大多數的大數據應用其實延遲并不大,如果計算時間的數量級為幾秒鐘或幾分鐘,那么即使網絡上出現較大延遲也是無所謂的。
大數據應用程序一般具有較高的同步性。這意味著作業是并行執行的,而各個作業之間較大的性能差異可能會引發應用程序的故障。因此,網絡不僅要足夠高效,而且要在空間和時間上具有一致的性能。
網絡分割是解決大數據難題的有效途徑
我們前文說了,將不同數據源的大數據模型進行分割,并將這些小型的數據源分批進行處理,這樣一來就解決了企業大數據平臺管理難的問題了。在最簡單的形式上,分割可能意味著要將大數據流量與其他網絡流量分離,這樣應用程序產生的突發流量也不會影響其他關鍵任務工作負載。
同時,企業還需要在一些場合當中及你選哪個網絡負載的邏輯分離或者物理分離,因為這種分離能夠讓企業的IT架構師們輕松對企業的大數據服務平臺進行更好的劃分。
D1Net評論:
企業在運用大數據平臺時,必須要關注以上幾個點,除此之外,企業要讓IT架構師對自身的大數據服務平臺進行劃分,細化大數據的應用價值,只有這樣,才能將大數據價值發揮到最大化。