如今,大數據正變得越來越廉價,而不僅僅是廣泛分布商品硬件上廉價的存儲和計算。大數據分析可能很快成為高性能計算(HPC)新的“殺手級應用”。
此外,還有比大數據更多的大量的信息。它還涉及大量的分布式活動,如復雜的查詢和計算。換句話說,通過計算獲得的價值就像數據集本身的大小一樣“大”。事實上,高性能計算大數據已經被分析公司IDC所創造,如“高性能數據分析。”
高性能計算(HPC)能很好地實現大數據典型的工作流程的所有三個階段,包括數據采集和過濾,分析,結果可視化。除了這三個階段,計算的速度和規模一樣重要。為了發掘大數據的全部潛力,我們要以“大計算”與HPC進行匹配。
對于大數據和高性能計算的融合,以及企業如何充分利用這一現象來改善大型處理,以下有三個方法:
1.Hadoop聯手Infiniband
許多人認為最常用的超級計算機互連技術InfiniBand,可以盡可能多滿足HPC作為裸機處理的基本要求。如果不能快速移動節點之間的信息,就會限制了你可以實現的水平的可擴展性。遠程直接內存訪問(RDMA)的ApacheHadoop提供了一個極好的高速、低延遲互連的大數據平臺。甚至可以在云端利用RDMA在任何時候提供一個Hadoop集群。由于其優越的帶寬和延遲的優勢,56Gbps的InfinibandFDR可能比10Gbps以太網速度甚至快100倍以上,短期使用非常昂貴的定制總線,這是跨節點的計算分布數據和處理的最快方法。最后,用戶可以根據應用的大小可以擴展大數據平臺,而不必擔心幾乎一樣多的瓶頸。不僅會得到更快的結果,而其建立時間將遠遠小于所使用的商品網絡技術。
2.Hadoop聯手Accelerators
高性能計算(HPC)的另一個重要特點是采用了流行的協處理器和加速器,如被動式散熱NVIDIATesla和開普勒的GPU。正如這些技術大大有助于技術計算解決方案的發展,他們還可以幫助大數據和分析,就像他們已經進行測序和比對。
Hadoop利用GPU技術,如CUDA和OpenCL可以大促進大數據性能的一個重要因素。所有其他的事情都是相同的,高性能的大數據平臺和技術,如Hadoop,Spark,MapReduce導致復雜的分析和更快的結果。事實上,對于人們正在收集的數據量的不斷增長的唯一方法是提高計算速度。大數據利用協處理器和加速器是HPC在這個空間具有更大的影響力的重要途徑。
3.大數據和高性能計算在云計算的融合
大數據比任何其他應用程序推動公共云更快的增長,HPC需求成為了一個新興的力量,并準備好迎接這一挑戰。我們收集的數據越多,我們需要分析數據的計算能力就越大。簡單地說,大數據和云計算的增長攜手并進。只有這樣,才能提供足夠的規模,而跟上需求部署HPC類資產,以提高處理性能和密度。
得益于大數據平臺的超級計算技術,如高速互連和協處理器的結合,組織可以利用和部署上的設計,使HPC服務成為了下一個主要需求分析的創新浪潮。采用分布式文件系統,如Hadoop,在相同的計算能力的情況下,可以加快測序和比對的過程,可以大大提高在今后的查詢和比較的效率,并且其成本更加低廉。傳統的HPC并行存儲,經濟學將變得更具吸引力。最后,采用具有時間價值和彈性規模的公共云,企業現在可以專注于他們的工作,而不是過于關注IT平臺的性能。
由于大數據和高性能計算需求的銜接,企業將能夠充分利用公共云計算的規模和可用性。