——華為HPC存儲解決方案,助力石油勘探工業
能源行業邁入大數據時代
隨著數據總量的持續增長和急速膨脹,大數據時代已經來臨,石油、電力等能源細分行業紛紛拉開了大數據開發應用的序幕。如何從海量數據中高效獲取信息,有效地深加工并最終得到有用數據是能源企業涉足大數據的目的。
對石油行業來說,眾多企業正在把更多的新技術應用于戰略決策、科技研發、生產經營和安全環保等各個領域,目的是為了從大數據資源中挖掘更多的財富和價值。大數據應用是石油行業信息化深入、IT與業務深度融合的必然趨勢,在我國石油石化行業應用的前景將越來越廣闊。隨著石油儲備的逐步減少,石油石化行業產業鏈中的勘探、開發難度日益增大,信息化的成熟度已經成為影響行業增長幅度的首要因素。精準、快速的地質勘測成為世界能源巨頭們倚重的核心競爭力之一,其中高性能計算技術和大數據技術的應用是關鍵因素。
油氣勘探海量數據處理需要高性能計算
目前在石油勘探中最常用的是地球物理方法。地球物理方法是使用現代物理方法進行地質勘探的方法,包括電法、磁法、重力法、放射性法、地震波法等,其中以地震波法最為重要。為了了解和模擬出地下數千米的地質構造,通過地震波反射方式來收集海量數據,一般二維數據可達1~2TB,三維數據可高達幾百TB甚至PB級,然后進行大量的密集計算和模擬,計算結果出來后還要轉換成直觀的可視畫面,方便專家對數據進行解釋,為油氣鉆井定位提供參考。因此,這些海量數據的處理只有借助高性能計算才能實現最佳的勘探效益,這也是在石油勘探領域高性能計算需求的主因。
由于石油勘探行業的特殊性和復雜性,石油勘探對高性能計算提出了非常苛刻的要求。過去十年中,石油勘探計算處理多采用大型機或高性能計算機,但目前高性能計算機系統在計算性能、系統建設與運行成本等方面已經面臨著許多問題。讓石油勘探企業感到頗為頭痛的問題主要集中在三大困境:一是計算能力需求和CPU處理器性能落差越來越大,目前通過不斷提高CPU處理器的工作頻率來提高計算性能的技術路線已經逐步走向其極限;二是石油勘探高速增長的數據和存儲擴容越來越不匹配;三是能耗制約越來越嚴重,高性能計算機的體積大、耗電多等弱點以及對龐大的計算機房空間需求、空調需求和用電量等已經成為石油勘探數據處理的一大挑戰。
地震資料數據的大數據特征
BGP(中國石油集團東方地球物理公司)是中國石油天然氣集團公司獨資的地球物理專業化技術服務公司,主要從事陸地、淺海地震勘探采集、處理、解釋及物探裝備和軟件研發,業務分布在全球34個國家,陸上地震勘探市場份額居全球第一位。現擁有2.6萬員工,3000多IT人員和300多軟件開發人員,在全球有23個處理中心,約9萬CPU核和80萬GPU核,運算能力約2PFlops,存儲容量超過25PB。
中國石油集團東方地球物理公司研究院的總工程師賴能和先生曾在華為云計算大會2013上做了《大數據技術在石油勘探領域的應用》的主題演講,對地震海量數據的采集與處理過程做了詳細闡釋。
石油勘探過程產生的大數據有自己獨特的“4V”特征:
1、 數據海量:以BGP為例,每天會產生大于7TB的生產數據,在地震資料處理過程中還會產生大量的中間過程數據。
2、 數據來源單一:地震資料數據是由人工模擬地震波激發,由定點采集儀器接收和采集到的,數據來源和數據格式都比較單一。
3、 計算量大:以BGP為例,54TB的原始數據通過4000個CPU 的計算集群處理,需要50多天時間。
4、 處理流程復雜:地震資料處理過程涉及到頻繁的IO和數據庫,操作復雜。
地震數據的快速增長對于存儲提出了巨大需求,也對傳統的HPC軟硬件架構提出了新的挑戰。
[page]
華為石油勘探HPC解決方案實現高計算、大存儲能力
針對石油行業的特點和需求,華為提出了石油勘探HPC解決方案,包含以下幾個部分:
1、計算集群系統
計算節點和胖節點采用華為刀片服務器,提供強大的計算能力,特別是浮點計算能力,以完成地震資料處理中巨大的計算任務。
2、存儲系統
存儲部分采用華為OceanStor9000大數據存儲系統(簡稱OceanStor9000)。
與傳統的NFS和lustre方案不同,OceanStor9000采用全對稱分布式架構,每個節點都可以提供IO和存儲單元,提供業務訪問、數據處理和存儲的能力,因此可以輕松完成節點擴容,實現系統性能和容量的線性擴展。
其全對稱Scale-out架構,通過集群模式、自動負載均衡、全局緩存等技術來整合和管理系統資源,有效提升存儲系統性能,縮短地震資料處理的作業周期。OceanStor9000還具備高可靠性和硬件容錯能力,保障作業正常運行。它還能提供靈活的組網方式,前后端網絡均支持Infiniband或者10GE以太網高速互聯,能有效滿足石油勘探HPC場景的高帶寬、低時延需求
3、網絡互聯
采用計算網絡、存儲網絡和管理網絡分離的方式。計算網絡采用萬兆以太網,承擔并行計算時的數據通訊。管理網絡采用千兆以太網,用于HPC集群系統的管理和監控。存儲網絡采用10GE以太網或40GE的Infiniband網絡,為主機訪問數據文件提供高速的網絡互聯。