當前我們對地球內部的認識主要是來自于理論推導,包括對于石油的勘探,都是間接的通過地震波和人造地震波來進行推測的。而為了獲得可靠的數據,就需要做最大限度的地震數據采集、存儲與分析,以此獲得比較準確的地球內部信息。
當前我們對地球內部的認識主要是來自于理論推導,包括對于石油的勘探,都是間接的通過地震波和人造地震波來進行推測的。而為了獲得可靠的數據,就需要做最大限度的地震數據采集、存儲與分析,以此獲得比較準確的地球內部信息。那么面臨著更高性能、更快速度以及更大容量的數據,對于數據中心存儲系統的要求也是最為苛刻。在HCC大會上我們了解到近來受到熱捧的閃存技術早已應用到石油勘探行業。
2013HCC大會上,由DOIT承辦的閃存進化數據中心論壇受到參會者的關注,中國石油集團東方地球物理公司研究院總工程師賴能和詳細講解了面對石油勘探領域產生的海量數據,如何最優化的解決海量數據的存儲分析以及SSD在實際應用中的作用。
BGP是中國石油天然氣集團公司(CNPC)獨資的地球物理專業化技術服務公司,成立于1964年。主要從事陸地、淺海地震勘探采集、處理、解釋及物探裝備和軟件研發,業務分布在全球34個國家,陸上地震勘探市場份額居全球第一位。現擁有2.6萬員工,約9萬CPU核,80萬GPU核,超過25PB存儲;運算能力約2PFlops。
賴能和對于地震海量數據與處理有什么樣的特點做了詳細的闡釋,對于地震數據的收集,實現是需要提高作業效率,讓每天能產生更多的數據。首先就是數據海量,BGP由于采用連續記錄或增加采集點和接受點的密度而形成,因為需要多組可控震源在空間上兩兩間隔一定距離,利用相同的接收排列(超級排列)各自獨立工作,儀器連續記錄。保證了每天產生大于7TB的生產數據。
特點二是數據類型和來源種類單一,均由人工激發,定點儀器接收。特點三地球物理算法復雜,高精度的地震成像需要巨大的計算資源,因為需要適應的構造逐漸復雜,同時對于資料要求越來越高,算法精度漸高,還有物探技術的不斷進步。
特點四處理流程復雜,頻繁的IO和數據庫操作復雜流程。
特點五對于硬件資料配置很高,對于密集型科學計算,存儲硬件的資源配置要求很高。
那么面對海量數據處理,我們的機遇與挑戰在哪里?賴能和認為首先地震數據快速增長對于存儲量提出巨大需求,其次對于傳統的HPC軟硬件架構提出了新的挑戰,最后高能耗與制冷是數據中心面臨的新問題。
如何快速地把數百TB數據輸入HPC,快速處理、QC、安全存儲與拷貝數據,是目前HPC面臨的最大挑戰之一。
數據中心面對數據海量的壓力
那么地震海量數據處理解決方案需要關注那些方面?賴能和從高性能、高配置、高寬帶、高效率以及高吞吐五個方面提出了解決方案。
采用SSD,將解決CPU性能受限于I/O瓶頸的問題,特別是數據庫的隨機讀寫速度,有效提供系統效率并降低能耗。
SSD的平均延遲大大低于機械盤。圖中對于可靠性、性能、功耗以及空間利用做了詳細的對比。
普通用戶對于SSD盤與HDD的實際測試
采用SSD硬盤,作為節點的內部臨時交換去區,系統性能提高2倍。在不同配置環境下的3D RNA的應用效率對比
最后賴能和認為,SSD具有很高的IOPS、低功耗、低熱量、低噪音和低延遲等優勢,并且在油氣勘探行業中得到廣泛推廣應用。隨著SSD盤性價比的提供,用戶也期待高性能、更穩定、更高效、橫向擴展性更好、能夠提供PB級容量的SSD分級存儲(如華為的Oceanstor 18800F)在石油勘探海量數據處理中得到應用。