數據應該說是能源行業的“眼睛”,無論上游的勘探、開采和地震數據的采集,還是下游的數據管理和傳輸,都會產生巨大的數據集。通過對數據的分析處理,能源企業可以很好地管理和進行相應工作。
國內數據缺失企業良莠共存
近年來,能源行業在經歷了數據缺乏粗放式的擴張后,正在進入數據為王的精細發展時代。幾乎所有的能源企業都希望通過簡單直觀地識別信息,對數據進行精細化、深加工更會產生巨大價值。
大數據的價值日益凸顯,能源行業已經積累了大量數據資源。把這些行業數據進行收集、整理,不僅能對整個行業的健康有序和標準制定產生重要的參考價值,也能深度挖掘出大數據的“跨界”價值。
中國石油勘探開發研究院西北分院(簡稱“西北分院”)就是在這一背景下,爆發出了強烈的需求。
西北分院是中國西部油氣勘探開發技術研究的重要基地。從事地質、物探研究工作,需要進行海量的計算和數據處理,西北分院配備有來自Sun(Oracle)、SGI、ORIGIN、IBM等公司的10多套大中型計算機系統。在3D 和4D 地震影像技術廣泛運用于鉆井作業之后,無論上游的勘探、開采和地震數據的采集,還是下游的數據管理和傳輸,都會產生巨大的數據集。研究院從野外采集回來的數據往往一次就高達幾十TB,這些數據導入后需要經過大量的后期計算和分析,因此,西北分院對數據存取速度的要求非常高。雖然使用了并行文件系統,但是用戶還是感覺存儲的帶寬無法滿足要求。
找尋數據存儲新方案
某一天,應西北分院的邀請,EMC Isilon工程師帶著8個3TB的Isilon 3000節點到西北分院做現場測試。這個8節點一到,西北分院就用正在進行的計算作業對它們加以測試。測試結果讓西北分院的專家們頗為驚喜,計算作業的速度整整提高了兩倍以上。
接下來的事情順理成章。西北分院的專家們跟Isilon工程師進一步探討解決方案。Isilon的解決方案被稱為橫向擴展NAS(網絡附加存儲),它采用分布式并行計算的方式,可以橫向擴展,當容量需求增加、加入更多節點時,存取速度可以線性增加。而不像傳統的NAS存儲,只能縱向擴展,增加節點可以成倍地提高容量,但是I/O寬帶不能同步提高。同時,Isilon支持PB級的大文件系統,所有存儲空間在一個大的資源池里,系統自動按需分配,管理維護非常簡單。
西北分院當時正在做玉門油田某區塊的勘探工作,時間緊、任務重。Isilon的表現如此出色,西北分院決定馬上采用Isilon解決方案,測試樣機上了線就沒有撤下來。簽合同、下訂單,首期采購了100TB的Isilon設備。隨著數據量的增長,西北分院陸續采購了更多Isilon設備。到目前為止,總計部署容量達到800TB。
玩轉大數據
西北分院成功應用Isilon之后,能源勘探行業的同行紛紛來向西北分院取經。在行業內的交流中,西北分院也毫無保留地向同行分享經驗。如今,Isilon已經在冀東油田、華北油田、西南油田、大慶油田、吉林油田、勝利油田等等單位發揮作用,幫助這些機構挖掘大數據價值,簡化大數據管理,加快油氣勘探的速度。
對于石油勘探用戶的海量數據處理來說,EMC Isilon有兩大獨到之處:一是大容量、高性能。二是管理方便,配置靈活。
傳統的縱向擴展NAS,文件系統支持的最大容量都是有上限的。像西北分院這樣很容易就超過這個上限時,就需要分為多個文件系統來管理,這無疑增加了管理的復雜性。Isilon單一文件系統可以支持15PB容量,管理如此巨大的文件系統,其存取速度卻可以達到縱向擴展NAS的兩倍以上。這樣,西北分院就可以將所有關鍵應用整合到單一的文件系統和管理點。
采用Isilon,西北分院也可以讓科學家即時、高度并發地訪問地震數據和應用,提高協作和運營效率。根據應用的需求,西北分院可以隨時調整客戶端可訪問存儲節點的數量。例如在網段一中,作業分為兩組(paradigm group1和paradigm group2),其中如組1要求完成的時間更緊張些,可以實時調整配置,把盡量多的存儲節點優先讓給組1的作業使用;對于時間要求不太緊的組2作業,可以只允許訪問三個節點,而其它全部節點的處理能力都給組1使用。如果在使用過程中,有更多網段的客戶端需要訪問集群存儲的節點,可以實時按照要求更改存儲節點的網段配置,以滿足不同數據訪問的需求,從而能夠游刃有余地應對西北分院的存儲需求。