“高效制勝、擴展無限—Dell HPC 行業應用實踐交流會”于2012年6月20日在北京悠唐皇冠假日酒店盛大召開,戴爾技術專家及行業技術精英和與會者切磋交流,共商HPC發展之大計。
以下是現場快遞。(聲明:本稿件來源為現場速記,可能有筆誤和別字,僅供參考)
主持人:尊敬的各位來賓大家下午好,高效致勝擴展無限,Dell HPC行業應用實踐交流會下午部分正式開始。上午我們分享了很多關于HPC的話題,來自Dell和Intel的專家也給我們分享了很多信息,我們今天下午部分將重點分享,石油、石化、生命科學和氣象行業的成功案例的分享,還有高性能計算中心,Dell萬兆網絡解決方案的分享,第一場有請到的是Dell高性能計算解決方案顧問金鵬帶來的案例分享是石油石化行業高性能計算解決方案成功案例分享。
Dell高性能計算解決方案顧問金鵬
金鵬:大家下午好,很高興下午還有這么多培養能夠來參加我們這個討論。我叫金鵬,我在Dell負責企業級的高性能計算解決方案,我負責能源,石油石化,制造業,航空航天,機車汽車制造高性能計算相關的解決方案。
今天我給大家分享的是石油石化的行業案例,為什么講這個領域,因為這個領域在高性能計算中是非常突出的,有特點的應用成熟,在GPU方面非常成熟的行業解決方案。Dell在做這種解決方案有很好的自己的思想和思路。首先我們看一下石油行業對HPC需求分析,我們從這一點慢慢拆開我們這個解決方案。
石油天然氣是很長的產業鏈,上游的開采,中間的提煉,終端的銷售。我這部分講的是在數據的地震資料采集處理以及解釋方面。地下不像大海我可以派潛水員看一眼有什么,地底下你很難鉆進去,我是通過聲波的方式,在地面上安裝一個炸點,反彈地面上收集器,收集聲音原始資料,然后拿回處理中心,有成千論萬的機器,把這個資料處理一下,處理成計算機能夠識別,然后人眼能夠識別的圖形、視頻,供地質石油方面的專家,判斷這個地方是不是有沒有油,最初的資料,地底下炸點取聲波,我們通過處理,在計算機機房里面進行大規模的處理,最后形成一個可視的圖形或者視頻。
中間這部分地震資料處理,是最消耗計算力的,別看拿過來一些炸點音頻資料,你想處理成可用的數據是很難的。我處理幾平方公里的炸點,簡單講給我一臺高性能服務器,我要把這片炸點處理完要八個月的時間,我等著要這個數據分析要采油,你要八個月時間,我需要三周時間算出來,兩周最好,兩天最好,哪怕馬上算出來最好,這個時候就是對你的計算機產生壓力的時候,其他所有高性能計算領域都是這種概念,我的應用非常消耗計算機,普通的PC也好,筆記本、服務器根本沒辦法處理,或者說時間非常長,對我的研究課題沒有意義,所以我們需要高性能計算平臺,來縮短計算時間,這是對我們有意義的東西。Dell致力于提供一套整體解決方案,讓用戶以最短的時間拿到數據,這對石油行業最有意義。
Landmark/Faradigm解釋分析出來,讓專家看到這個隙里面有液體,是水還是油,從數據采集到中間數據分析,到后面解釋形成一套系統。中間要用計算機集群,這跟現場沒關系,后期顯示,顯示輸出來源是計算機計算出來的結果,他算之后給他分析,他就會成像。
整體來講,最后出來的這個給專家,說這你可以打一口井,打井本身也是很難的,中間要拐好多彎,不是直接下去的,鉆井的過程也需要模擬仿真,這也是高性能計算的應用領域。出去你判斷不準,可能有油,也可能沒油,那么成本要幾千萬美金,幾千萬美金就沒了。所以我們要算得很準,沒有計算機什么都干不了,你不能夠分析數據。
講一講去支撐這些系統技術的發展,今天我主要是給大家講一些案例分析,處理器核數越來越多,熱量也會持續增加,Intel無論怎么解決,這個問題總是一個矛盾。于是出現了加速卡,或者叫協處理器,你不夠我來幫你,我怎么幫你,CPU的核就這么多,GPU的核成百上千的核,但是這些核并不是通用的東西,他幫助主CPU來做處理。
現在目前Nvidia是這一代,Kepler是下一代。這個并行效率計算能力肯定是不一樣的,但是有一個問題,我加OS之后你想干什么干什么。在石油領域一片卡的計算力頂得上7、8臺服務器,所以在他的采購成本,能耗比方面,GPU的協處理能力,或者加速能力都是不可忽視的,因為你的主CPU生不動,Intel再怎么想辦法也沒有辦法,協處理器是依賴主機存在的,不能單獨用,你得插在服務器上。這是GPU在石油領域的應用,石油領域給大家提供了不錯的參考。
能耗這個東西不得不說,因為每次說到HPC,包括今天上午各位專家都提到這個問題,HPC的本質是耗電,你不要想省電,省不了電,也許是在挖油,也許是在算天氣預報,總之轉換成生產力代價就是耗電。不要想著在這省電,不可能,你省電的代價是干掉你的生產力。GPU省電、省錢,為什么不用。
為什么要選擇刀片服務器,還是要從供電上講,而且他是自動的,加壓的時候電源效率自己漲起來,不加壓自己就下去,省電就是省錢,不浪費電就是省錢,對于幾百臺服務器來講,省電是最重要的事情。半高的,全高的,1/4高的,都是可以組合的。
協處理器跟加速什么概念,一個CPU算不動,才用GPU的幫忙。Dell能夠提供的有很多種,包括1/4,1/8的方案都有。中石油BGP,東方物理,他們服務器不停的更新,因為全國的數據不停的送來,計算是無窮的,計算力是無限的。
這是我拍的照片,從上面看,打開里面有兩塊卡,這是一個單獨供電的槽,一定要有個單獨的供電口,這是主板上必須有的東西,后面看他沒有任何接口,GPU兩個概念,第一個是顯卡一定要,第二個是協處理器,就是加速器。
另外我們在跟一些合作伙伴做一些石油的解決方案,基于開源的疊前時間偏移,這些東西都是特別損耗計算力的,解一個方程要很長時間,所以他不停的疊帶的話就很麻煩,GPU在這方面加速是非常明顯的,所以叫加速卡,他放在這是做計算,不是做顯卡。可以提供培訓,最難的就是這塊,包括剛才我講的那些,軟件的編程能力是限制GPU發展的重要因素。
我再多說一點產品,這是一個兩路服務器,里面換一種模式,四臺兩路服務器,做高性能計算,云,或者搜索之類的平臺特別好使。一定要多電源供給多服務器,比較省電。
這是我們Dell比較有特色的,比刀片密度還要高,1U里面1.5臺雙路服務器。存儲上午詹健也講了,我多講一個,在石油領域,我幾百個往一個存儲里寫東西,這個地方會成為一個熱點,我上面擴,底下也擴,存儲也擴,一起擴,我用的這種DT-HSS就能做到這一點,這是那個頭,這只是縱深擴,如果真要擴,這個頭拷貝一份,這個帶寬就持續增加。這就是并行存儲,這在HPC里面是非常重要的概念。他是基于Lustre的系統,是開源的系統,加上控制端就很容易使用。
最后就是我講的后處理,最后實現出來是什么東西,這個東西是由服務器集群算出來,再放到工作站上顯示出來的,所以說這個后處理是很重要的,他的平臺都在工作站集群,但是他的數據來源是你算的那個數據,那個消耗時間是很長的,這是后期的,Dell能夠提供除了投影之外所有的基本解決方案。我的演講大概就是這樣,謝謝大家!