隨著成本的下降和用例的增加,高性能計算正在吸引各種類型和各種規模的新用戶。其擴展選項包括基于超級計算機的高性能計算(HPC)系統、基于集群的高性能計算(HPC)以及基于云計算的高性能計算(HPC)服務。
在當今數據驅動的世界中,高性能計算(HPC)成為組織的首選平臺,很多組織希望深入了解基因組學、計算化學、財務風險建模、地震成像等領域。最初由需要執行復雜數學計算的研究科學家所采用,高性能計算(HPC)現在引起了各個領域組織和企業的關注。
高性能計算(HPC)數據存儲系統Panasas公司系統工程總監Dale Brantly說,“我們依靠數據的收集、分析、分發而蓬勃發展的環境,并依靠可靠的高性能計算(HPC)來支持具有強大計算能力的簡化工作流程。”
雖然中小型企業采用高性能計算(HPC)技術仍然相對較少,但對于愿意投資于這種技術和專業知識的組織來說,高性能計算(HPC)具有巨大的潛力。
通常,高性能計算(HPC)用例專注于某種類型的仿真。谷歌云首席技術官辦公室高性能計算(HPC)和量子計算技術總監Kevin Kissell說:“高性能計算(HPC)可以模擬機翼上的氣流、發動機燃燒、行星氣象系統、核反應,以及投資組合的估值。”其他用例則以分析為目的,例如統計廣告投資回報率或評估業務部門的績效。仍然可以將其他用例歸類為翻譯或轉換。他說:“就像視頻的渲染一樣。”
無需超級計算機的高性能計算
許多企業和IT領導者都誤以為高性能計算(HPC)系統都是基于超級計算機的。實際上,雖然由Atos、IBM、HPE、Cray和Fujitsu等公司生產的超級計算機是眾多專用高性能計算(HPC)系統的核心,但一種更廣泛使用的方法是將多臺小型計算機集成到互連的集群中以提供高性能計算(HPC)功能。在這種安排下,集群中的每臺計算機都充當節點。每個節點通常配備有多個處理器(稱之為計算核心)用于處理計算任務。每個節點內的處理器、圖形處理單元(GPU)和內存資源相互連接以創建高性能計算(HPC)系統。
由于采購和運行超級計算機及其定制軟件的成本高達數百萬美元,其成本遠遠超出了大多數企業的財務承受能力。使用運行現成軟件的相對便宜的互連計算機,集群型高性能計算(HPC)通常更易于部署和運行。盡管如此,對于大多數企業來說,即使是規模適中的基于集群的高性能計算(HPC)都是一筆巨大的投資,尤其是那些高性能計算(HPC)需求有限的企業。
現在這種情況正在改變。希望在不破壞IT預算的情況下獲得高性能計算(HPC)訪問權限的企業現在可以選擇使用公共云服務,例如谷歌云、Microsoft Azure、AWS和IBM Cloud。
數字服務和軟件工程商Ciklum公司的.NET技術負責人Maksym Pavlov說,“這些服務使企業能夠訪問高性能計算(HPC)功能來滿足其業務需求,而無需大量投資高性能計算(HPC)集群的硬件基礎設施。”IBM公司云計算的副總裁David Turek補充,“云計算的出現在一定程度上平衡了小公司和大公司之間的競爭環境。”
從高性能計算(HPC)集群遷移到云計算高性能計算(HPC)
北卡羅來納大學教堂山分校(UNC-Chapel Hill)長期以來一直依靠其本地高性能計算(HPC)集群來支持多個科學、工程和醫學領域的研究活動。然而,隨著研究計算需求的持續增長,用戶需求開始超過當前系統的計算資源和容量。該大學并沒有增加現有的高性能計算(HPC)投資,而是決定采用云計算技術提供按需的高性能計算(HPC)環境。
實踐證明,該方法既具有成本效益,又具有高度靈活性。北卡羅來納大學教堂山分校首席信息官Michael Barker表示,“采用云計算,我們就可以提供完成所要求工作所需的計算工作。這是一種滿足運行計算工作的需求非常有效的方式。”
該校高級研究助理Jeff Roach說,高性能計算(HPC)向云端遷移既是必要的,也是受歡迎的。他說,“我們有一個非常傳統的本地集群。然而隨著時間的推移,該系統逐漸無法跟上越來越多的需要領先計算能力和更快性能的用戶的步伐。我們發現,本地集群對于設計該集群的人員確實非常有效,但是他們的一些案例正變得越來越少。”
隨著需要計算的用例迅速成為規范,北卡羅來納大學教堂山分校開始與谷歌云以及仿真和分析軟件提供商Techila科技公司合作,以規劃其進入云計算高性能計算(HPC)的旅程。
其規劃之后的第一步是概念評估的證明。Roach說:“我們在校園里聘用了一位研究人員,他當時采用配備大量內存的設備進行交互式計算,我們試圖幫助完成他的工作量。”他指出這獲得很大成功。他說,“這名研究人員很快完成了工作,并且非常喜歡采用,這是因為,相同的任務在大學的高性能計算(HPC)本地集群上運行可能要花費一周的時間才能完成,而他采用云計算高性能計算(HPC)只用了幾個小時就可以完成。”
英國約克大學也在研究中采用了基于云計算的高性能計算(HPC)方法。英國皇家學會行業研究員、約克大學生物系教授James Chong指出,高性能計算(HPC)可以應用在生物學、物理、化學和計算機科學等科學系以及語言學和其他幾個學科的研究工作。
Chong所在的研究部門目前正在使用谷歌云平臺分析DNA序列數據。他解釋說:“我的團隊對微生物群感興趣,這些微生物群涉及將廢物(在本例中為污水和污泥)轉化為沼氣的混合微生物。我們使用高性能計算(HPC)將短小的DNA序列一起組合為一個基因組,然后分離出不同微生物的基因組,以便我們能夠了解這些生物如何響應其生長條件的變化。”
就像北卡羅來納大學教堂山分校的研究人員一樣,Chong對高性能計算(HPC)云計算服務可以提供的強大功能和靈活性表示贊賞。他說:“我們的高性能計算需要滿足一系列要求,有些用戶希望采用大量的處理器,而其他用戶則需要采用高內存。作為生物學家,我們使用的一些應用程序很快就會綁定到I/O,因此通過超高速磁盤訪問也很有用。”
約克大學使用的云計算高性能計算(HPC)還具有適應不斷變化的需求的能力。Chong指出,“我們中的許多人開始使用機器學習技術,并希望能夠利用不同的體系結構。約克大學的廣泛用戶意味著我們還需要訪問一系列不同的軟件包。”與大多數云計算高性能計算(HPC)一樣,約克大學使用的服務允許各種類型的研究人員輕松快速地在軟件工具之間切換,而不會將時間浪費在獲取、部署或配置問題上。
配備超級計算機的高性能計算(HPC)
盡管云計算高性能計算(HPC)服務具有某些優勢,但對于關注安全性和隱私的企業而言,它并不總是最佳或最合乎邏輯的選擇。Turek指出:“數據存放位置非常敏感。特別是當受到歐洲的GDPR法規限制時。”通用數據保護條例(GDPR)是歐盟發布的隱私法規。
為了解決隱私問題和對強大計算能力的需求,邁阿密大學最近選擇投資于基于本地的超級計算機的高性能計算(HPC)系統。最關鍵的是,該大學認為,擁有大量多維數據集的研究項目可以在專門設計的高性能超級計算機上運行得更快。
去年8月,邁阿密大學推出了基于Power Systems AC922服務器的新型IBM Triton超級計算機。邁阿密大學計算科學中心主任、數據和研究計算副教務長Nicholas Tsinoremas指出,已有2000多名學生和教員使用該系統從事氣候預測、基因組學、生物信息學、計算機視覺和人工智能等項目。
其部署雖然成功,但在初期卻遇到了一些障礙,幾乎所有采用高性能計算(HPC)的用戶都能遇到這種情況,無論其規模、領域或計算需求如何。Tsinoremas說,“遷移問題始終是一個問題,還必須解決用戶培訓和再培訓問題。新系統與傳統存儲系統的集成是另一個挑戰。”
所有這些問題都凸顯了一個事實,即高性能計算(HPC)系統是基于內部部署還是基于云計算,其采用需要大量的計劃和準備。Tsinoremas警告說,“企業具有專業知識是必要的,并且必須有一個計劃。了解工作負載的性質和要求也很重要。換句話說,采用者需要了解他們試圖解決的問題以及希望高性能計算(HPC)如何幫助解決這些問題。”
高性能計算(HPC)工作負載入門另一個要點是選擇正確的資源管理工具,該工具使組織能夠訪問和優化高性能計算(HPC)環境。Altair公司高級產品管理主管Jérémie Bourdoncle說,“無論是購買傳統的高性能計算(HPC)硬件環境,還是利用云中的高性能計算(HPC)或同時使用這兩者,選擇最適合組織的工作類型和吞吐量要求的高性能計算(HPC)工作負載管理器都是至關重要的。”Altair公司是一家模擬軟件和其他與HPC相關的供應商工具和服務,其工作負載管理器具有自動化作業調度以及管理、監視和報告功能。
Kissell建議采用一種注重知識、簡單、選擇和謹慎的采納策略。他說,“這可能是一段漫長的旅程,因此需要規劃行程,但要給自己機會進行調整。組織需要選擇一個簡單但具有代表性的測試用例,并且可以清楚地識別從高性能計算(HPC)仿真或分析中獲得的知識和見解。然后選擇針對自己的問題類別設計的軟件包的簡短列表,并進行更多的嘗試。”