有效的IT組織可以尋求更廣泛使用人工智能的方式,通過從高性能計算(HPC)中吸取的經驗和教訓,將其重點放在系統級思考上。
每個組織都將使用人工智能技術,或者應該使用。人工智能對企業利潤和競爭優勢的潛在積極影響是不容忽視的。
如今,高性能計算(HPC)中心是支持大規模高性能應用(包括大規模人工智能)的專家。無論企業已經在實施人工智能,還是處于探索/思考的早期階段,都會從高效的高性能計算(HPC)企業中學習一些經驗教訓。
Digital Trends 公司2019年進行的調查發現,自去年以來,大型企業表示他們已經在使用人工智能的比例已經增加了50%,從2018年的24%上升到2019年的36%。只有26%的組織報告沒有計劃投資人工智能(低于前一年的35%)。
考慮到當前管理層對人工智能的思考,也許這并不奇怪。根據普華永道公司的一份調查報告,72%的企業高管認為人工智能將成為未來的商業優勢。如果客戶對企業的業務至關重要,可能會關注2019年數字趨勢的調查報告,客戶體驗(CX)領導者在其組織中使用人工智能的可能性幾乎是其他公司的兩倍。
當企業發現自己被推動評估和/或部署人工智能項目時,需要幫助避免轉向系統級思維模式。
高性能計算(HPC)——借用有效的習慣而不會陷入困境
高性能計算(HPC)具有非常高水平的聚合計算能力,為單個應用程序提供巨大的性能,遠遠超過性能最強大的臺式計算機或工作站,以解決在科學、工程或商業領域的重大問題。
人們可以從高性能計算(HPC)社區的經驗中學到一些東西,使其所有系統運行得更好。當然,高性能計算(HPC)具有一定的神秘感,并且具有明確的文化。但是,每個企業都可以受益于采用經過培訓的方法來導航人工智能、機器學習以及高性能計算(HPC)計算需求和機會。
高性能計算(HPC)與大型數據中心的區別在于是“相關計算的擴展”概念。如果說房地產與位置有關,那么高性能計算(HPC)與擴展有關。
并行編程的一個共同關注點,特別是在高性能計算(HPC)中,是測量應用程序的擴展效率(通常稱為可擴展性)。這種測量表明,當使用越來越多的并行處理單元(處理器、GPU、ASIC、FPGA等)時,應用程序的效率有多高。
同樣,對于最佳人工智能部署而言,真正重要的是擴展,其答案不是高性能計算(HPC)系統的精確副本。
有效的IT組織可以為尋求更廣泛使用人工智能的組織指明方向
與高性能計算(HPC)專家協商的最重要的共同點是:系統級思維很重要。由于這有一些寬泛和模糊,企業可以深入挖掘并將其改進為有效的高性能計算(HPC)組織的七個關鍵的經驗教訓。
1. 大量投資于采購活動
如今有很多高性能計算(HPC)系統被收購,也有一些很好機會被閑置,因為沒有時間認真評估它。企業可以從研究高性能計算(HPC)中心獲得很多見解,這些中心在投資新的超級計算機時一直在尋找機會、復雜性和風險。幾年前,行業專家發表了一篇名為《最佳高性能計算(HPC)經理如何制定最佳采購決策》的文章,重點關注旨在“降低采購風險”的工作。這含蓄地包括了在采購后的幾年內仍然保持明智的需要。
為什么有人會聘請外部專家來幫助采購?Numerical Algorithms Group(NAG)的高性能計算(HPC)業務副總裁Andrew Jones解釋了為什么增強企業內部能力是有意義的:“許多企業都有能力在內部完成這項工作。我們幫助提升能力和經驗,擴充他們的團隊,增強他們的能力和經驗。大多數客戶每兩年只購買一臺新機器,而我們則持續參與高性能計算(HPC)規劃和采購項目。他們獲得了多年的豐富經驗,而不僅僅是我們與客戶共度的幾天或幾周。”
在與內部利益相關者、供應商和詳細技術調查的采購討論中投入大量時間的價值不應被忽視。即使企業不投資聘請外部專家,那么在正常工作之外的投資是多少?如果不能的話,那么其失敗是什么?
行業專家的對話反復回到堅持需要深入和誠實的競爭評估(組織自身的能力和缺點)、要求/基準、總體擁有成本和時間安排。以下討論基準測試和計時的重要性,作為高性能計算(HPC)的接下來的兩個教訓。
2.投資開發和使用公正的要求/基準
投資決策與組織的需求和目標緊密相連,這一點至關重要。實現這一點的一個關鍵方法是“基準”。這不是指行業標準,而是指代表企業希望在采購的機器上運行的實際工作量的基準。企業不應該關心其機器能以多快的速度運行供應商喜歡展示的應用程序——企業關心在其內部的重要應用程序。
讓供應商與企業的基準測試建議的系統是一項共同的努力。企業的潛在購買量越大,供應商可能需要的努力就越多。提供機器訪問和協助是潛在客戶對供應商的一種常見要求——不要羞于詢問。但是,決定基準應該是什么,以及如何解釋它們取決于企業本身,這是一項非常重要的工作。
重要的是要記住,基準測試只是實際工作負載的近似值。但是,如果使用得當,他們可以提供關于對企業來說重要的工作負載的可能性能的有價值數據,以及獲得該性能所涉及的難度。
2019年數字趨勢的調查表明,如今55%的人工智能在組織中的使用主要集中在數據分析上。當進行基準測試時,企業需要將基準權重與實際操作相匹配。這做起來比聽起來難。在高性能計算(HPC)采購方面有經驗的人可以分享他們對如何處理這一問題的想法。
Andrew Jones分享說,“我們避免將采購選項標記為非此即彼的好或壞。與性能數據本身一樣重要的是,確定獲得該性能所需的努力,以及對性能背后架構的理解。特別是,我們努力尋找將購買決策與實際需求的風險聯系起來的信息。”
這在企業的經驗中非常重要——僅僅因為代碼可以運行得很快,并不意味著機器會運行得那么快。對機器上運行的內容進行真實的評估比想象機器上運行的內容更重要。當更多地提到“現代化努力”的時候,需要用一個不同的方式重新審視這個問題。
由于沒有企業只運行單一代碼——系統評估需要考慮性能可能性的權衡以及考慮選擇時的潛在性能損失。企業的最佳選擇通常是在大多數應用程序上“足夠好”的系統,在少數工作負載上表現優異,但在一些重要性較低的應用程序上可能會比較慢。為了這項努力,企業需要最好的批判性思考者,需要將它們付諸實踐。
過度關注系統如何提升一個基準測試不應該阻止人們看到更大的圖景,特別是如果增加需要額外的采購、部署和支持成本。那么是否可以使用額外成本來更廣泛地提高性能?
3.仔細考慮時間安排,制定明智的計劃
各種技術的可用時間可能會影響能力和競爭。技術應用的太早或太晚都會嚴重影響競爭力。分階段交付可能是升級系統以使用新技術的有力選擇。股票經紀人可以告訴有關成本和價值平均的信息,這同樣適用于計算,在不斷增加投資的過程中有能力讓企業在指導未來步驟的過程中學習。而企業了解供應商的長期路線圖對于管理風險很重要。
知名記者Nicole Hemsoth寫道,等待可能很重要。美國國家海洋和大氣管理局(NOAA)敏銳地意識到人工智能可以提供幫助,但需要仔細考慮。她還指出,“這一評估過程與那些認為采用人工智能獲益的大公司沒有什么不同,但需要仔細考慮它是如何和在哪里適用的,以及它是否足夠強化和穩定,以符合關鍵系統的要求。”
Tractica預測,在人工智能的廣泛應用下,到2025年,全球軟件的年收入將達到1058億美元(相比之下,2018年僅為81億美元)。他們預測電信、消費者、廣告、商業服務、醫療保健和零售業將成為六大采用者。這表示制定一個多年發展計劃可能是一個優勢。
4.支持應用程序,并向用戶學習
這不是說IT部門不支持他們的用戶。但要說的是,許多IT組織缺乏支持人工智能等新興用途的資金或章程。這造成了一個在高性能計算(HPC)世界中不太常見的差距。
如果人工智能對企業很重要,那么第一步應該是與用戶和供應商合作,以找到支持企業所擁有系統的需求的方法。那么人們可能會驚訝地發現,使用已有的系統可以很好地工作,一個巨大的好處就是能夠從中學習并成長。令人驚訝的是,這往往被忽視作為資源和試驗場。即使正在進行學習,通常也會在IT和用戶之間斷開連接。與大多數高性能計算(HPC)組織一樣,積極的IT組織密切參與支持和學習系統中最重要的工作負載。如果Python或Tensorflow對企業的用戶很重要,那么是否了解如何為部署的平臺獲得最優化的版本?
5.協調實現代碼現代化的實際計劃
每當技術和機器快速發展時,代碼也需要不斷發展。代碼現代化是一種編寫可擴展代碼的方法,該代碼使用多級并行來充分利用現代硬件性能。人們將看到在高性能計算(HPC)社區內繼續討論和推廣了多少代碼現代化,以及它帶來的積極影響。
致力采用高性能計算(HPC)的企業大量投資開源代碼,都致力于改進新系統的開源代碼。幾年前,Andrew Jones曾在英特爾并行計算中心(Intel PCC)就職,英特爾并行計算中心的資金用于更新多核處理器的開源項目,Andrew Jones參與編輯了兩本書籍,這兩本書籍由世界知名團隊通過工作來修改開源代碼以實現現代化。
在這次旅程中,代碼現代化比它最初出現的要重要得多,這是可以向IT組織提供的一個重要教訓,無論現代化的實際工作是在內部完成的、希望在開放源代碼中完成的、或在對外付費完成的。也可能是以上所有的混合。
有了這些見解,企業知道代碼現代化對人工智能的應用也很重要。高性能計算(HPC)應用的經驗表明,如果不投資代碼(尤其是在技術快速變化的情況下),往往會加強供應商的鎖定。與供應商鎖定相比,企業支付費用改進自己的代碼可能會更好。
6.將云與無云視為平衡行為,而不是選擇
盡管一些供應商正在大肆宣傳,但“云中的高性能計算(HPC)”的概念并未停止對高性能計算(HPC)硬件的投資。Intersect360 Research公司的調查報告表明,在2018年,大多數高性能計算(HPC)預算或者增加(46%),或者保持與前一年相同(38%),其中商業網站的增長最強勁。這就強化了這樣一個事實,即必須具備計算基礎設施方面的專業知識。
基于云計算的服務,包括AWS、Google、Azure和其他服務,提供各種平臺來進行試驗和早期部署。這可能會延遲擁有基礎設施專業知識的需要,并給這些專業知識一個在組織內成長的機會。雖然基于云計算的人工智能無疑是技術孵化的重要家園,但隨著人工智能計劃的擴展,企業發現自己需要構建和維護基礎設施。這對高性能計算(HPC)專家來說是不足為奇的。
當成本、性能和大量數據都很重要時,擁有自己的計算基礎設施專業知識更加重要。忽視這種對專業知識的需求是有風險的。
7.總擁有成本(TCO)——不只是從高性能計算(HPC)吸取的教訓
當提到關注獲得績效的成本(評估基準)、時間安裝(現在將獲得什么好處與等待)以及投資于采購和現代化以獲得真正平衡的方法時,將會涉及總體擁有成本。整個系統的一部分問題需要安全性,這也不是一個特定的高性能計算(HPC)問題(盡管高性能計算中心考慮了很多)。
總擁有成本(TCO)是第七個經驗和教訓,盡管總擁有成本(TCO)肯定不是高性能計算(HPC)獨有的,但它對高性能計算(HPC)來說確實非常重要。沒有什么比考慮整體情況更能說明“系統方法”——硬件、軟件、應用程序、安全性和人員。系統的價值是企業從中獲得的凈收益,而不是為實現它而投入的資本和費用(TCO)。
以系統方法為中心的七個經驗和教訓
經驗豐富的高性能計算(HPC)中心在實現大型高性能系統的采購和運營方面取得了巨大成功。有效的系統方法是他們成功的關鍵。這些成為任何企業冒險大規模支持人工智能的關鍵技巧。
當人們深入了解這七個經驗和教訓時,將采用這樣的系統方法:投資采購活動、開發和使用公正的基準、仔細考慮時機,大力投資支持應用程序和用戶社區,制定計劃實現代碼現代化,并管理總擁有成本。
高性能計算(HPC)的這些經驗和教訓可以為企業提供更多的幫助。但是,企業也沒有必要都成為高性能計算(HPC)技術的狂熱者。