我們現(xiàn)在有機會先發(fā)制人,評估最重要的資源流向了哪里。推理,AI模型基于存儲在其人工神經(jīng)元中的智能來分析新數(shù)據(jù)的過程是最耗能和最昂貴的AI建模實踐。需要達(dá)到的平衡是在不損害質(zhì)量和產(chǎn)量的情況下實施更可持續(xù)的解決方案。
是什么造就了一個模型
對于外行來說,可能很難想象AI和支撐編程的算法如何承擔(dān)如此廣泛的環(huán)境或經(jīng)濟負(fù)擔(dān)。ML的簡要概述將分兩個階段描述這一過程。
首先是訓(xùn)練模型開發(fā)智能,并在某些類別中標(biāo)記信息。例如,電子商務(wù)運營可能會將其產(chǎn)品和客戶習(xí)慣的圖像提供給模型,以允許它進一步詢問這些數(shù)據(jù)點。
第二個是識別或推理,模型將使用存儲的信息來理解新數(shù)據(jù)。例如,電子商務(wù)企業(yè)將能夠?qū)a(chǎn)品分類為類型、大小、價格、顏色和一系列其他細(xì)分,同時向客戶提供個性化的推薦。
推理階段是兩個階段中計算密集度較低的階段,但一旦大規(guī)模部署,例如在Siri或Alexa等平臺上部署,累積的計算可能會消耗大量電力,從而增加成本和碳排放。
也許推理和培訓(xùn)之間最刺耳的區(qū)別是用于支持它的資金。推論與銷售成本有關(guān),因此影響底線,而培訓(xùn)通常與研發(fā)支出有關(guān),研發(fā)支出與實際產(chǎn)品或服務(wù)的預(yù)算是分開的。
因此,推理需要專門的硬件來優(yōu)化成本和功耗效率,以支持可行、可擴展的業(yè)務(wù)模式-這是一種使業(yè)務(wù)利益和環(huán)境利益保持一致的解決方案,令人耳目一新。
隱性成本
第二代AI的領(lǐng)頭羊ChatGPT是一個巨大的推理成本的鮮明例子,每天高達(dá)數(shù)百萬美元(這甚至不包括它的培訓(xùn)成本)。
OpenAI最近發(fā)布的GPT-4的計算資源消耗估計是前一次迭代的三倍——傳言在16個專家模型上運行1.8萬億個參數(shù),據(jù)稱運行在128個GPU集群上,它將吞噬過多的能量。
提示的長度加劇了高計算需求,提示需要大量能量來為響應(yīng)提供支持。GPT-4的上下文長度從8000躍升到32000,這增加了推理成本,降低了GPU的效率。一成不變地,擴大AI規(guī)模的能力僅限于財力最雄厚的最大公司,而那些沒有必要資源的公司無法獲得,這使得它們無法利用這項技術(shù)的好處。
人工智能的力量
AIGC和大型語言模型可能會對環(huán)境造成嚴(yán)重影響。所需的計算能力和能源消耗導(dǎo)致了大量的碳排放。關(guān)于一次AI查詢的碳足跡的數(shù)據(jù)有限,但一些分析師建議,它比搜索引擎查詢的碳足跡高四到五倍。
一項估計將ChatGPT的用電量與17.5萬人的用電量進行了比較。早在2019年,麻省理工學(xué)院發(fā)布的一項研究表明,通過訓(xùn)練一個大型AI模型,二氧化碳的排放量為62.6萬磅,幾乎是普通汽車終身排放量的五倍。
盡管有一些令人信服的研究和斷言,但在AI及其碳排放方面缺乏具體數(shù)據(jù)是一個主要問題,如果我們要推動變革,就需要糾正這一問題。托管新一代AI模型的企業(yè)和數(shù)據(jù)中心也必須積極應(yīng)對環(huán)境影響。通過優(yōu)先考慮更節(jié)能的計算架構(gòu)和可持續(xù)實踐,業(yè)務(wù)要務(wù)可以與限制氣候退化的支持努力保持一致。
計算機的局限性
CPU是計算機的組成部分,負(fù)責(zé)執(zhí)行指令和數(shù)學(xué)運算——它每秒可以處理數(shù)百萬條指令,直到不久前,它還一直是推理的首選硬件。
最近,出現(xiàn)了從CPU到運行繁重的深度學(xué)習(xí)處理的轉(zhuǎn)變,使用連接到CPU的配套芯片作為卸載引擎-也稱為深度學(xué)習(xí)加速器(DLA)。出現(xiàn)問題的原因是托管那些DLA的CPU試圖處理進出推理服務(wù)器的大量吞吐量數(shù)據(jù)移動,以及向DLA提供輸入數(shù)據(jù)的數(shù)據(jù)處理任務(wù)以及關(guān)于DLA輸出數(shù)據(jù)的數(shù)據(jù)處理任務(wù)。
再一次,作為一個串行處理組件,CPU正在造成一個瓶頸,它根本不能像保持這些DLA忙碌所需的那樣有效地執(zhí)行。
當(dāng)一家公司依靠CPU來管理深度學(xué)習(xí)模型中的推理時,無論DLA有多強大,CPU都會達(dá)到最佳閾值,然后開始在重量下彎曲。想一想,一輛車只能以發(fā)動機允許的速度行駛:如果一輛較小的車的發(fā)動機被一輛跑車的發(fā)動機取代,較小的車將與較強的發(fā)動機發(fā)揮的速度和加速能力脫節(jié)。
CPU主導(dǎo)的AI推理系統(tǒng)也是如此——一般是DLA,更具體地說是GPU,它們以驚人的速度行駛,每秒完成數(shù)萬個推理任務(wù),在有限的CPU減少其輸入和輸出的情況下,無法實現(xiàn)它們所能實現(xiàn)的功能。
對系統(tǒng)范圍解決方案的需求
正如NVIDIA首席執(zhí)行官Jensen Huang所說:“AI需要對計算進行一次徹底的改造。從芯片到系統(tǒng)。”
隨著AI應(yīng)用程序和專用硬件加速器(如GPU或TPU)的指數(shù)級增長,我們需要將注意力轉(zhuǎn)向這些加速器周圍的系統(tǒng),并構(gòu)建系統(tǒng)范圍的解決方案,以支持利用這些DLA所需的數(shù)據(jù)處理的數(shù)量和速度。我們需要能夠處理大規(guī)模AI應(yīng)用的解決方案,以及以更低的成本和能源投入完成無縫模型遷移的解決方案。
替代以CPU為中心的AI推理服務(wù)器勢在必行,以提供高效、可擴展且在財務(wù)上可行的解決方案,以維持企業(yè)對AI不斷增長的需求,同時解決AI使用增長帶來的環(huán)境連鎖反應(yīng)。
使AI民主化
目前,行業(yè)領(lǐng)先者提出了許多解決方案,同時降低了其成本。關(guān)注綠色能源為AI提供動力可能是一條途徑;另一條途徑可能是在一天中可再生能源可用的特定時間點對計算過程進行計時。
有一種觀點認(rèn)為,數(shù)據(jù)中心的AI驅(qū)動的能源管理系統(tǒng)將節(jié)省成本,并改善運營的環(huán)境憑證。除了這些策略,AI最有價值的投資之一在于硬件。這是其所有處理的支柱,并承擔(dān)著能量消耗計算的重量。
一個能夠以更低的財務(wù)和能源成本支持所有處理的硬件平臺或AI推理服務(wù)器芯片將是變革性的。這將是我們實現(xiàn)AI民主化的方式,因為較小的公司可以利用不依賴大企業(yè)資源的AI模式。
ChatGPT查詢機每天需要數(shù)百萬美元才能運行,而另一種以低得多的功率和數(shù)量的GPU運行的片上服務(wù)器解決方案將節(jié)省資源,并減輕世界能源系統(tǒng)的負(fù)擔(dān),導(dǎo)致具有成本意識和環(huán)保的第二代AI,并可供所有人使用。
關(guān)于企業(yè)網(wǎng)D1net(hfnxjk.com):
國內(nèi)主流的to B IT門戶,同時在運營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。同時運營19個IT行業(yè)公眾號(微信搜索D1net即可關(guān)注)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。