AMD已經公布了一項野心勃勃的目標,即到2020年使其APU——也就是該公司打造的加速處理單元,包括集成在CPU、GPU、視頻加速乃至其它任何類似芯片之上的方案——在能源效率方面實現(xiàn)25倍的改進。
盡管AMD方面一直致力于這項目標的實現(xiàn),但其達成難度堪稱一座難以逾越的高峰。能源效率的提升已經不可能再像過去那樣隨著產品換代而自動實現(xiàn),因為依靠縮小芯片尺寸來獲得能效改善的道路已經走到了盡頭。
“能源效率的正常提升態(tài)勢已經開始衰退,單靠物理層面的換代已經無法支撐進一步優(yōu)化,”AMD公司研究員Sam Naffziger在上周五接受采訪時解釋道。“我們已經在某些方面將晶體管尺寸壓縮至最低,而電壓也穩(wěn)定在1伏左右。”
在1974年發(fā)布的一篇堪稱里程碑的論文當中,Robert Dennard為處理規(guī)模劃定了指導方針,但這一切如今已經無以為繼,Naffziger指出。“根據(jù)Dennard給出的思路,在理想狀況下我們可以在三維空間內實現(xiàn)設備規(guī)??s減并借此實現(xiàn)高達四倍的能源效率提升,沒錯,這就是最后一招王牌。我們仍然能夠進一步改善能源效率——每代產品也許提升30%、也許提升50%,這當然已經非常出色,不過如此幅度已經沒辦法跟當初相提并論了。”
換句話來說,當談到能源效率改進時,僅僅縮小芯片的制程工藝已經無法滿足現(xiàn)實世界對于提升幅度的渴求了。信息與通信技術產業(yè)的要求越來越高,芯片制造商可以選擇的方案卻幾盡枯竭。
這種渴求已經達到近乎貪婪的程度。根據(jù)斯坦福大學Jonathan Koomey得出的研究結果,信息與通信技術所需要的能源總量正快速增長。隨著聯(lián)網設備數(shù)量的爆炸式膨脹與互聯(lián)網用戶規(guī)模的持續(xù)攀升,數(shù)字化內容的消耗量也以驚人之勢迅猛擴張,這就要求我們擁有足夠的數(shù)據(jù)中心對其加以處理——到2020年,數(shù)據(jù)中心消耗的電力將占全球總體電力產出的14%,而這一數(shù)字大約占到全球碳排放能源總量的2%左右。
很明顯,是時候作出變革了——而且越快越好
“我們的目標是,”Naffziger指出“通過智能化能源管理以及貫穿整個架構與軟件體系的優(yōu)化手段降低能源消耗的整體增長速度,從而抵消芯片能源利用效率與過去相比所出現(xiàn)的增幅下滑。”
順帶一提,在談到能源效率的時候,Naffziger指的是由美國環(huán)境保護總署創(chuàng)建的能源之星志愿計劃所規(guī)定的“典型使用”效率。“能源之星設立的規(guī)范為其下達了準確的定義——能源效率是指在典型使用情況下、由能源消耗計算出的設備能耗狀態(tài)加權總值,”他解釋道。“我們目前的工作正是對于這類典型使用場景進行性能優(yōu)化。”
根據(jù)Naffziger的說法,AMD在過去六年當中已經將典型使用情況下的能源效率提升了約10倍——是指從2008年的“Puma”到2014年的“Kaveri”芯片,二者針對的都是筆記本設備。
AMD在過去六年中已經取得了令人矚目的進展,而現(xiàn)在他們計劃將能源效率優(yōu)化節(jié)奏提高一倍
這樣的成績還不錯,但仍然無法令其滿意,Naffziger坦言。芯片尺寸壓縮所帶來的效率改善一直遵循但卻落后于Dennard所提出的準則,他表示,在理想情況下效率提升幅度應該達到14倍。
“我們需要取得效果更好、更進一步的科研成果,”他指出,而AMD也確實制定了一套關于如何在本個十年結束之前達成25倍能效提升成果的詳盡路線圖——該公司把這個項目命名為“25 X 20”。
目前AMD及其它芯片廠商確實已經在這一領域取得了一定程度的良好成果。能源管理在最近幾年中變得更為智能且更加細化,而就趨勢來看在同一塊處理器上納入更多計算核心與其它組件也確實能夠減少多路跨越傳輸所帶來的能源空耗。
在此基礎上,AMD還積極在其產品線當中引入 了異構式系統(tǒng)架構(簡稱HSA)。通過異構式統(tǒng)一內存訪問(簡稱hUMA)與異構式隊列(簡稱hQ)機制,CPU與GPU核心能夠共同使用同一套系統(tǒng)內存。由于CPU無需再額外為GPU提供所要處理的數(shù)據(jù),因此這種方案在執(zhí)行效率上提升明顯——GPU會以智能化方式自行提取數(shù)據(jù)內容。除此之外,利用GPU作為計算核心的APU還能在某些合適的處理任務中為CPU分擔工作負載,從而大大降低后者的運轉強度。
現(xiàn)在真正的工作才剛剛開始
但還將有更多計劃相繼出現(xiàn),Naffziger告訴我們。舉例來說,盡管內置在芯片當中的能源管理機制在過去幾年中正變得愈發(fā)智能,但其中仍然存在著尚有潛力可挖的效率提升可能。
就目前來看,AMD APU擁有三大主要電壓輸送平臺——各個區(qū)域通過自己的電力來源獲得必要的運作動力。電壓平臺越多,控制手段也就更細化,對能耗的控制自然越具體。
舉例來說,Naffziger表示,GPU與北橋芯片——也就是內存接口——共享同一套電壓平臺。“在大多數(shù)情況下,GPU其實根本無事可做,”他指出。“但北橋芯片卻始終需要為CPU提供數(shù)據(jù),因此系統(tǒng)就得為二者的電壓平臺準備充足的能源。”
GPU由芯片上的開關機制控制其能源供給,他解釋道,但這套開關機制“并不完美——它們切實生效的情況僅占約10%——而且在很多情況下我們壓根無法使用這種能源供給控制功能。”解決方案是:將GPU、北橋芯片、CPU、緩存以及其它各類組件分別指派給彼此獨立的電壓平臺??刂剖侄卧蕉?,能源效率自然也就越高,因為芯片上的每一部分都將能夠恰如其分地獲得不多不少的能源供給。
“就目前來看,這項工作可以說是看起來容易做起來難,”Naffziger表示。芯片的智能化演變需要以透徹掌握具體處理實例所需要的精確能源供給為前提——雖然困難重重,但將芯片細分為多個電壓平臺已經是解決問題的良好開端。
“一旦我們對電壓平臺進行細分,”他解釋道,“接下來就可以實現(xiàn)對每一種平臺的具體優(yōu)化——我們將在這里使用大量自適應技術。我們已經部署過其中一部分,但大多數(shù)實現(xiàn)這類實時自適應效果的必要技術尚處于開發(fā)過程中。”
正如我們在本月早些時候對AMD的Kaveri芯片進行剖析時所解釋,該芯片模板當中排列有數(shù)千個監(jiān)控單元,有些用于追蹤芯片溫度、還有一大部分在時刻關注處理活動與能源使用情況。來自這些監(jiān)控單元的信息將被用于強化、削弱、關閉或者保持某些模塊元素,其目的只有一個——保持芯片始終擁有最為高效的執(zhí)行狀態(tài)。
芯片上的微控制器專門負責管理來自數(shù)千個傳感器的數(shù)據(jù)
盡管這聽起來非常簡單,但利用這些監(jiān)測數(shù)據(jù)來實時進行芯片調整、進而實現(xiàn)運行狀態(tài)優(yōu)化實際上非常困難。舉個例子,盡管溫度傳感器所提供的有價值反饋能夠被用于調節(jié)功率,但另有一個內置的熱延遲溫度傳感裝置,而這種延遲狀況無法被納入單純報告活動或者當前功耗情況的監(jiān)控單元的考量范圍。
為了解決這一溝通難題,Naffziger表示,目前的方案之一在于利用與功耗及執(zhí)行活動相關的數(shù)據(jù)預先為即將到來的溫度變更作好準備——舉例來說,提高風扇轉速或者將處理任務由即將發(fā)熱的計算核心轉移到另一個溫度較低、能夠充分利用的核心。
“這還只是我們早期創(chuàng)新工作階段中的一個例子,”他指出。“還有很多機會允許我們以實時方式處理這類調整任務。”
Neffziger還談到了“爭取閑置”這一概念——這并不是什么新鮮思路,但卻能切實通過在短時間內提高功率來獲得更高的處理性能,從而在短時間內完成任務運算、并在隨后的時間內持續(xù)保持閑置狀態(tài)。很明顯,這樣的作法要比讓核心拖拖拉拉慢慢處理計算任務更能節(jié)約能源。
作為例子,他提到了“幀間能源選通”方案,也就是說對某一視頻幀進行快速渲染、然后在下一幀到來之前讓渲染器保持關閉并將內存調整至低功耗甚至是休眠狀態(tài)。這聽起來似乎是種反直覺的處理方式,畢竟視頻幀對于我們來說似乎更像是一種連續(xù)的處理過程——但從處理器的角度看,根據(jù)幀率的不同、整個處理過程肯定是分段進行的。
“兩幀之間的時間間隔是33毫秒,”他解釋稱,“但大家可以將其擴大到一整天來理解。如果對單一視頻幀的渲染需要5到10毫秒時間,那么余下的20多毫秒完全可以用于休息、恢復精力。”
聽起來可能有點怪異,但通過這種方式、大家確實能夠感受到總功耗的顯著降低
更重要的是,不同的視頻在處理時需要的性能也不盡相同,因此并不是每幀內容都要花費同樣的渲染時長。APU的視頻硬件有能力完成要求最為苛刻的處理任務,因此它可以說是一套過度配置的方案,Nafziger告訴我們。對于大多數(shù)視頻來說,根本用不到芯片的全部處理能力,因此在每幀之間進行休眠能夠節(jié)約大量能源。
每一項優(yōu)化機制都需要軟件與硬件團隊之間的緊密配合,而且研發(fā)過程也很可能極為緩慢。“大家可能會驚訝于這項工作需要花費的時間。我們首先需要推出原型方案,然后處理其中存在的漏洞。一般來講,其開發(fā)周期長達三年,”他表示。
“如果我們不徹底完成這項耗時多年的知識產權內容的開發(fā)工作,公司絕不會冒然公布那些令人難以置信的能源效率提升目標,”這位“信心滿滿”的技術人員這樣評論AMD放出的六年能效提升25倍這一遠景方案,甚至甘于承受芯片本身可榨取空間已經越來越少的風險。