在芯片上布一張互聯網
可能很多人對NetSpeed并不熟悉。這是一家專為移動設備、網絡系統和高性能計算市場提供高擴展性的緩存一致性片上網絡IP的新銳公司,2011年成立于美國硅谷,核心技術團隊來自思科與華為,投資方則包括英特爾、Imagination、華登國際等知名企業。2016年,根據技術、目標市場、財務能力和投資情況、成熟度和高級管理人員的資歷等標準,NetSpeed被EETimes列入“Silicon 60—2016年全球60家值得注意的新創科技公司”名單之中。
與其它競爭方案不同的是,NetSpeed的片上系統總線設計理念是將互聯網的網絡拓撲思想映射到芯片內部的設計中。即采用數據路由和分組交換技術替代傳統總線結構,旨在從架構上解決由于地址空間有限導致的傳統總線結構可擴展性差,分時通訊引起的通訊效率低下,以及全局時鐘同步引起的功耗和面積較大等問題。
通俗的講,“以前,我們可以把SoC中的視頻功能關掉,但總線是無論如何不能關的。但現在在Orion AI方案中,即便關掉一部分總線也沒問題,芯片仍然能夠正常工作。”黃啓弘說NetSpeed的做法,就是放棄傳統的總線理論,把所有的數據通過橋接模塊的形式分成數據包,然后再用互聯網的方法分發出去。
他將這種片上網絡(NoC)理念比喻成“在芯片上布了一張互聯網”。也就是說,傳統的方法傾向于孤立地優化各個子系統,從而導致瓶頸問題和采用過度的系統設計來處理最極端的情景,這對當前在視頻、語音、預測、機器人及診斷等應用中正漸入佳境的人工智能技術來說尤其不利。因為這些新興應用對處理能力提出了進階需求,推動計算架構發生天翻地覆的變化,并急劇改變著SoC的設計模式。用NetSpeed首席執行官Sundari Mitra的話來說,就是這些新SoC內部體現出的是一種新的數據流。
“以自動駕駛為例,這是人類第一次如此堅決的把身家性命交給半導體芯片來做決斷。”黃啓弘對《電子工程專輯》說,芯片設計師為此需要大量的計算單元來實現快速有效的點對點數據交換,需要保證信號回路沒有任何阻斷和延遲,再加上人工智能系統需要任意位置數據交換和支持長突發傳輸,采用中央存儲作為數據交換系統的傳統總線架構在這些需求面前幾乎處于完敗的境地。
用人工智能來優化SoC設計
于是,Orion AI出現了。
它是NetSpeed在AI SoC設計領域內的最新嘗試,因為NetSpeed認為這是一個展示自身優勢的絕佳的時間節點。
按照官方給出的說法,Orion AI是業界首款以人工智能為基礎的SoC芯片內部互連解決方案,由經過硅驗證的Orion IP構建而成。支持多播與廣播等先進特性,能極大提升人工智能SoC與加速器ASIC的性能與效率,可廣泛應用于數據中心、自動駕駛、AR/VR,以及先進視頻分析。
Orion AI架構
從技術角度來看,當一顆芯片內部集成了數百甚至上千個運算單元時,傳統總線架構需要針對不同的系統需求單獨進行設計,當系統功能擴展時,需要對現有設計方案重新設計,研發成本與設計周期均比較長,在性能、功耗、全局時鐘同步、信號完整性及可靠性等方面面臨的挑戰也將呈指數型增長。
NetSpeed的解決方案采用分層堆疊方式將網絡架構解耦,具有良好的可擴展性。當SoC片內網絡中節點數量增加時,僅需要按照相應拓撲結構規則繼續增大網絡規模即可,縮短了產品的設計周期,節約了研發成本。另外,傳統總線架構,每次信息交互都需要驅動全局互連線,因此總線結構所消耗的功耗將隨SoC規模增加而顯著增加,而在NetSpeed方案中,可以將一部分信號通路關掉,從而實現低功耗。
授權費用方面,盡管黃啓弘不能透露具體數字,但他承諾說“絕對低于arm的費用”,但也肯定高于普通接口IP的費用,通常是根據定制的復雜度來決定該怎么收費。NetSpeed一般會在授權完成之后對客戶進行1-2天的培訓,因為無論簡單還是復雜的工具,最后都是由AI工具自動生成RTL,所以商業模式相對比較靈活。
Orion AI由NetSpeed的圖靈機器學習引擎提供支持,該引擎使用監督學習來探索和優化SoC設計與架構。據稱這也是當前市場上唯一采用機器學習方法的產品,能在多次迭代之后慢慢收斂,精確地進行整體系統建模,以實現最優的應用性能。中國最牛的幾家互聯網公司之所以愿意與NetSpeed合作,也是看上了這一核心技術。
除了通過人工智能進行SoC設計之外,Orion AI的片上帶寬高達萬億字節每秒(TB/s),并具備支持數千計算引擎的底層架構。它提供超寬數據通路,接口位寬高達1024位,可支持高達4K字節的長突發傳輸,并可定制更高位寬。此外,為優化對自動駕駛應用的支持,Orion AI還通過了ISO 26262標準,可支持ASIL D級別安全要求。
Linley Group首席分析師Linley Gwennap對這種以人工智能為核心的設計方法給予了極高的評價,稱“就像有一位隨時在線的建筑大師給出設計建議。處理器架構師可以采納圖靈的建議,然后花時間去解決SoC設計中的其他難題。”
Turn-Key模式不適合我們
把人工智能技術從云端引入到終端,會遇到一些挑戰。首先,云端追求的是極致性能,對功耗沒有太多要求。但對終端設備而言,能耗卻是非常重要的指標,芯片需要滿足系統低功耗的要求。其次,是通用性與特殊性如何平衡。當一個終端產品從通用產品變成專用產品的時候,市場規模會小很多,例如做血液檢查的終端產品就只能做血液檢查,不能做別的事情。因此,對那些有志于從事嵌入式人工智能的人士來說,黃啓弘的建議是需要綜合考慮公司是否能做?怎么做?如何在性能、功耗和通用性三者之間找到平衡點等關鍵問題。
“我拜訪過很多人工智能公司,留給我的印象是如果不開發出幾款AI芯片,都不好意思說自己是這個行業里的人。”黃啓弘說從理論上來講,開發芯片永遠比賣算法要好,因為如果只有算法,對知識產權的保護還是相對比較弱的,一篇論文就可以讓天下人皆知。但很多公司此前之所以不愿意研發芯片,主要的顧慮在于芯片研發周期比較長,一旦出錯,上億的資金付之東流是常見的事情,代價太大。然而隨著中國政府對集成電路產業支持力度和對知識產權保護力度的不斷加強,AI公司看到了實現自主可控的希望,獨立開發芯片的意愿也更加強烈。
但“一千個人眼里有一千個哈姆雷特”,即便是同一個應用場景,不同客戶間也存在著不同的理解,導致芯片設計的復雜度也各不相同。因此,無論用戶采用通用還是定制化計算平臺,都可以在SoC設計中使用Orion AI解決方案,縮短研發周期,快速完成設計迭代,自然成為了NetSpeed的使命。
AI時代,傳統的SoC芯片高度集成,一家獨大的模式正在發生變化,由于不同場景對芯片、算法的需求各不相同,導致定制化計算平臺需求旺盛。黃啓弘說自己認同這樣的看法,的確是同一顆芯片,在不同的算法和應用中,也會產生不同的價值。但這是否就意味著以往的Turn-Key模式走向衰落?他認為并不一定。“因為很多做系統的人對芯片設計并不了解,這時要能給他一個Turn-Key的方案,說不定他就會借此把市場做大。但NetSpeed設計的是總線,不會參與到客戶最核心的神經網絡設計之中,因此Turn-Key這種模式不適合我們。”