精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:云計(jì)算技術(shù)專區(qū) → 正文

邊緣計(jì)算探索:處理器,算法與內(nèi)存

責(zé)任編輯:cres 作者:矽說 |來源:企業(yè)網(wǎng)D1Net  2018-05-11 13:45:22 本文摘自:矽說

什么是邊緣計(jì)算
 
最近,邊緣計(jì)算成為了人工智能和物聯(lián)網(wǎng)領(lǐng)域非常熱門的關(guān)鍵詞。
 
人們對于人工智能和物聯(lián)網(wǎng)的最初設(shè)想是,在云端有一個(gè)異常強(qiáng)大的數(shù)據(jù)中心,而物聯(lián)網(wǎng)各個(gè)節(jié)點(diǎn)負(fù)責(zé)采集數(shù)據(jù)交給云端,云端在根據(jù)數(shù)據(jù)分析并做決策后再把結(jié)果發(fā)還給終端。在這種模型中,云端負(fù)責(zé)智能計(jì)算,而終端節(jié)點(diǎn)負(fù)責(zé)數(shù)據(jù)采集以及決策執(zhí)行。
 
然而,這樣的設(shè)想在實(shí)際實(shí)現(xiàn)中遇到了不少困難。第一個(gè)困難來源于數(shù)據(jù)傳輸?shù)拈_銷。物聯(lián)網(wǎng)節(jié)點(diǎn)通常都使用無線網(wǎng)絡(luò)與云端做數(shù)據(jù)傳輸,而如果物聯(lián)網(wǎng)節(jié)點(diǎn)把不加任何處理的原始數(shù)據(jù)一股腦全部傳到云端,會(huì)導(dǎo)致帶寬需求爆炸,網(wǎng)絡(luò)基礎(chǔ)架構(gòu)沒法支撐如此高的帶寬。開銷的另一部分是無線傳輸?shù)墓模绻褦?shù)據(jù)不加任何處理就傳輸?shù)皆贫耍敲唇K端節(jié)點(diǎn)的無線傳輸模塊必須支持高速無線傳輸,這就意味著無線模塊需要很大的功耗,與物聯(lián)網(wǎng)節(jié)點(diǎn)低功耗的設(shè)想不符。第二個(gè)困難在于延遲。許多節(jié)點(diǎn)執(zhí)行的任務(wù)對于延遲非常敏感,例如無人駕駛,例如安防,在這些應(yīng)用中網(wǎng)絡(luò)傳輸帶來的延遲(幾十毫秒以上,有時(shí)候網(wǎng)絡(luò)信號不好會(huì)帶來數(shù)秒的延遲甚至掉線)無法被接受。
 
考慮到這些問題,邊緣計(jì)算就成為了解決方案。在邊緣計(jì)算中,終端節(jié)點(diǎn)不再是完全不負(fù)責(zé)計(jì)算,而是做一定量的計(jì)算和數(shù)據(jù)處理,之后把處理過的數(shù)據(jù)再傳遞到云端。這樣一來延遲和帶寬的問題可以解決,因?yàn)橛?jì)算在本地,而且處理過的數(shù)據(jù)一定是從原始數(shù)據(jù)中進(jìn)行過精煉的數(shù)據(jù)所以數(shù)據(jù)量會(huì)小很多。當(dāng)然,具體要在邊緣做多少計(jì)算也取決于計(jì)算功耗和無線傳輸功耗的折衷——終端計(jì)算越多,計(jì)算功耗越大,無線傳輸功耗通常就可以更小,對于不同的系統(tǒng)存在不同的最優(yōu)值。
 
對于邊緣計(jì)算系統(tǒng),處理器、算法和存儲(chǔ)器是整個(gè)系統(tǒng)中最關(guān)鍵的三個(gè)要素。下面我們仔細(xì)分析這幾個(gè)元素。
 
用于邊緣計(jì)算的處理器:要多通用?是否要上專用加速器?
 
常規(guī)物聯(lián)網(wǎng)終端節(jié)點(diǎn)的處理器是一塊簡單的MCU,以控制目的為主,運(yùn)算能力相對較弱。如果要在終端節(jié)點(diǎn)加邊緣計(jì)算能力,有兩種做法,第一是把這塊MCU做強(qiáng),例如使用新的指令集增加對矢量計(jì)算的支持,使用多核做類似SIMD的架構(gòu)等等;第二種是走異構(gòu)計(jì)算的思路,MCU還是保持簡單的控制目的,計(jì)算部分則交給專門的加速器IP來完成,目前正火的AI芯片其實(shí)大部分做的就是這樣的一個(gè)專用人工智能算法加速器IP。顯然,前一種思路做出來通用性好,而第二種思路則是計(jì)算效率高。未來預(yù)期兩種思路會(huì)并行存在,平臺型的產(chǎn)品會(huì)使用第一種通用化思路,而針對某種大規(guī)模應(yīng)用做的定制化產(chǎn)品則會(huì)走專用加速器IP的思路。然而,IoT終端的專用加速器IP設(shè)計(jì)會(huì)和其他領(lǐng)域(如手機(jī))的專用加速器設(shè)計(jì)有所不同,因?yàn)橛袃?nèi)存的限制(見下面分析)。
 
算法與內(nèi)存
 
眾所周知,目前最主流的深度神經(jīng)網(wǎng)絡(luò)模型大小通常在幾MB甚至幾百M(fèi)B,這就給在物聯(lián)網(wǎng)節(jié)點(diǎn)端的部署帶來了挑戰(zhàn)。物聯(lián)網(wǎng)節(jié)點(diǎn)端處于成本和體積的考量不能加DRAM,一般用FLASH(同時(shí)用于存儲(chǔ)操作系統(tǒng)等)作為系統(tǒng)存儲(chǔ)器。我們可以考慮用FLASH來存儲(chǔ)模型權(quán)重信息,但是緩存必須在處理器芯片上完成,因?yàn)镕LASH的寫入速度比較慢。由于緩存大小一般都是在幾百KB到1MB數(shù)量級,這就限制了模型的大小,因此算法必須能把模型做到很小,這也是為什么最近“模型壓縮”這個(gè)話題會(huì)這么火的原因。
 
如果算法無法把模型做到很小,就需要考慮內(nèi)存內(nèi)計(jì)算。內(nèi)存內(nèi)計(jì)算(in-memory computing)是一種與傳統(tǒng)馮諾伊曼架構(gòu)不同的計(jì)算方式。馮諾伊曼架構(gòu)的做法是把處理器計(jì)算單元和存儲(chǔ)器分開,需要時(shí)處理器從存儲(chǔ)器讀數(shù)據(jù),之后在處理器處理完了數(shù)據(jù)之后再寫回存儲(chǔ)器。因此傳統(tǒng)使用馮諾伊曼架構(gòu)的專用加速器大部分也需要配合DRAM內(nèi)存使用,使得這樣的方案在沒法加DRAM的物聯(lián)網(wǎng)節(jié)點(diǎn)端難以部署。內(nèi)存內(nèi)計(jì)算則是直接在內(nèi)存內(nèi)做計(jì)算而無需把數(shù)據(jù)取到處理器里,這樣就節(jié)省了內(nèi)存存取的額外開銷。一塊內(nèi)存內(nèi)計(jì)算的加速器的主體就是一塊大SRAM或者Flash,然后在內(nèi)存上再加一些計(jì)算電路,從而直接在內(nèi)存內(nèi)做計(jì)算,理想情況下就能在沒有DRAM的情況下跑起來相關(guān)算法。
 
當(dāng)然內(nèi)存內(nèi)計(jì)算也有自己的挑戰(zhàn)。出了編程模型需要仔細(xì)考慮之外,內(nèi)存內(nèi)計(jì)算目前的實(shí)現(xiàn)方案本質(zhì)上都是做模擬計(jì)算,因此計(jì)算精度有限,F(xiàn)P32之類的高精度肯定是不可能了。這就需要人工智能模型和算法做相應(yīng)配合,對于低精度計(jì)算(即量化計(jì)算,quantized computation)有很好的支持,避免在低精度計(jì)算下?lián)p失太多正確率。目前已經(jīng)有不少binary neural network(BNN)出現(xiàn),即計(jì)算的時(shí)候只有1位精度0或者1,并且仍然能保持合理的分類準(zhǔn)確率。
 
另一方面,目前IoT節(jié)點(diǎn)終端內(nèi)存不夠的問題除了可以用模型壓縮來解決之外,另一條路就是使用新存儲(chǔ)器解決方案來實(shí)現(xiàn)高密度片上內(nèi)存,或者加速片外非易失性存儲(chǔ)器的讀寫速度,并降低讀寫功耗。因此,邊緣計(jì)算也將會(huì)催生新內(nèi)存器件,例如MRAM,ReRAM等等。
 
總結(jié)
 
邊緣計(jì)算是人工智能和物聯(lián)網(wǎng)結(jié)合的產(chǎn)物,是未來的重要趨勢。未來邊緣計(jì)算的關(guān)鍵技術(shù),包括新處理器(強(qiáng)通用處理器或?qū)S眉铀倨?,內(nèi)存內(nèi)計(jì)算,網(wǎng)絡(luò)模型壓縮,以及新存儲(chǔ)器。喜歡新技術(shù)的朋友們不妨多多關(guān)注這些領(lǐng)域,預(yù)計(jì)會(huì)出現(xiàn)不少有趣的公司和技術(shù)。

關(guān)鍵字:邊緣計(jì)算

本文摘自:矽說

x 邊緣計(jì)算探索:處理器,算法與內(nèi)存 掃一掃
分享本文到朋友圈
當(dāng)前位置:云計(jì)算技術(shù)專區(qū) → 正文

邊緣計(jì)算探索:處理器,算法與內(nèi)存

責(zé)任編輯:cres 作者:矽說 |來源:企業(yè)網(wǎng)D1Net  2018-05-11 13:45:22 本文摘自:矽說

什么是邊緣計(jì)算
 
最近,邊緣計(jì)算成為了人工智能和物聯(lián)網(wǎng)領(lǐng)域非常熱門的關(guān)鍵詞。
 
人們對于人工智能和物聯(lián)網(wǎng)的最初設(shè)想是,在云端有一個(gè)異常強(qiáng)大的數(shù)據(jù)中心,而物聯(lián)網(wǎng)各個(gè)節(jié)點(diǎn)負(fù)責(zé)采集數(shù)據(jù)交給云端,云端在根據(jù)數(shù)據(jù)分析并做決策后再把結(jié)果發(fā)還給終端。在這種模型中,云端負(fù)責(zé)智能計(jì)算,而終端節(jié)點(diǎn)負(fù)責(zé)數(shù)據(jù)采集以及決策執(zhí)行。
 
然而,這樣的設(shè)想在實(shí)際實(shí)現(xiàn)中遇到了不少困難。第一個(gè)困難來源于數(shù)據(jù)傳輸?shù)拈_銷。物聯(lián)網(wǎng)節(jié)點(diǎn)通常都使用無線網(wǎng)絡(luò)與云端做數(shù)據(jù)傳輸,而如果物聯(lián)網(wǎng)節(jié)點(diǎn)把不加任何處理的原始數(shù)據(jù)一股腦全部傳到云端,會(huì)導(dǎo)致帶寬需求爆炸,網(wǎng)絡(luò)基礎(chǔ)架構(gòu)沒法支撐如此高的帶寬。開銷的另一部分是無線傳輸?shù)墓模绻褦?shù)據(jù)不加任何處理就傳輸?shù)皆贫耍敲唇K端節(jié)點(diǎn)的無線傳輸模塊必須支持高速無線傳輸,這就意味著無線模塊需要很大的功耗,與物聯(lián)網(wǎng)節(jié)點(diǎn)低功耗的設(shè)想不符。第二個(gè)困難在于延遲。許多節(jié)點(diǎn)執(zhí)行的任務(wù)對于延遲非常敏感,例如無人駕駛,例如安防,在這些應(yīng)用中網(wǎng)絡(luò)傳輸帶來的延遲(幾十毫秒以上,有時(shí)候網(wǎng)絡(luò)信號不好會(huì)帶來數(shù)秒的延遲甚至掉線)無法被接受。
 
考慮到這些問題,邊緣計(jì)算就成為了解決方案。在邊緣計(jì)算中,終端節(jié)點(diǎn)不再是完全不負(fù)責(zé)計(jì)算,而是做一定量的計(jì)算和數(shù)據(jù)處理,之后把處理過的數(shù)據(jù)再傳遞到云端。這樣一來延遲和帶寬的問題可以解決,因?yàn)橛?jì)算在本地,而且處理過的數(shù)據(jù)一定是從原始數(shù)據(jù)中進(jìn)行過精煉的數(shù)據(jù)所以數(shù)據(jù)量會(huì)小很多。當(dāng)然,具體要在邊緣做多少計(jì)算也取決于計(jì)算功耗和無線傳輸功耗的折衷——終端計(jì)算越多,計(jì)算功耗越大,無線傳輸功耗通常就可以更小,對于不同的系統(tǒng)存在不同的最優(yōu)值。
 
對于邊緣計(jì)算系統(tǒng),處理器、算法和存儲(chǔ)器是整個(gè)系統(tǒng)中最關(guān)鍵的三個(gè)要素。下面我們仔細(xì)分析這幾個(gè)元素。
 
用于邊緣計(jì)算的處理器:要多通用?是否要上專用加速器?
 
常規(guī)物聯(lián)網(wǎng)終端節(jié)點(diǎn)的處理器是一塊簡單的MCU,以控制目的為主,運(yùn)算能力相對較弱。如果要在終端節(jié)點(diǎn)加邊緣計(jì)算能力,有兩種做法,第一是把這塊MCU做強(qiáng),例如使用新的指令集增加對矢量計(jì)算的支持,使用多核做類似SIMD的架構(gòu)等等;第二種是走異構(gòu)計(jì)算的思路,MCU還是保持簡單的控制目的,計(jì)算部分則交給專門的加速器IP來完成,目前正火的AI芯片其實(shí)大部分做的就是這樣的一個(gè)專用人工智能算法加速器IP。顯然,前一種思路做出來通用性好,而第二種思路則是計(jì)算效率高。未來預(yù)期兩種思路會(huì)并行存在,平臺型的產(chǎn)品會(huì)使用第一種通用化思路,而針對某種大規(guī)模應(yīng)用做的定制化產(chǎn)品則會(huì)走專用加速器IP的思路。然而,IoT終端的專用加速器IP設(shè)計(jì)會(huì)和其他領(lǐng)域(如手機(jī))的專用加速器設(shè)計(jì)有所不同,因?yàn)橛袃?nèi)存的限制(見下面分析)。
 
算法與內(nèi)存
 
眾所周知,目前最主流的深度神經(jīng)網(wǎng)絡(luò)模型大小通常在幾MB甚至幾百M(fèi)B,這就給在物聯(lián)網(wǎng)節(jié)點(diǎn)端的部署帶來了挑戰(zhàn)。物聯(lián)網(wǎng)節(jié)點(diǎn)端處于成本和體積的考量不能加DRAM,一般用FLASH(同時(shí)用于存儲(chǔ)操作系統(tǒng)等)作為系統(tǒng)存儲(chǔ)器。我們可以考慮用FLASH來存儲(chǔ)模型權(quán)重信息,但是緩存必須在處理器芯片上完成,因?yàn)镕LASH的寫入速度比較慢。由于緩存大小一般都是在幾百KB到1MB數(shù)量級,這就限制了模型的大小,因此算法必須能把模型做到很小,這也是為什么最近“模型壓縮”這個(gè)話題會(huì)這么火的原因。
 
如果算法無法把模型做到很小,就需要考慮內(nèi)存內(nèi)計(jì)算。內(nèi)存內(nèi)計(jì)算(in-memory computing)是一種與傳統(tǒng)馮諾伊曼架構(gòu)不同的計(jì)算方式。馮諾伊曼架構(gòu)的做法是把處理器計(jì)算單元和存儲(chǔ)器分開,需要時(shí)處理器從存儲(chǔ)器讀數(shù)據(jù),之后在處理器處理完了數(shù)據(jù)之后再寫回存儲(chǔ)器。因此傳統(tǒng)使用馮諾伊曼架構(gòu)的專用加速器大部分也需要配合DRAM內(nèi)存使用,使得這樣的方案在沒法加DRAM的物聯(lián)網(wǎng)節(jié)點(diǎn)端難以部署。內(nèi)存內(nèi)計(jì)算則是直接在內(nèi)存內(nèi)做計(jì)算而無需把數(shù)據(jù)取到處理器里,這樣就節(jié)省了內(nèi)存存取的額外開銷。一塊內(nèi)存內(nèi)計(jì)算的加速器的主體就是一塊大SRAM或者Flash,然后在內(nèi)存上再加一些計(jì)算電路,從而直接在內(nèi)存內(nèi)做計(jì)算,理想情況下就能在沒有DRAM的情況下跑起來相關(guān)算法。
 
當(dāng)然內(nèi)存內(nèi)計(jì)算也有自己的挑戰(zhàn)。出了編程模型需要仔細(xì)考慮之外,內(nèi)存內(nèi)計(jì)算目前的實(shí)現(xiàn)方案本質(zhì)上都是做模擬計(jì)算,因此計(jì)算精度有限,F(xiàn)P32之類的高精度肯定是不可能了。這就需要人工智能模型和算法做相應(yīng)配合,對于低精度計(jì)算(即量化計(jì)算,quantized computation)有很好的支持,避免在低精度計(jì)算下?lián)p失太多正確率。目前已經(jīng)有不少binary neural network(BNN)出現(xiàn),即計(jì)算的時(shí)候只有1位精度0或者1,并且仍然能保持合理的分類準(zhǔn)確率。
 
另一方面,目前IoT節(jié)點(diǎn)終端內(nèi)存不夠的問題除了可以用模型壓縮來解決之外,另一條路就是使用新存儲(chǔ)器解決方案來實(shí)現(xiàn)高密度片上內(nèi)存,或者加速片外非易失性存儲(chǔ)器的讀寫速度,并降低讀寫功耗。因此,邊緣計(jì)算也將會(huì)催生新內(nèi)存器件,例如MRAM,ReRAM等等。
 
總結(jié)
 
邊緣計(jì)算是人工智能和物聯(lián)網(wǎng)結(jié)合的產(chǎn)物,是未來的重要趨勢。未來邊緣計(jì)算的關(guān)鍵技術(shù),包括新處理器(強(qiáng)通用處理器或?qū)S眉铀倨?,內(nèi)存內(nèi)計(jì)算,網(wǎng)絡(luò)模型壓縮,以及新存儲(chǔ)器。喜歡新技術(shù)的朋友們不妨多多關(guān)注這些領(lǐng)域,預(yù)計(jì)會(huì)出現(xiàn)不少有趣的公司和技術(shù)。

關(guān)鍵字:邊緣計(jì)算

本文摘自:矽說

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 兴化市| 广南县| 客服| 望谟县| 庆云县| 沁阳市| 南阳市| 湖州市| 宁津县| 乾安县| 错那县| 增城市| 兴安盟| 苍溪县| 怀来县| 沙洋县| 长治县| 临澧县| 旬邑县| 奉化市| 青州市| 澄迈县| 沁源县| 浙江省| 绥中县| 唐海县| 鄂托克旗| 青冈县| 边坝县| 宁阳县| 顺义区| 广河县| 安丘市| 平罗县| 铜鼓县| 三穗县| 通州区| 隆化县| 汤原县| 青阳县| 绩溪县|