編者按:本文來自微信公眾號“騰訊研究院”(ID:cyberlawrc),作者張孝榮、殷竹馨;36氪經授權發布。
隨著AI產業快速突破,各大公司在AI領域的人才動向也在引起極大關注,你來我往、歸去來兮,AI江湖上大有一片血雨腥風之勢。當然,AI領軍人物的變動,會對具體公司業務造成影響。但從整個行業來看,人才流動的頻繁,反倒有可能促進產業的整體進程。
不信你翻翻歷史。AI這門功夫自1956年問世以來,至今已經歷60年風風雨雨,一直是流派眾多,難學難練,沒有大成。
難學,是因為必須要掌握一種叫做“算法”的神功;難練,是因為需要有足夠算力,能夠處理數據樣本,訓練機器。
幾十年來,一直是有算法沒算力,甚至于有人認為,人工智能就是一個科幻,就是小說家跟人類開的一個玩笑而已。誰也沒想到,進入21世紀后算力大爆炸。引發了整個AI產業開天辟地般的變化。
其中,算法上升為天——深度學習,分成DBN,CNN,BP,RBM等等諸多分支,其中佼佼者當屬CNN(convolutional neural networks),人稱卷積神經網絡,應用廣泛。
算力,下降為地——AI芯片。各種芯片如雨后春筍涌現,拿過來訓練機器,得心應手啊。
廟堂之上也為AI駕臨人間雀躍不已。世界各國意識到人工智能的重要性,紛紛簞食壺漿,以迎AI。
聯合國于2016年發布告示,召集人類討論機器人的制造和使用如何促進人工智能的進步,以及可能帶來的社會與倫理問題。
美國政府于2016年連續頒發三道金牌:《美國國家人工智能研發戰略計劃》、《為人工智能的未來做好準備》、《人工智能、自動化與經濟報告》,宣稱加入人工智能教派,并且描繪了此舉能帶來的種種美好的前景。
英國政府見此立即照方抓藥,刊發了《機器人技術和人工智能》報告,詳細的闡述英國的機器人技術與AI的親密關系。
有算法有算力,天地已定。有政策有戰略,和風細雨。正是產業萌芽,草長鶯飛,欣欣向榮的時刻。人才的流動正是產業加速的信號。
書歸正傳。芯片定義了產業鏈和生態圈的基礎計算架構,正如CPU是IT產業的核心一樣,芯片也是人工智能產業的核心。
話說天下AI芯片共分四大流派:
GPU,目前銳氣正盛,恰似東邪,憑借并行計算形成先發優勢。
FPGA,蟄伏北方,正在暗地里合縱連橫,大有號令群雄的勢頭,恰似丐幫。
ASIC,割據南方,占領了大片市場,參與的公司林立。
類腦芯片,這個更“邪性”,打算直接復制大腦,也暗藏著問鼎中原的野心。
根據互聯網公開發布信息,今年,四大流派已經派出幾十路高手,參與華山論劍,這些高手均屬于芯片設計期高手。
這些高手都有什么特點?誰能逐鹿中原?下文一一分析。
GPU一派
市場上名氣最大的應該是GPU一派。GPU,也稱視覺處理器,專門用于圖像及相關處理的芯片。
2012年,Alex Krizhevsky,多倫多大學的博士研究生,憑此在ImageNet大賽上奪下了2012屆的冠軍。Alex提出了一個奇妙的模型,僅憑借兩個GPU就取得了訓練深層神經網絡的極佳效果。江湖頓時為之轟動,于是引發了GPU訓練神經網絡的風潮。要知道,AI領域過去曾用CPU處理數據,但CPU效力太低。
當年,谷歌曾經花費巨資購買1.6萬個處理器,堆成谷歌大腦,峰值功耗在10萬瓦以上,占地面積數十平方米。試問天下,有幾人能玩的起1.6萬個處理器?
隨著 AlexNet的劃時代論文橫空出世,于是GPU 在服務器端橫掃天下。
有人會問,CPU和GPU,都是處理器,兩者有什么不同?
與CPU相比,GPU 出現得遠比 CPU 晚,但并行計算能力能卻常令CPU望塵莫及。并行計算是相對于串行計算來說的。要知道,自計算機誕生以來,電腦編程幾乎一直都是串行計算,絕大多數的程序只存在一個進程或線程,好比一個人只能先吃飯再看聊天。
但更多人喜歡邊吃飯邊聊天怎么辦?遇到這類問題,串行計算就傻眼了。并行計算一次可執行多個指令的算法,能夠完美解決吃飯聊天難題。解決方式可分為時間上的并行和空間上的并行。時間上的并行就是指流水線技術,而空間上的并行則是指用眾多個處理器并發的執行計算。
深度學習所依賴的是神經系統網絡,通常網絡越深,需要的訓練時間越長。對于一些網絡結構來說,如果使用串行的X86 處理器來訓練的話,可能需要幾個月、甚至幾年,因此必須要使用并行甚至是異構并行的方法,才有可能讓訓練時間變得可以接受。
在當前的人工智能芯片領域,GPU的應用領域不容小覷,據Jon Peddie Research(簡稱JPR)市場調研公司統計,在2008至2015年期間,除了2008年GPU市場規模稍有下降,其余年份全球獨立顯卡的出貨量和銷售額都呈現出明顯的上升趨勢,并且在2012至2015年有加速上升的表現。
GPU領域只有兩大公司,一是英偉達,占市場份額約7成,另一位則是萬年老二AMD,占市場份額約3成。
從GPU用戶數量來看,根據英偉達2016年的財務報告,相比2013年的100家,2014年的1549家,2015年已有3409家機構或企業使用英偉達的GPU產品,從事人工智能的研究。這些企業和機構包括各大高等院校的人工智能實驗室,互聯網企業,軍事企業等。
AMD雖然落后于英偉達,但2016年的市場份額已呈現出上升趨勢,在發布了代號Vega織女星的GPU芯片,市場一片叫好,未來可能有繼續上升的趨勢。
不足的是,GPU 的很費電(比如高端顯卡動輒200W+),一旦開啟,散熱就成了麻煩事。
FPGA一幫
GPU美中不足的是就是太貴了,太貴了,而且有副作用,降溫是大個問題。怎么辦?
賽靈思等公司改進了FPGA許多技術,使之價格便宜功耗又很低,操練起來更有趣。于是,跟隨FPGA的越來越多,形成了一大流派。
FPGA是從哪里來的呢?
原來早在1984年賽靈思就發布世界上首款FPGA,當時的FPGA晶片尺寸很大,但成本卻不低。1992年后,FPGA因采用新工藝節點,第一次出現了在FPGA上實現卷積神經網絡。但直到2000年后,FPGA丹法結合了“易容術”后才略有小成,易容術是指FPGA 已不僅是門陣列,還是集成有可編程邏輯的復雜功能集。2008以來,FPGA不光可以越來越多地整合系統模塊,集成重要的控制功能,還可以使用更高效的系統編程語言,如OpenCL和C語言,通過類似軟件的流程來編程,降低了硬件編程的難度。于是,自2011年開始,出現了大規模基于FPGA的算法研究。
簡單來說,FPGA 全稱“現場可編程門陣列”(Field Programmable GateArray),其基本原理是在 FPGA 芯片內集成大量的數字電路基本門電路以及存儲器,而用戶可以通過更新FPGA 配置文件,來定義這些門電路以及存儲器之間的連線。
這里提及的“可編程”,完全就是“可變成”。這意味著你今天可以把 FPGA 配置成一個微控制器 MCU,明天就可以更新配置文件把同一個 FPGA 配置成一個音頻編解碼器。你是不是想起了孫悟空七十二變,今天是個老頭明天是個少女?此乃易容術也。
不同于GPU的運行原理,FPGA是以門電路直接運算的,即編程中的語言在執行時會被翻譯成電路,優勢是運算速度快。
在很多領域FPGA的性能表現優異,以至于有人說FPGA可能會取代CPU和GPU成為將來機器人研發領域的主要芯片。當然,這事有點夸張。目前來看FPGA也多作為CPU的協處理器而出現,沖擊GPU是顯而易見的,但要說取代CPU,還得等等。
目前,國內有許多創業企業,自動加入FPGA陣營,提供基于FPGA的解決方案。比如源于清華大學的深鑒科技,專注于深度學習處理器與編譯器技術,深鑒科技研發了一種名為“深度壓縮”的技術,它不僅可以將神經網絡壓縮數十倍而不影響準確度,還可以使用“片上存儲”來存儲深度學習算法模型,減少內存讀取,大幅度減少功耗。
FPGA流派的廠商有兩大兩小,兩大分別是賽靈思、Altera(英特爾于2015年以167億美元收購Altera),兩小是Lattice和Microsemi。
其中,賽靈思和Altera占據了近90%的市場份額,兩人旗下的專利超過6000項。而剩下約10%的市場份額,由Microsemi和Lattice瓜分,這兩位的專利也有3000余項。由此可以看出,極高的技術門檻將其它希望進入FPGA市場的廠商牢牢擋在門外。
FPGA也有兩大局限性。
第一,FPGA的峰值性能不如GPU。即便使用高端的服務器做FPGA編譯都會需要數分鐘的時間,放到移動端速度還會更慢。但FPGA的功耗低于GPU,若FPGA的架構和配置合理,從能耗比的角度上來看,則能超過GPU。
第二,FPGA的編程難度較高。編程人員需要同時精通軟件和硬件兩種編程語言,更適合于高段位的的資深技術玩家。FPGA芯片主要面向企業客戶,如百度、微軟、IBM 等公司都有專門做FPGA的團隊為服務器加速。
就未來發展來看,FPGA的崛起指日可待。理由有三個:
首先,在人工智能起步階段,算法大致每三個月迭代一次,單憑這一點來說,FPGA可以靈活調整電路配置以適應新的算法,具有一定優勢;
其次,相比于GPU,FPGA更適用于深度學習的應用階段;
最后,為了降低FPGA的編程難度,FPGA廠商賽靈思專門研發了可重配置加速棧堆,提供基于FPGA的硬件加速方案,這類似于一個App Store,賽靈思是一個平臺,用戶使用時直接從商店里挑選方案,不需要再自己設計布局布線了。
ASIC:由吸星大法突破
雖然GPU在并行計算方面有不少優勢,但畢竟不是為機器學習專門設計的,FPGA則是需要用戶自主編程,主要面向專業領域的企業用戶,門檻太高。
大眾消費領域怎辦?如應用到無人駕駛汽車上或是智能家居終端,這款芯片還要同時滿足高性能和低功耗的要求,甚至不需要將數據傳回服務器端,不必連入互聯網,本地即時計算即可。
ASIC挺身而出。
ASIC的全稱是專用集成電路 (Application-Specific Integrated Circuit)。
玩過比特幣的都知道著名的挖礦大戰。ASIC在比特幣挖礦領域,展現出了得天獨厚的優勢。2013年1月Avalon項目團隊交付了世界上第一臺商用比特幣ASIC礦機,轟動了挖礦世界。CPU、GPU礦機幾乎在一夜之間消失的無影無蹤,引發了比特幣挖礦行業第二次重大升級,比特幣網絡核心開發者Jeff Garzik有幸成為了第一個商業ASIC礦機的擁有者,據說當時收到Avalon礦機的用戶在一兩天內就回了本。而傳說中隱藏在農村的土豪,能動用的ASIC礦機達到了數千臺。
人工智能深度學習和比特幣挖礦有類似之處,都是依賴于底層的芯片進行大規模的并行計算。
ASIC分為全定制和半定制。全定制設計需要設計者完成所有電路的設計,因此需要大量人力物力,靈活性好但開發周期長,上市速度慢。專為機器學習設計的ASIC芯片,從設計到制造,對資金和技術的要求都更高。一般來說,基于FPGA的開發周期大約為六個月,而相同規格的ASIC則需要一年左右,需要經過多步驗證,可想而知,在這樣精細的打磨下,其性能自然也更為出色。
ASIC的開發時間長,意味著ASIC芯片很有可能趕不上市場變化的速度,致使廠商陷入竹籃打水一場空的尷尬境地。
有沒有辦法改進呢?
有。
既然一家公司設計 ASIC要花費太花時間,何不用別人現成的模塊呢?
于是SoC+IP模式開始流行。這種模式有點像吸星大法。
SoC 全稱是“片上系統(System-on-chip)”,亦即吸納了許多不同模塊的芯片。SoC 上面的每一個模塊都可以稱為 IP,這些 IP 既可以是自己設計的,也可以是購買其他公司的設計并整合到自己的芯片上。
相比ASIC,SoC+IP模式的上市時間短,成本較低,并且IP可以更靈活地滿足用戶需求。IP公司專注于IP模塊的設計,SoC公司則專注于芯片集成,分工合作,提高效率。
事實上,高通已經在研發能在本地完成深度學習的移動設備芯片,IP設計公司如CEVA和Kneron也在研發與人工智能相關的IP核,這種模式未來也是人工智能芯片的發展方向之一。
ASIC易學難練,要想大成,靡費巨資。因此玩ASIC的不乏豪門貴族。例如,谷歌于2016年推出可編程AI加速器TPU,英特爾也將于2017年推出專為深度學習設計的芯片Knights Mill。微軟打造Project Catapult支持微軟Bing。
從初創公司來看,美國的Wave Computing公司專注于深度學習芯片架構,推出DPU(Dataflow Processing Unit);英國的Graphcore公司將推出開源軟件框架Poplar和智能處理單元IPU。
相比于科技巨頭,初創企業更有可能結合具體應用場景設計芯片,如地平線機器人設計的第一代BPU(Brain Processing Unit),被用于開發ADAS系統。
中科院計算所從2008年開始研究,項目名為寒武紀,主要經費來源是中科院先導專項和國家自然科學基金,負責人是陳氏兄弟,陳云霽和陳天石。目前,寒武紀系列已包含三種原型處理器結構:寒武紀1號(英文名DianNao,面向神經網絡的原型處理器結構);寒武紀2號(英文名DaDianNao,面向大規模神經網絡);寒武紀3號(英文名PuDianNao,面向多種機器學習算法)。
類腦芯片:復制另一個人腦
類腦芯片不得不提IBM,每次產業變遷,IBM總要給大家帶來一些新鮮名詞熱鬧一番。比如電子商務、智慧星球,認知計算,現在又帶來了號稱要復制人腦的類腦芯片,科技真真太黑了。
IBM類腦芯片的后臺支持者是美國國防部先進研究項目局(DARPA),DARPA是可謂科技圈的泰山北斗,大名鼎鼎的Internet前身阿帕網即源于這個機構。
DARPA與IBM合作建立了一個項目,名為“神經形態自適應伸縮可塑電子系統計劃(SyNAPSE)”。該計劃意圖還原大腦的計算功能,從而制造出一種能夠模擬人類的感覺,理解,行動與交流的能力的系統,用途非常明確:輔助士兵在戰場動態復雜環境中的認知能力,用于無人武器的自動作戰。
該項目中最引人注目的是類腦芯片TureNorth。2011年,IBM發布第一代TrueNorth芯片,它可以像大腦一樣具有學習和信息處理能力,具有大規模并行計算能力。2014年,IBM發布第二代TrueNorth芯片,性能大幅提升,功耗卻只有70毫瓦,神經元數量由256個增加到100萬個,可編程突觸由262144個增加到2.56億個。高通也發布了Zeroth認知計算平臺,它可以融入到高通Snapdragon處理器芯片中,以協處理方式提升系統認知計算性能,實際應用于終端設備上。
“正北”問世,激起了國內研究機構對人工智能的的熱情。
上海的西井科技去年發布了全球首塊5000萬神經元類腦芯片。該公司宣稱,這是目前世界上含有神經元數量最多的類腦芯片,也是首塊可商用化類腦芯片。
去年6月,中星微宣布中國首款嵌入式神經網絡處理器(NPU)芯片誕生,并已于實現量產,主要應用于嵌入式視頻監控領域。
據說北京大學則研究另外一種路線——憶阻器。據媒體報道,北京大學在視聽感知和圖橡視頻編碼方面的研究處于國際領先水平,在利用神經形態芯片構造大規模神經網絡方面,已經圍繞視皮層模擬開展研究。
中科院陳云霽認為,總體上看,國內和IBM的TrueNorth芯片為代表的國際先進水平還存在一定的差距。這個差距不體現在單芯片絕對的運算速度上(事實上,國產類腦芯片每秒能進行的神經元運算和突觸運算數量比TBM的TrueNorth還要高十倍),而是在功耗上。TrueNorth芯片功耗僅為65毫瓦,比國內芯片(15瓦左右)要低250倍。
從芯片性能角度來看,如今類腦芯片的算力和精度都不能超過GPU和FPGA的最好水平,因此類腦芯片是人工智能芯片幾大方向中最小眾的一類。
類腦芯片未來能否超越其它門派?這有賴于人類是否能完全搞清楚人腦的結構,能否有更多理論和實驗支撐類腦芯片技術上的突破。就眼下來看,類腦芯片在商業化的道路上還需要探索一段時間。
華山論劍,中國能否彎道超車?
AI芯片是人工智能產業的演武場。
產業剛剛萌芽,東邪西毒南帝北丐均在趕往華山的路上,似乎大家都有當大英雄的機會。但是,如果從國別的角度來看,會發現一個殘酷的現象。殘酷,是因為中美兩國存在著相當差距。比賽剛剛開始,美國就贏了。
在一些知名的芯片廠商中,美國有13家公司中,領軍者既有谷歌、英特爾、IBM這樣的科技巨頭,也有高通、英偉達、AMD、賽靈思這樣在各自領域中有絕對優勢的大公司,以及一些發展良好的中等規模公司和活躍的初創企業。
但中國則主要以初創公司為主,沒有巨頭。其中七家企業中六家都是初創公司,均成立于近三年內,只有一家中等規模企業——中星微。
從芯片類別來看,美國廠商遍布人工智能芯片的四大流派,IC設計環節的產業結構非常均衡,并且在GPU領域,美國企業是完全壟斷的,中國為零;在FPGA領域,只能跟隨賽靈思做解決方案;在ASIC領域,有些4家創業公司;類腦芯片,也有2家。
芯片是數字經濟的產業核心,歷來是易守難攻,一旦形成先發優勢,后來者很難超越。AI芯片也不例外。在過去十多年里,Intel、IBM、摩托羅拉、飛利浦、東芝、三星等60多家公司曾試圖進軍AI芯片,但紛紛遭致慘敗。
這其中的原因就在于進入門檻高,主要有以下幾點:
首先是專利技術壁壘。FPGA四公司用近9000項專利構筑了長長的知識產權壁壘,將進攻者拒于國門之外。即便是強如Intel也望而興嘆,不得以耗資167億美元收買了Altera,獲得了一張FPGA領域的門票。染指GPU就更不用提了。
其次是市場相對偏小。2016年全球FPGA市場總額僅為50億美元,且有九成落入賽靈思和Altera兩家公司,這么小的市場規模很難養活太多的大公司,必然導致競爭異常激烈。
最后是投資周期長。專利壁壘或許可以跨越,市場狹小,或許可以忍受。但是FPGA產品,從投入研發到產品真正規模化生產差不多要七年。這期間幾乎沒有任何商業回報。正常的風投是等不了這么長時間的。
AI時代論劍,芯片是核心。
AI芯片作為產業上游,也是技術要求和附加值最高的環節,產業價值和戰略地位遠遠大于應用層創新,因此我們需要高度重視。
放眼時代變遷,CPU領域WINTEL聯盟已經一統江山極難突破,而AI芯片方興未艾,機遇正在逐漸顯露,AI領域未來必然也會產生類似英特爾、AMD這樣的世界級企業。
美國以絕對實力處于領先地位,但一批中國初創企業也在蓄勢待發。
但是,AI芯片領域的創新絕不是件一蹴而就的事情。它涉及到人工智能算法、編程語言、計算機體系結構、集成電路技術、半導體工藝的方方面面。在巨大的國際競爭壓力下,靠單個企業研發投入,遠遠不夠;單靠有限的風險投資,也不行。靠科技補貼,更是遠水解不了近渴。
我們如何相信中國企業有機會成為人工智能時代的弄潮兒,在AI芯片華山論劍之時占有一席之地呢?抱團創新可能會是未來實現突破的方向。AI領域創業空間巨大,所需資金規模巨大,所需資源巨大,單憑創業者個人和團隊的能力打天下已經不現實, AI創業者需要跟產業加速器和產業資本密切結合,抱團創新,如此才能有更廣闊的發展天地。
而筆者在對騰訊眾創調研時了解到,目前許多國內創業企業已經學會了抱團創新,以長青騰創業營為例,開營100余天,40家創業公司總估值實現翻番,超過600億,58%的學員順利進入下一輪融資,100天融資總金額超過60億。眼下,長青騰正在籌劃AI創業營。
這對中國AI芯片創業是不是有所啟示?
編者按:本文來自微信公眾號“騰訊研究院”(ID:cyberlawrc),作者張孝榮、殷竹馨;36氪經授權發布。
隨著AI產業快速突破,各大公司在AI領域的人才動向也在引起極大關注,你來我往、歸去來兮,AI江湖上大有一片血雨腥風之勢。當然,AI領軍人物的變動,會對具體公司業務造成影響。但從整個行業來看,人才流動的頻繁,反倒有可能促進產業的整體進程。
不信你翻翻歷史。AI這門功夫自1956年問世以來,至今已經歷60年風風雨雨,一直是流派眾多,難學難練,沒有大成。
難學,是因為必須要掌握一種叫做“算法”的神功;難練,是因為需要有足夠算力,能夠處理數據樣本,訓練機器。
幾十年來,一直是有算法沒算力,甚至于有人認為,人工智能就是一個科幻,就是小說家跟人類開的一個玩笑而已。誰也沒想到,進入21世紀后算力大爆炸。引發了整個AI產業開天辟地般的變化。
其中,算法上升為天——深度學習,分成DBN,CNN,BP,RBM等等諸多分支,其中佼佼者當屬CNN(convolutional neural networks),人稱卷積神經網絡,應用廣泛。
算力,下降為地——AI芯片。各種芯片如雨后春筍涌現,拿過來訓練機器,得心應手啊。
廟堂之上也為AI駕臨人間雀躍不已。世界各國意識到人工智能的重要性,紛紛簞食壺漿,以迎AI。
聯合國于2016年發布告示,召集人類討論機器人的制造和使用如何促進人工智能的進步,以及可能帶來的社會與倫理問題。
美國政府于2016年連續頒發三道金牌:《美國國家人工智能研發戰略計劃》、《為人工智能的未來做好準備》、《人工智能、自動化與經濟報告》,宣稱加入人工智能教派,并且描繪了此舉能帶來的種種美好的前景。
英國政府見此立即照方抓藥,刊發了《機器人技術和人工智能》報告,詳細的闡述英國的機器人技術與AI的親密關系。
有算法有算力,天地已定。有政策有戰略,和風細雨。正是產業萌芽,草長鶯飛,欣欣向榮的時刻。人才的流動正是產業加速的信號。
書歸正傳。芯片定義了產業鏈和生態圈的基礎計算架構,正如CPU是IT產業的核心一樣,芯片也是人工智能產業的核心。
話說天下AI芯片共分四大流派:
GPU,目前銳氣正盛,恰似東邪,憑借并行計算形成先發優勢。
FPGA,蟄伏北方,正在暗地里合縱連橫,大有號令群雄的勢頭,恰似丐幫。
ASIC,割據南方,占領了大片市場,參與的公司林立。
類腦芯片,這個更“邪性”,打算直接復制大腦,也暗藏著問鼎中原的野心。
根據互聯網公開發布信息,今年,四大流派已經派出幾十路高手,參與華山論劍,這些高手均屬于芯片設計期高手。
這些高手都有什么特點?誰能逐鹿中原?下文一一分析。
GPU一派
市場上名氣最大的應該是GPU一派。GPU,也稱視覺處理器,專門用于圖像及相關處理的芯片。
2012年,Alex Krizhevsky,多倫多大學的博士研究生,憑此在ImageNet大賽上奪下了2012屆的冠軍。Alex提出了一個奇妙的模型,僅憑借兩個GPU就取得了訓練深層神經網絡的極佳效果。江湖頓時為之轟動,于是引發了GPU訓練神經網絡的風潮。要知道,AI領域過去曾用CPU處理數據,但CPU效力太低。
當年,谷歌曾經花費巨資購買1.6萬個處理器,堆成谷歌大腦,峰值功耗在10萬瓦以上,占地面積數十平方米。試問天下,有幾人能玩的起1.6萬個處理器?
隨著 AlexNet的劃時代論文橫空出世,于是GPU 在服務器端橫掃天下。
有人會問,CPU和GPU,都是處理器,兩者有什么不同?
與CPU相比,GPU 出現得遠比 CPU 晚,但并行計算能力能卻常令CPU望塵莫及。并行計算是相對于串行計算來說的。要知道,自計算機誕生以來,電腦編程幾乎一直都是串行計算,絕大多數的程序只存在一個進程或線程,好比一個人只能先吃飯再看聊天。
但更多人喜歡邊吃飯邊聊天怎么辦?遇到這類問題,串行計算就傻眼了。并行計算一次可執行多個指令的算法,能夠完美解決吃飯聊天難題。解決方式可分為時間上的并行和空間上的并行。時間上的并行就是指流水線技術,而空間上的并行則是指用眾多個處理器并發的執行計算。
深度學習所依賴的是神經系統網絡,通常網絡越深,需要的訓練時間越長。對于一些網絡結構來說,如果使用串行的X86 處理器來訓練的話,可能需要幾個月、甚至幾年,因此必須要使用并行甚至是異構并行的方法,才有可能讓訓練時間變得可以接受。
在當前的人工智能芯片領域,GPU的應用領域不容小覷,據Jon Peddie Research(簡稱JPR)市場調研公司統計,在2008至2015年期間,除了2008年GPU市場規模稍有下降,其余年份全球獨立顯卡的出貨量和銷售額都呈現出明顯的上升趨勢,并且在2012至2015年有加速上升的表現。
GPU領域只有兩大公司,一是英偉達,占市場份額約7成,另一位則是萬年老二AMD,占市場份額約3成。
從GPU用戶數量來看,根據英偉達2016年的財務報告,相比2013年的100家,2014年的1549家,2015年已有3409家機構或企業使用英偉達的GPU產品,從事人工智能的研究。這些企業和機構包括各大高等院校的人工智能實驗室,互聯網企業,軍事企業等。
AMD雖然落后于英偉達,但2016年的市場份額已呈現出上升趨勢,在發布了代號Vega織女星的GPU芯片,市場一片叫好,未來可能有繼續上升的趨勢。
不足的是,GPU 的很費電(比如高端顯卡動輒200W+),一旦開啟,散熱就成了麻煩事。
FPGA一幫
GPU美中不足的是就是太貴了,太貴了,而且有副作用,降溫是大個問題。怎么辦?
賽靈思等公司改進了FPGA許多技術,使之價格便宜功耗又很低,操練起來更有趣。于是,跟隨FPGA的越來越多,形成了一大流派。
FPGA是從哪里來的呢?
原來早在1984年賽靈思就發布世界上首款FPGA,當時的FPGA晶片尺寸很大,但成本卻不低。1992年后,FPGA因采用新工藝節點,第一次出現了在FPGA上實現卷積神經網絡。但直到2000年后,FPGA丹法結合了“易容術”后才略有小成,易容術是指FPGA 已不僅是門陣列,還是集成有可編程邏輯的復雜功能集。2008以來,FPGA不光可以越來越多地整合系統模塊,集成重要的控制功能,還可以使用更高效的系統編程語言,如OpenCL和C語言,通過類似軟件的流程來編程,降低了硬件編程的難度。于是,自2011年開始,出現了大規模基于FPGA的算法研究。
簡單來說,FPGA 全稱“現場可編程門陣列”(Field Programmable GateArray),其基本原理是在 FPGA 芯片內集成大量的數字電路基本門電路以及存儲器,而用戶可以通過更新FPGA 配置文件,來定義這些門電路以及存儲器之間的連線。
這里提及的“可編程”,完全就是“可變成”。這意味著你今天可以把 FPGA 配置成一個微控制器 MCU,明天就可以更新配置文件把同一個 FPGA 配置成一個音頻編解碼器。你是不是想起了孫悟空七十二變,今天是個老頭明天是個少女?此乃易容術也。
不同于GPU的運行原理,FPGA是以門電路直接運算的,即編程中的語言在執行時會被翻譯成電路,優勢是運算速度快。
在很多領域FPGA的性能表現優異,以至于有人說FPGA可能會取代CPU和GPU成為將來機器人研發領域的主要芯片。當然,這事有點夸張。目前來看FPGA也多作為CPU的協處理器而出現,沖擊GPU是顯而易見的,但要說取代CPU,還得等等。
目前,國內有許多創業企業,自動加入FPGA陣營,提供基于FPGA的解決方案。比如源于清華大學的深鑒科技,專注于深度學習處理器與編譯器技術,深鑒科技研發了一種名為“深度壓縮”的技術,它不僅可以將神經網絡壓縮數十倍而不影響準確度,還可以使用“片上存儲”來存儲深度學習算法模型,減少內存讀取,大幅度減少功耗。
FPGA流派的廠商有兩大兩小,兩大分別是賽靈思、Altera(英特爾于2015年以167億美元收購Altera),兩小是Lattice和Microsemi。
其中,賽靈思和Altera占據了近90%的市場份額,兩人旗下的專利超過6000項。而剩下約10%的市場份額,由Microsemi和Lattice瓜分,這兩位的專利也有3000余項。由此可以看出,極高的技術門檻將其它希望進入FPGA市場的廠商牢牢擋在門外。
FPGA也有兩大局限性。
第一,FPGA的峰值性能不如GPU。即便使用高端的服務器做FPGA編譯都會需要數分鐘的時間,放到移動端速度還會更慢。但FPGA的功耗低于GPU,若FPGA的架構和配置合理,從能耗比的角度上來看,則能超過GPU。
第二,FPGA的編程難度較高。編程人員需要同時精通軟件和硬件兩種編程語言,更適合于高段位的的資深技術玩家。FPGA芯片主要面向企業客戶,如百度、微軟、IBM 等公司都有專門做FPGA的團隊為服務器加速。
就未來發展來看,FPGA的崛起指日可待。理由有三個:
首先,在人工智能起步階段,算法大致每三個月迭代一次,單憑這一點來說,FPGA可以靈活調整電路配置以適應新的算法,具有一定優勢;
其次,相比于GPU,FPGA更適用于深度學習的應用階段;
最后,為了降低FPGA的編程難度,FPGA廠商賽靈思專門研發了可重配置加速棧堆,提供基于FPGA的硬件加速方案,這類似于一個App Store,賽靈思是一個平臺,用戶使用時直接從商店里挑選方案,不需要再自己設計布局布線了。
ASIC:由吸星大法突破
雖然GPU在并行計算方面有不少優勢,但畢竟不是為機器學習專門設計的,FPGA則是需要用戶自主編程,主要面向專業領域的企業用戶,門檻太高。
大眾消費領域怎辦?如應用到無人駕駛汽車上或是智能家居終端,這款芯片還要同時滿足高性能和低功耗的要求,甚至不需要將數據傳回服務器端,不必連入互聯網,本地即時計算即可。
ASIC挺身而出。
ASIC的全稱是專用集成電路 (Application-Specific Integrated Circuit)。
玩過比特幣的都知道著名的挖礦大戰。ASIC在比特幣挖礦領域,展現出了得天獨厚的優勢。2013年1月Avalon項目團隊交付了世界上第一臺商用比特幣ASIC礦機,轟動了挖礦世界。CPU、GPU礦機幾乎在一夜之間消失的無影無蹤,引發了比特幣挖礦行業第二次重大升級,比特幣網絡核心開發者Jeff Garzik有幸成為了第一個商業ASIC礦機的擁有者,據說當時收到Avalon礦機的用戶在一兩天內就回了本。而傳說中隱藏在農村的土豪,能動用的ASIC礦機達到了數千臺。
人工智能深度學習和比特幣挖礦有類似之處,都是依賴于底層的芯片進行大規模的并行計算。
ASIC分為全定制和半定制。全定制設計需要設計者完成所有電路的設計,因此需要大量人力物力,靈活性好但開發周期長,上市速度慢。專為機器學習設計的ASIC芯片,從設計到制造,對資金和技術的要求都更高。一般來說,基于FPGA的開發周期大約為六個月,而相同規格的ASIC則需要一年左右,需要經過多步驗證,可想而知,在這樣精細的打磨下,其性能自然也更為出色。
ASIC的開發時間長,意味著ASIC芯片很有可能趕不上市場變化的速度,致使廠商陷入竹籃打水一場空的尷尬境地。
有沒有辦法改進呢?
有。
既然一家公司設計 ASIC要花費太花時間,何不用別人現成的模塊呢?
于是SoC+IP模式開始流行。這種模式有點像吸星大法。
SoC 全稱是“片上系統(System-on-chip)”,亦即吸納了許多不同模塊的芯片。SoC 上面的每一個模塊都可以稱為 IP,這些 IP 既可以是自己設計的,也可以是購買其他公司的設計并整合到自己的芯片上。
相比ASIC,SoC+IP模式的上市時間短,成本較低,并且IP可以更靈活地滿足用戶需求。IP公司專注于IP模塊的設計,SoC公司則專注于芯片集成,分工合作,提高效率。
事實上,高通已經在研發能在本地完成深度學習的移動設備芯片,IP設計公司如CEVA和Kneron也在研發與人工智能相關的IP核,這種模式未來也是人工智能芯片的發展方向之一。
ASIC易學難練,要想大成,靡費巨資。因此玩ASIC的不乏豪門貴族。例如,谷歌于2016年推出可編程AI加速器TPU,英特爾也將于2017年推出專為深度學習設計的芯片Knights Mill。微軟打造Project Catapult支持微軟Bing。
從初創公司來看,美國的Wave Computing公司專注于深度學習芯片架構,推出DPU(Dataflow Processing Unit);英國的Graphcore公司將推出開源軟件框架Poplar和智能處理單元IPU。
相比于科技巨頭,初創企業更有可能結合具體應用場景設計芯片,如地平線機器人設計的第一代BPU(Brain Processing Unit),被用于開發ADAS系統。
中科院計算所從2008年開始研究,項目名為寒武紀,主要經費來源是中科院先導專項和國家自然科學基金,負責人是陳氏兄弟,陳云霽和陳天石。目前,寒武紀系列已包含三種原型處理器結構:寒武紀1號(英文名DianNao,面向神經網絡的原型處理器結構);寒武紀2號(英文名DaDianNao,面向大規模神經網絡);寒武紀3號(英文名PuDianNao,面向多種機器學習算法)。
類腦芯片:復制另一個人腦
類腦芯片不得不提IBM,每次產業變遷,IBM總要給大家帶來一些新鮮名詞熱鬧一番。比如電子商務、智慧星球,認知計算,現在又帶來了號稱要復制人腦的類腦芯片,科技真真太黑了。
IBM類腦芯片的后臺支持者是美國國防部先進研究項目局(DARPA),DARPA是可謂科技圈的泰山北斗,大名鼎鼎的Internet前身阿帕網即源于這個機構。
DARPA與IBM合作建立了一個項目,名為“神經形態自適應伸縮可塑電子系統計劃(SyNAPSE)”。該計劃意圖還原大腦的計算功能,從而制造出一種能夠模擬人類的感覺,理解,行動與交流的能力的系統,用途非常明確:輔助士兵在戰場動態復雜環境中的認知能力,用于無人武器的自動作戰。
該項目中最引人注目的是類腦芯片TureNorth。2011年,IBM發布第一代TrueNorth芯片,它可以像大腦一樣具有學習和信息處理能力,具有大規模并行計算能力。2014年,IBM發布第二代TrueNorth芯片,性能大幅提升,功耗卻只有70毫瓦,神經元數量由256個增加到100萬個,可編程突觸由262144個增加到2.56億個。高通也發布了Zeroth認知計算平臺,它可以融入到高通Snapdragon處理器芯片中,以協處理方式提升系統認知計算性能,實際應用于終端設備上。
“正北”問世,激起了國內研究機構對人工智能的的熱情。
上海的西井科技去年發布了全球首塊5000萬神經元類腦芯片。該公司宣稱,這是目前世界上含有神經元數量最多的類腦芯片,也是首塊可商用化類腦芯片。
去年6月,中星微宣布中國首款嵌入式神經網絡處理器(NPU)芯片誕生,并已于實現量產,主要應用于嵌入式視頻監控領域。
據說北京大學則研究另外一種路線——憶阻器。據媒體報道,北京大學在視聽感知和圖橡視頻編碼方面的研究處于國際領先水平,在利用神經形態芯片構造大規模神經網絡方面,已經圍繞視皮層模擬開展研究。
中科院陳云霽認為,總體上看,國內和IBM的TrueNorth芯片為代表的國際先進水平還存在一定的差距。這個差距不體現在單芯片絕對的運算速度上(事實上,國產類腦芯片每秒能進行的神經元運算和突觸運算數量比TBM的TrueNorth還要高十倍),而是在功耗上。TrueNorth芯片功耗僅為65毫瓦,比國內芯片(15瓦左右)要低250倍。
從芯片性能角度來看,如今類腦芯片的算力和精度都不能超過GPU和FPGA的最好水平,因此類腦芯片是人工智能芯片幾大方向中最小眾的一類。
類腦芯片未來能否超越其它門派?這有賴于人類是否能完全搞清楚人腦的結構,能否有更多理論和實驗支撐類腦芯片技術上的突破。就眼下來看,類腦芯片在商業化的道路上還需要探索一段時間。
華山論劍,中國能否彎道超車?
AI芯片是人工智能產業的演武場。
產業剛剛萌芽,東邪西毒南帝北丐均在趕往華山的路上,似乎大家都有當大英雄的機會。但是,如果從國別的角度來看,會發現一個殘酷的現象。殘酷,是因為中美兩國存在著相當差距。比賽剛剛開始,美國就贏了。
在一些知名的芯片廠商中,美國有13家公司中,領軍者既有谷歌、英特爾、IBM這樣的科技巨頭,也有高通、英偉達、AMD、賽靈思這樣在各自領域中有絕對優勢的大公司,以及一些發展良好的中等規模公司和活躍的初創企業。
但中國則主要以初創公司為主,沒有巨頭。其中七家企業中六家都是初創公司,均成立于近三年內,只有一家中等規模企業——中星微。
從芯片類別來看,美國廠商遍布人工智能芯片的四大流派,IC設計環節的產業結構非常均衡,并且在GPU領域,美國企業是完全壟斷的,中國為零;在FPGA領域,只能跟隨賽靈思做解決方案;在ASIC領域,有些4家創業公司;類腦芯片,也有2家。
芯片是數字經濟的產業核心,歷來是易守難攻,一旦形成先發優勢,后來者很難超越。AI芯片也不例外。在過去十多年里,Intel、IBM、摩托羅拉、飛利浦、東芝、三星等60多家公司曾試圖進軍AI芯片,但紛紛遭致慘敗。
這其中的原因就在于進入門檻高,主要有以下幾點:
首先是專利技術壁壘。FPGA四公司用近9000項專利構筑了長長的知識產權壁壘,將進攻者拒于國門之外。即便是強如Intel也望而興嘆,不得以耗資167億美元收買了Altera,獲得了一張FPGA領域的門票。染指GPU就更不用提了。
其次是市場相對偏小。2016年全球FPGA市場總額僅為50億美元,且有九成落入賽靈思和Altera兩家公司,這么小的市場規模很難養活太多的大公司,必然導致競爭異常激烈。
最后是投資周期長。專利壁壘或許可以跨越,市場狹小,或許可以忍受。但是FPGA產品,從投入研發到產品真正規模化生產差不多要七年。這期間幾乎沒有任何商業回報。正常的風投是等不了這么長時間的。
AI時代論劍,芯片是核心。
AI芯片作為產業上游,也是技術要求和附加值最高的環節,產業價值和戰略地位遠遠大于應用層創新,因此我們需要高度重視。
放眼時代變遷,CPU領域WINTEL聯盟已經一統江山極難突破,而AI芯片方興未艾,機遇正在逐漸顯露,AI領域未來必然也會產生類似英特爾、AMD這樣的世界級企業。
美國以絕對實力處于領先地位,但一批中國初創企業也在蓄勢待發。
但是,AI芯片領域的創新絕不是件一蹴而就的事情。它涉及到人工智能算法、編程語言、計算機體系結構、集成電路技術、半導體工藝的方方面面。在巨大的國際競爭壓力下,靠單個企業研發投入,遠遠不夠;單靠有限的風險投資,也不行。靠科技補貼,更是遠水解不了近渴。
我們如何相信中國企業有機會成為人工智能時代的弄潮兒,在AI芯片華山論劍之時占有一席之地呢?抱團創新可能會是未來實現突破的方向。AI領域創業空間巨大,所需資金規模巨大,所需資源巨大,單憑創業者個人和團隊的能力打天下已經不現實, AI創業者需要跟產業加速器和產業資本密切結合,抱團創新,如此才能有更廣闊的發展天地。
而筆者在對騰訊眾創調研時了解到,目前許多國內創業企業已經學會了抱團創新,以長青騰創業營為例,開營100余天,40家創業公司總估值實現翻番,超過600億,58%的學員順利進入下一輪融資,100天融資總金額超過60億。眼下,長青騰正在籌劃AI創業營。
這對中國AI芯片創業是不是有所啟示?