長期以來,人們誤以為傳統的視頻攝像頭就可以作為智能系統的“眼睛”。早在人工智能第一個黃金期的1967年,正在籌建人工智能實驗室的美國麻省理工學院教授佩帕特曾表示:“計算機聯上攝像頭描繪它看到什么,這個問題一個暑期項目就能搞定”。時至今日,人工智能再次迎來黃金發展期,人臉識別突飛猛進,自動駕駛呼之欲出,計算機視覺這個問題似乎就要迎刃而解了。但是,在北京大學計算機科學技術系主任黃鐵軍教授看來,傳統視頻攝像頭根本配不上新一代人工智能,他牽頭研制的視網膜芯片才是真正解決這個問題的第一步。
視頻的概念盡人皆知,但很少人能像黃鐵軍一樣“面壁十年”式地思考這個問題。黃鐵軍自上個世紀九十年代研究文字識別和計算機視覺,2002年開始擔任數字音視頻編解碼技術(AVS)標準工作組秘書長,視頻編碼和圖像識別這兩個概念已經在他腦子里碰撞了二十多年,最終讓兩者合二為一、“破壁而出”的是類腦計算。
視頻就是靜止圖像組成的序列。利用人類視覺系統存在的視覺暫留現象,電影電視每秒播放數十幅靜止圖像,就能讓人類產生連續的視覺感受。“電影電視就是這樣蒙騙人類的”,黃鐵軍說:“但這并不意味就該這樣繼續蒙騙機器。人類眼睛把環境光線變化以神經脈沖序列形式持續不斷地告訴大腦,而不是把一幅一幅的靜止圖像送給大腦。如果我們期望機器像人一樣感知真實世界,為什么卻要愚蠢地以放電影的方式給它輸入一幅一幅靜止的圖像呢?”。
模仿生物視覺,就需要和神經科學開展交叉研究。2015年北京市科學技術委員會啟動“腦科學與類腦計算”專項,黃鐵軍聯合基礎醫學部視覺損傷與修復教育部重點實驗室的濮鳴亮教授、生物醫學中心的唐世明研究員和定量生物學中心的陶樂天研究員,獲得《大腦初級視覺系統解析仿真平臺研究與應用驗證》重大課題的支持,開展靈長類視網膜和初級視皮層解析仿真研究,實現了靈長類視網膜中央凹神經細胞和神經環路的精細建模,提出了模擬視網膜機理的脈沖編碼模型。2017年,在滾動課題《脈沖陣列式仿視網膜芯片研制及驗證》支持下,經過一年多的緊張攻關,仿視網膜芯片一次流片成功。
仿視網膜芯片對傳統視頻芯片的主要顛覆在于“超速”和“全時”。眼睛是億萬年進化而成的精密器官,信息處理機制優越,但是受限于生理限制,視網膜發放神經脈沖的頻率不可能超過一百赫茲。仿視網膜芯片采用光電技術,發放頻率達到了4萬赫茲,“超速”人眼百倍,能夠“看清”高速旋轉葉片的文字。“全時”是個新概念,是指從芯片采集的神經脈沖序列中重構出任意時刻的畫面,這是實現真正機器視覺的基礎。相比之下,傳統攝像頭每秒采集數十幅畫面,兩幅畫面之間的視覺信息實際上丟失了,采用傳統攝像頭的自動駕駛系統高速運行時,就必然存在時域盲區。因此,無人駕駛、機器人、視頻監控等需要實時視覺的智能系統,都需要配備這種新型芯片。
在我國去年發布的新一代人工智能規劃中,“智能芯片和系統”部分明確規劃了新型感知芯片。超速全時仿視網膜芯片的研制成功,開創了新一代人工智能創新突破的新時代。作為新一代人工智能產業技術創新戰略聯盟的秘書長,黃鐵軍表示,仿視網膜超速全時芯片僅僅是開始,好戲還在后頭。“到2030年,人工智能理論、技術和應用總體達到世界領先水平,這個目標一定要實現,也一定能夠實現”。