《中國人工智能指數(shù)報(bào)告》由長江商學(xué)院人工智能與制度研究中心主任許成鋼和武漢大學(xué)大數(shù)據(jù)與云計(jì)算實(shí)驗(yàn)室主任崔曉暉團(tuán)隊(duì)共同研究制作。該報(bào)告從學(xué)術(shù)、產(chǎn)業(yè)、開源軟件包使用等方面進(jìn)行中美對比,以此度量中國的人工智能在最近十幾年里的發(fā)展及影響。
論文質(zhì)量的差距巨大
從1995年至今,在Scopus數(shù)據(jù)庫中(本文論文相關(guān)數(shù)據(jù)皆源于此數(shù)據(jù)庫),可以被檢索到的標(biāo)注關(guān)鍵字為 Artificial Intelligence的全部中、美人工智能論文數(shù)量。
近些年在描述中國人工智能進(jìn)步巨大的一個證據(jù)是,中國人工智能論文的發(fā)表量,在快速接近美國。這一趨勢在2016之后尤其明顯。但在最具原創(chuàng)性最具影響力的極高引用率和高引用率的論文方面,中國與美國的差距相當(dāng)顯著。最刺眼的是,中國人工智能論文數(shù)量大幅增加的同時,零引用的論文也在大幅領(lǐng)先于美國。而論文的千次、百次級別的引用,中國又大幅落后于美國。
圖1 中美人工智能期刊論文年度發(fā)表量對比
圖2 中美千級期刊論文引用總數(shù)量對比分析
圖3 中美人工智能期刊論文被引用總數(shù)
中美學(xué)者每年在期刊發(fā)表的所有人工智能論文的被引用總數(shù)。由圖可見,美國學(xué)者發(fā)表的期刊論文被引用數(shù)始終明顯高于中國學(xué)者發(fā)表的論文。但是在2010年之后,中美之間的差距迅速下降,呈收斂趨勢。
圖4 中美百千級期刊論文引用總數(shù)量對比分析
中美兩國學(xué)者發(fā)表的千級以及百千級期刊論文的總量以及被引用數(shù)。由于最具有影響力的論文被大量引用需要時間,我們只報(bào)告在2013年前發(fā)表的期刊論文中被引用次數(shù)達(dá)到或超過1000次和500-999次的論文的數(shù)量以及被引用總頻次。美國在千級期刊論文發(fā)表數(shù)量及總引用量方面均遠(yuǎn)高于中國。中國學(xué)者在2004年,2005年和2007年各出現(xiàn)了一篇千級期刊論文,而同一時期美國學(xué)者發(fā)表了12篇千級引用量的期刊論文。在百千級期刊論文發(fā)表方面,美國仍然優(yōu)勢明顯,但是兩者之間的差距自2008年開始收窄,并于2010年基本趨于一致。總體上,中國學(xué)者在2004年,2005年以及2013年各發(fā)表了兩篇百千級期刊論文;并于1997年,2006年,2008年以及2010年各發(fā)表了一篇百千級期刊論文。
圖5 中美百級期刊論文引用總數(shù)量對比分析
百級引用量期刊論文和十級應(yīng)用兩期刊論文的發(fā)表數(shù)量以及被引用頻次上,中國和美國在2010年前始終保持很大差距,但是在2010年之后兩國差距逐步縮小。另外值得注意的是,在個級引用量以及無引用量的期刊論文方面,兩國差距不是很顯著,尤其是從發(fā)表數(shù)量上看,自2011年起中國開始小幅領(lǐng)先美國。
圖6 中美零級期刊論文發(fā)表總數(shù)量對比分析
在零級會議論文(從未被引用的論文)方面,從2007年之后,中國作者的會議論文總數(shù)大幅度超過了美國。我們統(tǒng)計(jì)的所有會議論文都是在同行評議的專業(yè)期刊發(fā)表的會議論文,即會議論文的學(xué)術(shù)標(biāo)準(zhǔn)有同行評審制度的保證。我們推斷,零級會議論文的主體是應(yīng)用性的。可能因應(yīng)用范圍狹窄,這些論文沒有被引用。相比之下,最高影響力的會議論文都在普遍方法論方面具有開創(chuàng)性。由此,我們概括,在影響最大的基礎(chǔ)方法論方面,美國持續(xù)領(lǐng)先中國。在中間水平的研究方面,中國與美國的差距在縮小。而在具體應(yīng)用的方面,中國發(fā)表的會議論文數(shù)量則超過了美國。
產(chǎn)業(yè)差距拉大
中國活躍的人工智能初創(chuàng)公司數(shù)字在2012年之前多于美國,但是在2012年以后被美國超越。如圖所示,中國的人工智能創(chuàng)業(yè)公司在2012年之前多于美國,但是在2012年以后美國不僅超過中國,且大幅度加速增長。中國人工智能創(chuàng)業(yè)公司在2015年以后呈大幅下降趨勢;相反,美國方面在2012年之后在人工智能領(lǐng)域活躍的創(chuàng)業(yè)公司數(shù)量呈現(xiàn)快速上升的趨勢。尤其是在2016年之后,中美兩國在產(chǎn)業(yè)領(lǐng)域的差距進(jìn)一步加大。2016年之后,美國的人工智能初創(chuàng)公司數(shù)量快速上升,在2018年超過600家。在產(chǎn)業(yè)領(lǐng)域,中國活躍的人工智能初創(chuàng)公司于2016年超過400家,達(dá)到頂峰,然后開始下降,在2018年降至不到200家。(以上趨勢由本報(bào)告補(bǔ)充騰訊2017年發(fā)表的《中美兩國人工智能產(chǎn)業(yè)發(fā)展全面解讀》而得出。圖7顯示風(fēng)險(xiǎn)投資支持的、中美在人工智能領(lǐng)域活躍的創(chuàng)業(yè)公司總數(shù)的統(tǒng)計(jì)。數(shù)據(jù)來源為投資界網(wǎng)站)
人工智能產(chǎn)業(yè)需要長期研發(fā)投入,短期很難獲得收益。中美兩國活躍的創(chuàng)業(yè)公司的數(shù)量的對比,似乎表明中國在人工智能領(lǐng)域產(chǎn)業(yè)的投入后勁不足。這點(diǎn)在騰訊報(bào)告中也有提及。我們在這個方面的報(bào)告,只是對騰訊報(bào)告的補(bǔ)充。
圖7 中美人工智能領(lǐng)域創(chuàng)業(yè)公司數(shù)量對比
Figure 52. Number of startup companies in AI: China vs. US
開源人工智能軟件包是人工智能研究,尤其是人工智能應(yīng)用研究方面的重要基礎(chǔ)。國際上多數(shù)開源AI軟件包都由開發(fā)者存放在GitHub軟件庫中,供從事AI應(yīng)用方面的研究者使用。本節(jié)對比中美人工智能研究者在GitHub軟件庫中,關(guān)注(stare)不同AI軟件包的數(shù)字,以此作為使用開源AI軟件包使用的指數(shù)。
2017年以前美國開發(fā)者關(guān)注人工智能軟件包數(shù)量要高于中國,2017年以后中國開始超過美國。
圖8 中美AI研究者的AI軟件包關(guān)注總數(shù)對比
Number of AI software packages starred by Chinese and US researchers
對比中美應(yīng)用AI研究者使用開源AI軟件包的總體情況。我們對比他們對所有開源AI軟件包的關(guān)注總數(shù)。中國應(yīng)用AI研究者關(guān)注開源AI軟件包的數(shù)字,在2015年之后經(jīng)歷了快速增長,到2017年中以后,超過了美國。這可能意味著中國研究者在利用中美開發(fā)的開源軟件包做AI應(yīng)用研究規(guī)模超過了美國。
圖9 中美AI研究者關(guān)注中美開發(fā)的開源AI軟件包的對比
Developers of AI software packages starred by Chinese and US researchers
上圖將中美兩國AI研究者關(guān)注的開源AI軟件包的開發(fā)機(jī)構(gòu)按照國別對比。如圖所示,絕大多數(shù)中國AI研究者使用的開源AI軟件包,都是美國機(jī)構(gòu)開發(fā)的,其中使用最多的是Google開發(fā)的Tensorflow。整體上,中、美AI研究者關(guān)注的美國機(jī)構(gòu)開發(fā)的開源AI軟件包的數(shù)字,相當(dāng)于他們關(guān)注的中國機(jī)構(gòu)開放的軟件包的數(shù)字的二十幾倍。這表明中國研究者在基本算法方面,對美國開源軟件包的依賴。
另外,通過人才行業(yè)分布對比可知,中國在智能交通、自動駕駛,智能、精準(zhǔn)營銷,硬件、GPU、智能芯片需求比例要多于美國,而中美兩國在算法、機(jī)器學(xué)習(xí)的需求量上要遠(yuǎn)高于其他領(lǐng)域。
許成鋼進(jìn)一步指出,在人工智能的基本算法、芯片、傳感器等方面,中國落后于世界上多數(shù)發(fā)達(dá)國家,除美國外,英國、德國、日本、以色列等國家都領(lǐng)先于中國。美國的AI產(chǎn)業(yè)布局非常完善,基礎(chǔ)層、技術(shù)層和應(yīng)用層都有涉及,尤其是在算法、芯片和數(shù)據(jù)等核心領(lǐng)域,具有強(qiáng)大優(yōu)勢,各層級企業(yè)數(shù)量全面領(lǐng)先中國。中國AI產(chǎn)業(yè)在基礎(chǔ)元器件、基礎(chǔ)工藝等方面差距尤其大。