2019年12月21日,“OpenI/O 2019啟智開發(fā)者大會”在深圳召開,此屆論壇由鵬城實驗室、新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟主辦,粵港澳大灣區(qū)人工智能與機器人聯(lián)合會、廣東省人工智能與機器人學(xué)會協(xié)辦。
大會首日,國家新一代人工智能戰(zhàn)略規(guī)劃執(zhí)筆人、北航高等工程學(xué)院副院長、OpenI理事會理事吳文峻從AI治理技術(shù)、國內(nèi)外研究現(xiàn)狀、平臺建設(shè)等方面分享了“人工智能的治理與評測方法”。
以下為吳文峻演講內(nèi)容實錄,AI科技大本營(ID:rgznai100)整理:
新一代人工智能帶來的挑戰(zhàn)
現(xiàn)在以深度神經(jīng)網(wǎng)絡(luò)為代表的AI帶動了新一輪人工智能的發(fā)展。但是,在這個發(fā)展后面,也有很多新的挑戰(zhàn)和隱憂。在自動駕駛領(lǐng)域,有特斯拉出現(xiàn)車禍,在目前利用一些方法來進行深度偽造,嘴邊拿一個視頻過來就可以把你自己說的話換成名人的頭像,比如這張圖,讓奧巴馬說一段其他名人說的話。我記得前段時間國內(nèi)有批量換臉的應(yīng)用,但是很快下架了。所以,深度偽造帶來的潛在社會危害是非常巨大的。
還有人工智能的公平性問題,這在國內(nèi)外許多AI應(yīng)用里面都有提到,比如不同膚色、不同人種用AI進行智能司法判決的時候,包括在找工作的時候AI進行自動簡歷篩查,包括在銀行進行貸款發(fā)放的時候等等,如果算法在數(shù)據(jù)上面的處理不夠均衡,很有可能算法所做出的最終判斷就是有偏差的,從倫理道德來說就會帶來很嚴重的社會問題。
我今天重點講的是關(guān)于深度神經(jīng)網(wǎng)絡(luò)本身的安全問題。雖然在座很多開發(fā)者和同學(xué)都用過深度神經(jīng)網(wǎng)絡(luò),但是你會發(fā)現(xiàn),雖然深度神經(jīng)網(wǎng)絡(luò)在相當(dāng)數(shù)據(jù)情況下解決很多問題,比傳統(tǒng)方法的效率和效果都要好,但是安全性確實是深度神經(jīng)網(wǎng)絡(luò)目前最需要解決的問題。如果你把這樣不安全的神經(jīng)網(wǎng)絡(luò)應(yīng)用在自動駕駛、應(yīng)用在人臉識別、應(yīng)用在安防監(jiān)控這些領(lǐng)域里面,帶來的危害是現(xiàn)實的。
我們這里可以總結(jié)一下在AI治理方面或者倫理原則方面,以獲取人的信任為主要核心,覆蓋方向主要是四個,一個是Security(安全),二是Transparency(透明度),這個算法不是黑箱,讓人理解深度神經(jīng)網(wǎng)絡(luò)的運行、推理過程和訓(xùn)練過程。第三是Privacy(隱私)。第四是Fairness(公平性)。
這些原則無論是學(xué)術(shù)界還是工業(yè)界,都在開展很多研究。因為圍繞著前面這四個原則,去探討法律、道德甚至哲學(xué)層面,可以永遠探討下去,因為這是我們?nèi)祟惿鐣K極正義追求的一種表現(xiàn)。
AI治理技術(shù)
目前來說,我個人覺得最重要的是怎么樣把與人為善的AI的根本原則能夠落地,能夠和現(xiàn)有技術(shù)手段進行有機結(jié)合。
比如,在透明化方面正在做可解釋性的工作,包括對AI的推理過程翻譯成自然語言,包括把一個復(fù)雜的黑箱式的深度神經(jīng)網(wǎng)絡(luò)能不能等價成一個簡化的代理網(wǎng)絡(luò),比如決策樹、貝葉斯圖。還有各種深度神經(jīng)網(wǎng)絡(luò)的可視化工作,把神經(jīng)元推理過程中不同輸入情況下激活的狀態(tài)以可視化的方式展現(xiàn)出來。
另外一個是溯源,因為AI模型和應(yīng)用是不斷連續(xù)的過程,從它產(chǎn)生數(shù)據(jù)到中間數(shù)據(jù)不斷訓(xùn)練出來的模型,以及訓(xùn)練中產(chǎn)生的方法,在軟件工程中,都可以用分階段版本的形式刻畫出來,然后把演化過程或數(shù)據(jù)給表達出來。當(dāng)出現(xiàn)問題的時候,就可以分階段地進行判斷、審計、健全等等,通過這樣的方式最終確定AI模型在一定文化或者事故情況下的權(quán)利劃分。
還有兩個針對AI治理的技術(shù),一個是測試技術(shù),一個是形式化驗證技術(shù)。
在軟件工程里,對軟件的形式化驗證有很多年的研究,主要是利用計算機科學(xué)里的形式化方法,也就是梳理邏輯和離散數(shù)學(xué)里的形式方法,對程序的建立、數(shù)學(xué)模型和建模情況下程序的行為、屬性所需要的滿足性質(zhì)進行驗證。
目前,學(xué)術(shù)界還沒有得到一個非常短時間內(nèi)可以覆蓋很大規(guī)模神經(jīng)網(wǎng)絡(luò)的形式化工具,但是在最近幾年,一些初步研究探索已經(jīng)在開始了,至少可以對部分情況用形式化的方法:對神經(jīng)元在不同輸入里的上下邊界進行數(shù)值的刻畫。神經(jīng)元最大的問題是有擾動的情況下會產(chǎn)生嚴重偏差,這會導(dǎo)致很嚴重的誤判。所以未來可以期待的是,至少在一定范圍里,特別是自動駕駛,肯定會出現(xiàn)比較嚴格的面向神經(jīng)網(wǎng)絡(luò)的形式化方法,以保證將來訓(xùn)練出來的關(guān)鍵系統(tǒng)的模型的可能性。
最后一個是測試技術(shù),我們知道軟件里面測試很多年了,方法也很成熟。對于神經(jīng)網(wǎng)的測試,沒有把它作為工程法的方法來對待,大家在不平常當(dāng)中對學(xué)習(xí)訓(xùn)練的測試是用測試集來訓(xùn)練它的acc、auc等性能,但是對它在擾動情況下出現(xiàn)的各種錯誤行為,過去這種測試是比較少的。對神經(jīng)網(wǎng)本身的一些覆蓋測試、黑盒測試研究等等也是剛開始。
綜合這些技術(shù),在目前這種AI大潮情況下,能夠把人工智能模型的開發(fā)和運維周期有效結(jié)合起來,無論是從任務(wù)的提出到模型訓(xùn)練數(shù)據(jù)的收集,到訓(xùn)練過程,到對模型的測試和評價過程,以及到最后的模型應(yīng)用,我們都可以不斷地加入剛才提到的這些治理要求,比如剛才講的公平的要求、質(zhì)量的要求等等。通過工具嵌入到開發(fā)周期當(dāng)中,能夠使得在每一個階段都能使模型數(shù)據(jù)、模型本身的實現(xiàn)能達到我們的倫理期待,這是將來很多人都會不斷推進和做的一件事情。
目前,在測試方面國家雖然有很多宏觀政策,要求我們?nèi)斯ぶ悄馨踩⒖煽俊⒖煽氐匕l(fā)展,但是目前還沒有對于機器學(xué)習(xí)算法的統(tǒng)一測試方法、標(biāo)準(zhǔn)規(guī)范,這都是急需要推進的事情。在國外,包括ISO、美國標(biāo)準(zhǔn)局和加拿大等等陸續(xù)出臺了一些法規(guī),很多都是含糊的原則性措辭,可以想見,在這個領(lǐng)域是大有可為的。
我們想到將來的AI產(chǎn)品、算法和模型如果要大規(guī)模推廣,不只是它的功能,安全、可靠這些東西都要做測試,如果達不到測試標(biāo)準(zhǔn),那它根本沒有辦法得到國家有關(guān)部門的授權(quán),能夠真正在市場中推廣。我相信將來肯定會出現(xiàn)這么一種局面,所以所有的重要領(lǐng)域的AI算法產(chǎn)品,你要真正部署應(yīng)用的時候,必須要經(jīng)過嚴格的測試和認證。
國內(nèi)外研究現(xiàn)狀
這幾年這個領(lǐng)域的研究非常活躍,特別是從軟件工程角度和對AI模型自身角度的研究,特別是哥倫比亞大學(xué)做的工具、自動駕駛做的deep test工具,包括IBM、谷歌、清華、百度等等都有相應(yīng)的工具出臺。
對于這些研究主要集中在對神經(jīng)網(wǎng)的對抗樣本研究,也就是說,目前運用GAN網(wǎng)絡(luò),在正常情況下,通過加入人眼無法辯識的信號干擾,使得AI模型產(chǎn)生完全不期望的結(jié)果。比如一個熊貓,你加一些噪音進去,認成猴子或者猩猩,一個香蕉加了干擾可能認為是礦卷水瓶子。
大量的數(shù)據(jù)和大規(guī)模網(wǎng)絡(luò)在訓(xùn)練的時候,我們知道深度神經(jīng)網(wǎng)絡(luò)都是用算法迭代式的進行優(yōu)化,往往只找到局部的最優(yōu)點,不能找到全局的,所以優(yōu)化過程中最優(yōu)化的曲率和梯度坍塌、爆炸都是常見的問題。通過反復(fù)訓(xùn)練,使模型性能提高了百分之幾,但是模型的安全性是極無法得到保障的,是極不穩(wěn)定的。
在這里,我們做了一系列工作,包括在路牌上貼一些小的patch,根據(jù)算法來生成,實際上是加了一些噪音,最后使得自動駕駛的算法在進行停車、通行、限速方面,完全不一樣,比如指定限速20邁,通過加上標(biāo)簽,一下提升到80邁,自動駕駛的車輛過去的時候會產(chǎn)生嚴重的誤判,就會產(chǎn)生問題,這都是用GAN的算法生成, 需要充分考慮到場景。
另外,我們把這樣算法用在機器人導(dǎo)航識別當(dāng)中,比如三維導(dǎo)航場景當(dāng)中機器人需要識別物體對象是什么,通過三維場景中增加一些擾動信號,可以使得典型的機器人算法發(fā)生根本性誤判。
這里也有一個展示,跟大家網(wǎng)上購物有關(guān)系,比如京東或者其他購物APP可以對物體進行拍照,可以在網(wǎng)上商城找到相應(yīng)的商品列表。比如在方便面上打一個這樣的patch或者在礦泉水瓶上打一個patch,最后認出的商品是五花八門的,完全不是你想要的情況。
模型測試
剛才PPT顯示了在場景里面增加對抗的patch,能夠使得機器學(xué)習(xí)算法完全失效的情況。我們通過什么方法能夠更好地加固和優(yōu)化我們的算法,以避免產(chǎn)生這樣的誤判、提升系統(tǒng)的穩(wěn)定性和魯棒性?
我們做的工作,對于神經(jīng)元的敏感性進行刻畫。這個敏感性定義是說,你對神經(jīng)網(wǎng)絡(luò)進行對抗性樣本輸入的時候,很明顯的觀察到,并不是所有神經(jīng)元都是敏感的,并不是所有東西都明顯的產(chǎn)生比較劇烈的反應(yīng)或者輸出激活的狀態(tài)下,所以你可以標(biāo)出敏感度最高的神經(jīng)元,圍繞著神經(jīng)元每一層輸出的地方,可以加入自適應(yīng)的調(diào)節(jié)機制,來弱化這個過度敏感的神經(jīng)元對整個神經(jīng)網(wǎng)絡(luò)判別過程的影響。我們這里做了一些可視化的工作以及對于敏感性增強的一些工作。
模型理解
另外,對于模型不同信號的噪音,包括自然噪音和對抗樣本生成的噪音,把相關(guān)性進行分析比較。在自然噪音情況下,比如加雪花、變形等等,和對抗樣本生成的人工擾動具有一定的相似性,這就說明魯棒性問題是模型本身的結(jié)構(gòu)和模型的參數(shù)訓(xùn)練問題造成的。要解決它,除了在結(jié)構(gòu)和參數(shù)的加固、優(yōu)化外,在訓(xùn)練過程中多樣性的訓(xùn)練數(shù)據(jù)也是很重要的。
這里組織了一個神經(jīng)網(wǎng)可解釋的專刊來推動對這方面的工作。這里是對模型量化進行的一些工作,特別是對量化參數(shù)加入一些線性網(wǎng)絡(luò)模塊,加在每一層現(xiàn)行權(quán)重輸出的地方,能夠使得權(quán)重在一個比較穩(wěn)定的范圍。
另外,我們把對抗樣本加入到神經(jīng)網(wǎng)的反向訓(xùn)練BP過程當(dāng)中,通過這樣的方式,可以有效地提升訓(xùn)練出來的神經(jīng)網(wǎng)對抗的魯棒性和對自然噪聲的魯棒性。
模型優(yōu)化
這是剛才提到的對敏感性神經(jīng)網(wǎng)怎么通過算法的方式進行有效地加固。
標(biāo)準(zhǔn)制定
目前,基于這一系列的工作,我們已經(jīng)在這方面國家標(biāo)準(zhǔn)的制定方面進行了一些探討,特別是在去年年底和今年年初的時候,中國電子工業(yè)化技術(shù)協(xié)會下推動了一項團標(biāo),專門是用來對機器學(xué)習(xí)算法的魯棒性怎么進行度量,像最差的決策邊界、噪音敏感度、神經(jīng)元敏感度,把這些都納入到團標(biāo)當(dāng)中,目前在把這個團標(biāo)向國家標(biāo)準(zhǔn)立項方向進行推進。
另外,我們跟工信部門合作,把剛才這些算法納入到工信部門接綁行動的標(biāo)準(zhǔn)化評價評測平臺的研制當(dāng)中,構(gòu)建相應(yīng)的數(shù)據(jù)模型和資源庫,同時引進模型的數(shù)據(jù)檢測和模型評測的方法等等。
平臺建設(shè)
整個AI的運維管理,目前一般來說在下面需要一個云的環(huán)境。今天我們講了各種開發(fā)工具,包括數(shù)據(jù)標(biāo)注、主動學(xué)習(xí)、知識圖譜的工具,特別強調(diào)了安全驗證工具等等,這些都可以作為微服務(wù)來進行有效地串接在一起。在這上面,可以從數(shù)據(jù)的收集、整理、訓(xùn)練到模型部署、運維的整個流程來進行打通。
如果我們比較一下目前在軟件工程CI/CD領(lǐng)域持續(xù)集成、持續(xù)部署流程和深度學(xué)習(xí)模型,這樣的流程之間有一定的相似性。軟件的CI/CD流程,軟件要從代碼庫里面通過編譯進行流程管理,引入一些工具對代碼質(zhì)量進行評測,然后放在Google Net或者其他云上面。我們對AI模型也是這樣,需要選結(jié)構(gòu)、設(shè)計和調(diào)優(yōu)部署。目前大部分廠商對于設(shè)計調(diào)優(yōu)和部署有相當(dāng)多的工具支持,但是對圖片中的這一塊對評價測試和加固優(yōu)化工作的開源工具相對比較少。這需要國內(nèi)、國外大力開發(fā)研究和推進的。
這是我們研究的測試平臺原型,和一般的開發(fā)流程差不多。
這是開發(fā)目前的基本界面,在這個界面大家可以提交自己的模型,我們通過生成的不同測試樣本對抗噪音和自然噪音,對算法的性能、安全性、可靠性進行評測,進一步給出模型的改進建議。基于剛才的框架,還有很多后續(xù)的工作和工具可以繼續(xù)來做。
根據(jù)剛才所說的這些,我們的計劃是能夠在理論研究和原型開發(fā)基礎(chǔ)上,能夠使平臺更加成熟,計劃在今年晚些時候能夠納入到我們的OpenI開源框架體系里,為AI持續(xù)健康的發(fā)展和治理做出努力。