深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

責(zé)任編輯：xfuesx |來源：企業(yè)網(wǎng)D1Net 2020-01-16 10:53:48 本文摘自：CSDN

2019年12月21日，“OpenI/O 2019啟智開發(fā)者大會”在深圳召開，此屆論壇由鵬城實驗室、新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟主辦，粵港澳大灣區(qū)人工智能與機器人聯(lián)合會、廣東省人工智能與機器人學(xué)會協(xié)辦。

大會首日，國家新一代人工智能戰(zhàn)略規(guī)劃執(zhí)筆人、北航高等工程學(xué)院副院長、OpenI理事會理事吳文峻從AI治理技術(shù)、國內(nèi)外研究現(xiàn)狀、平臺建設(shè)等方面分享了“人工智能的治理與評測方法”。

以下為吳文峻演講內(nèi)容實錄，AI科技大本營（ID:rgznai100）整理：

新一代人工智能帶來的挑戰(zhàn)

現(xiàn)在以深度神經(jīng)網(wǎng)絡(luò)為代表的AI帶動了新一輪人工智能的發(fā)展。但是，在這個發(fā)展后面，也有很多新的挑戰(zhàn)和隱憂。在自動駕駛領(lǐng)域，有特斯拉出現(xiàn)車禍，在目前利用一些方法來進行深度偽造，嘴邊拿一個視頻過來就可以把你自己說的話換成名人的頭像，比如這張圖，讓奧巴馬說一段其他名人說的話。我記得前段時間國內(nèi)有批量換臉的應(yīng)用，但是很快下架了。所以，深度偽造帶來的潛在社會危害是非常巨大的。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

還有人工智能的公平性問題，這在國內(nèi)外許多AI應(yīng)用里面都有提到，比如不同膚色、不同人種用AI進行智能司法判決的時候，包括在找工作的時候AI進行自動簡歷篩查，包括在銀行進行貸款發(fā)放的時候等等，如果算法在數(shù)據(jù)上面的處理不夠均衡，很有可能算法所做出的最終判斷就是有偏差的，從倫理道德來說就會帶來很嚴重的社會問題。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

我今天重點講的是關(guān)于深度神經(jīng)網(wǎng)絡(luò)本身的安全問題。雖然在座很多開發(fā)者和同學(xué)都用過深度神經(jīng)網(wǎng)絡(luò)，但是你會發(fā)現(xiàn)，雖然深度神經(jīng)網(wǎng)絡(luò)在相當(dāng)數(shù)據(jù)情況下解決很多問題，比傳統(tǒng)方法的效率和效果都要好，但是安全性確實是深度神經(jīng)網(wǎng)絡(luò)目前最需要解決的問題。如果你把這樣不安全的神經(jīng)網(wǎng)絡(luò)應(yīng)用在自動駕駛、應(yīng)用在人臉識別、應(yīng)用在安防監(jiān)控這些領(lǐng)域里面，帶來的危害是現(xiàn)實的。

我們這里可以總結(jié)一下在AI治理方面或者倫理原則方面，以獲取人的信任為主要核心，覆蓋方向主要是四個，一個是Security（安全），二是Transparency（透明度），這個算法不是黑箱，讓人理解深度神經(jīng)網(wǎng)絡(luò)的運行、推理過程和訓(xùn)練過程。第三是Privacy（隱私）。第四是Fairness（公平性）。

這些原則無論是學(xué)術(shù)界還是工業(yè)界，都在開展很多研究。因為圍繞著前面這四個原則，去探討法律、道德甚至哲學(xué)層面，可以永遠探討下去，因為這是我們?nèi)祟惿鐣K極正義追求的一種表現(xiàn)。

AI治理技術(shù)

目前來說，我個人覺得最重要的是怎么樣把與人為善的AI的根本原則能夠落地，能夠和現(xiàn)有技術(shù)手段進行有機結(jié)合。

比如，在透明化方面正在做可解釋性的工作，包括對AI的推理過程翻譯成自然語言，包括把一個復(fù)雜的黑箱式的深度神經(jīng)網(wǎng)絡(luò)能不能等價成一個簡化的代理網(wǎng)絡(luò)，比如決策樹、貝葉斯圖。還有各種深度神經(jīng)網(wǎng)絡(luò)的可視化工作，把神經(jīng)元推理過程中不同輸入情況下激活的狀態(tài)以可視化的方式展現(xiàn)出來。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

另外一個是溯源，因為AI模型和應(yīng)用是不斷連續(xù)的過程，從它產(chǎn)生數(shù)據(jù)到中間數(shù)據(jù)不斷訓(xùn)練出來的模型，以及訓(xùn)練中產(chǎn)生的方法，在軟件工程中，都可以用分階段版本的形式刻畫出來，然后把演化過程或數(shù)據(jù)給表達出來。當(dāng)出現(xiàn)問題的時候，就可以分階段地進行判斷、審計、健全等等，通過這樣的方式最終確定AI模型在一定文化或者事故情況下的權(quán)利劃分。

還有兩個針對AI治理的技術(shù)，一個是測試技術(shù)，一個是形式化驗證技術(shù)。

在軟件工程里，對軟件的形式化驗證有很多年的研究，主要是利用計算機科學(xué)里的形式化方法，也就是梳理邏輯和離散數(shù)學(xué)里的形式方法，對程序的建立、數(shù)學(xué)模型和建模情況下程序的行為、屬性所需要的滿足性質(zhì)進行驗證。

目前，學(xué)術(shù)界還沒有得到一個非常短時間內(nèi)可以覆蓋很大規(guī)模神經(jīng)網(wǎng)絡(luò)的形式化工具，但是在最近幾年，一些初步研究探索已經(jīng)在開始了，至少可以對部分情況用形式化的方法：對神經(jīng)元在不同輸入里的上下邊界進行數(shù)值的刻畫。神經(jīng)元最大的問題是有擾動的情況下會產(chǎn)生嚴重偏差，這會導(dǎo)致很嚴重的誤判。所以未來可以期待的是，至少在一定范圍里，特別是自動駕駛，肯定會出現(xiàn)比較嚴格的面向神經(jīng)網(wǎng)絡(luò)的形式化方法，以保證將來訓(xùn)練出來的關(guān)鍵系統(tǒng)的模型的可能性。

最后一個是測試技術(shù)，我們知道軟件里面測試很多年了，方法也很成熟。對于神經(jīng)網(wǎng)的測試，沒有把它作為工程法的方法來對待，大家在不平常當(dāng)中對學(xué)習(xí)訓(xùn)練的測試是用測試集來訓(xùn)練它的acc、auc等性能，但是對它在擾動情況下出現(xiàn)的各種錯誤行為，過去這種測試是比較少的。對神經(jīng)網(wǎng)本身的一些覆蓋測試、黑盒測試研究等等也是剛開始。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

綜合這些技術(shù)，在目前這種AI大潮情況下，能夠把人工智能模型的開發(fā)和運維周期有效結(jié)合起來，無論是從任務(wù)的提出到模型訓(xùn)練數(shù)據(jù)的收集，到訓(xùn)練過程，到對模型的測試和評價過程，以及到最后的模型應(yīng)用，我們都可以不斷地加入剛才提到的這些治理要求，比如剛才講的公平的要求、質(zhì)量的要求等等。通過工具嵌入到開發(fā)周期當(dāng)中，能夠使得在每一個階段都能使模型數(shù)據(jù)、模型本身的實現(xiàn)能達到我們的倫理期待，這是將來很多人都會不斷推進和做的一件事情。

目前，在測試方面國家雖然有很多宏觀政策，要求我們?nèi)斯ぶ悄馨踩⒖煽俊⒖煽氐匕l(fā)展，但是目前還沒有對于機器學(xué)習(xí)算法的統(tǒng)一測試方法、標(biāo)準(zhǔn)規(guī)范，這都是急需要推進的事情。在國外，包括ISO、美國標(biāo)準(zhǔn)局和加拿大等等陸續(xù)出臺了一些法規(guī)，很多都是含糊的原則性措辭，可以想見，在這個領(lǐng)域是大有可為的。

我們想到將來的AI產(chǎn)品、算法和模型如果要大規(guī)模推廣，不只是它的功能，安全、可靠這些東西都要做測試，如果達不到測試標(biāo)準(zhǔn)，那它根本沒有辦法得到國家有關(guān)部門的授權(quán)，能夠真正在市場中推廣。我相信將來肯定會出現(xiàn)這么一種局面，所以所有的重要領(lǐng)域的AI算法產(chǎn)品，你要真正部署應(yīng)用的時候，必須要經(jīng)過嚴格的測試和認證。

國內(nèi)外研究現(xiàn)狀

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

這幾年這個領(lǐng)域的研究非常活躍，特別是從軟件工程角度和對AI模型自身角度的研究，特別是哥倫比亞大學(xué)做的工具、自動駕駛做的deep test工具，包括IBM、谷歌、清華、百度等等都有相應(yīng)的工具出臺。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

對于這些研究主要集中在對神經(jīng)網(wǎng)的對抗樣本研究，也就是說，目前運用GAN網(wǎng)絡(luò)，在正常情況下，通過加入人眼無法辯識的信號干擾，使得AI模型產(chǎn)生完全不期望的結(jié)果。比如一個熊貓，你加一些噪音進去，認成猴子或者猩猩，一個香蕉加了干擾可能認為是礦卷水瓶子。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

大量的數(shù)據(jù)和大規(guī)模網(wǎng)絡(luò)在訓(xùn)練的時候，我們知道深度神經(jīng)網(wǎng)絡(luò)都是用算法迭代式的進行優(yōu)化，往往只找到局部的最優(yōu)點，不能找到全局的，所以優(yōu)化過程中最優(yōu)化的曲率和梯度坍塌、爆炸都是常見的問題。通過反復(fù)訓(xùn)練，使模型性能提高了百分之幾，但是模型的安全性是極無法得到保障的，是極不穩(wěn)定的。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

在這里，我們做了一系列工作，包括在路牌上貼一些小的patch，根據(jù)算法來生成，實際上是加了一些噪音，最后使得自動駕駛的算法在進行停車、通行、限速方面，完全不一樣，比如指定限速20邁，通過加上標(biāo)簽，一下提升到80邁，自動駕駛的車輛過去的時候會產(chǎn)生嚴重的誤判，就會產(chǎn)生問題，這都是用GAN的算法生成，需要充分考慮到場景。

另外，我們把這樣算法用在機器人導(dǎo)航識別當(dāng)中，比如三維導(dǎo)航場景當(dāng)中機器人需要識別物體對象是什么，通過三維場景中增加一些擾動信號，可以使得典型的機器人算法發(fā)生根本性誤判。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

這里也有一個展示，跟大家網(wǎng)上購物有關(guān)系，比如京東或者其他購物APP可以對物體進行拍照，可以在網(wǎng)上商城找到相應(yīng)的商品列表。比如在方便面上打一個這樣的patch或者在礦泉水瓶上打一個patch，最后認出的商品是五花八門的，完全不是你想要的情況。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

模型測試

剛才PPT顯示了在場景里面增加對抗的patch，能夠使得機器學(xué)習(xí)算法完全失效的情況。我們通過什么方法能夠更好地加固和優(yōu)化我們的算法，以避免產(chǎn)生這樣的誤判、提升系統(tǒng)的穩(wěn)定性和魯棒性？

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

我們做的工作，對于神經(jīng)元的敏感性進行刻畫。這個敏感性定義是說，你對神經(jīng)網(wǎng)絡(luò)進行對抗性樣本輸入的時候，很明顯的觀察到，并不是所有神經(jīng)元都是敏感的，并不是所有東西都明顯的產(chǎn)生比較劇烈的反應(yīng)或者輸出激活的狀態(tài)下，所以你可以標(biāo)出敏感度最高的神經(jīng)元，圍繞著神經(jīng)元每一層輸出的地方，可以加入自適應(yīng)的調(diào)節(jié)機制，來弱化這個過度敏感的神經(jīng)元對整個神經(jīng)網(wǎng)絡(luò)判別過程的影響。我們這里做了一些可視化的工作以及對于敏感性增強的一些工作。

模型理解

另外，對于模型不同信號的噪音，包括自然噪音和對抗樣本生成的噪音，把相關(guān)性進行分析比較。在自然噪音情況下，比如加雪花、變形等等，和對抗樣本生成的人工擾動具有一定的相似性，這就說明魯棒性問題是模型本身的結(jié)構(gòu)和模型的參數(shù)訓(xùn)練問題造成的。要解決它，除了在結(jié)構(gòu)和參數(shù)的加固、優(yōu)化外，在訓(xùn)練過程中多樣性的訓(xùn)練數(shù)據(jù)也是很重要的。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

這里組織了一個神經(jīng)網(wǎng)可解釋的專刊來推動對這方面的工作。這里是對模型量化進行的一些工作，特別是對量化參數(shù)加入一些線性網(wǎng)絡(luò)模塊，加在每一層現(xiàn)行權(quán)重輸出的地方，能夠使得權(quán)重在一個比較穩(wěn)定的范圍。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

另外，我們把對抗樣本加入到神經(jīng)網(wǎng)的反向訓(xùn)練BP過程當(dāng)中，通過這樣的方式，可以有效地提升訓(xùn)練出來的神經(jīng)網(wǎng)對抗的魯棒性和對自然噪聲的魯棒性。

模型優(yōu)化

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

這是剛才提到的對敏感性神經(jīng)網(wǎng)怎么通過算法的方式進行有效地加固。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

標(biāo)準(zhǔn)制定

目前，基于這一系列的工作，我們已經(jīng)在這方面國家標(biāo)準(zhǔn)的制定方面進行了一些探討，特別是在去年年底和今年年初的時候，中國電子工業(yè)化技術(shù)協(xié)會下推動了一項團標(biāo)，專門是用來對機器學(xué)習(xí)算法的魯棒性怎么進行度量，像最差的決策邊界、噪音敏感度、神經(jīng)元敏感度，把這些都納入到團標(biāo)當(dāng)中，目前在把這個團標(biāo)向國家標(biāo)準(zhǔn)立項方向進行推進。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

另外，我們跟工信部門合作，把剛才這些算法納入到工信部門接綁行動的標(biāo)準(zhǔn)化評價評測平臺的研制當(dāng)中，構(gòu)建相應(yīng)的數(shù)據(jù)模型和資源庫，同時引進模型的數(shù)據(jù)檢測和模型評測的方法等等。

平臺建設(shè)

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

整個AI的運維管理，目前一般來說在下面需要一個云的環(huán)境。今天我們講了各種開發(fā)工具，包括數(shù)據(jù)標(biāo)注、主動學(xué)習(xí)、知識圖譜的工具，特別強調(diào)了安全驗證工具等等，這些都可以作為微服務(wù)來進行有效地串接在一起。在這上面，可以從數(shù)據(jù)的收集、整理、訓(xùn)練到模型部署、運維的整個流程來進行打通。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急

如果我們比較一下目前在軟件工程CI/CD領(lǐng)域持續(xù)集成、持續(xù)部署流程和深度學(xué)習(xí)模型，這樣的流程之間有一定的相似性。軟件的CI/CD流程，軟件要從代碼庫里面通過編譯進行流程管理，引入一些工具對代碼質(zhì)量進行評測，然后放在Google Net或者其他云上面。我們對AI模型也是這樣，需要選結(jié)構(gòu)、設(shè)計和調(diào)優(yōu)部署。目前大部分廠商對于設(shè)計調(diào)優(yōu)和部署有相當(dāng)多的工具支持，但是對圖片中的這一塊對評價測試和加固優(yōu)化工作的開源工具相對比較少。這需要國內(nèi)、國外大力開發(fā)研究和推進的。

深度神經(jīng)網(wǎng)絡(luò)面臨嚴峻安全問題，AI治理和評測是當(dāng)務(wù)之急