那么如何衡量人工智能應(yīng)用程序中的“邪惡”?
這可能聽(tīng)起來(lái)像一個(gè)滑稽的問(wèn)題,但人們應(yīng)該問(wèn)一下自己,將“邪惡”這個(gè)詞應(yīng)用于任何一個(gè)應(yīng)用程序意味著什么。而且,如果“邪惡的人工智能”是應(yīng)該避免的結(jié)果,那么可以了解一下如何對(duì)其進(jìn)行衡量,以便能夠證明它不存在于交付的工作產(chǎn)品中。
顯然,這對(duì)人們來(lái)說(shuō)純粹是一個(gè)實(shí)驗(yàn),但只要仔細(xì)閱讀人工智能行業(yè)最近的新聞,就會(huì)感覺(jué)這個(gè)話題的嚴(yán)肅性。具體來(lái)說(shuō),人們注意到MLPerf公司最近發(fā)布了用于人工智能推理和培訓(xùn)的最新版本的基準(zhǔn)測(cè)試套件。MLPerf公司是由40個(gè)人工智能平臺(tái)供應(yīng)商組成的集團(tuán),其中包括硬件、軟件、云計(jì)算服務(wù)提供商。
作為一個(gè)明確的標(biāo)志,其標(biāo)準(zhǔn)基準(zhǔn)測(cè)試正在人工智能供應(yīng)商中獲得相當(dāng)大的吸引力,一些廠商開(kāi)始公布他們的平臺(tái)技術(shù)在這些套件下的比較情況。例如,谷歌云聲稱其用于自然語(yǔ)言處理和目標(biāo)檢測(cè)的TPU Pod在最新的MLPerf基準(zhǔn)測(cè)試賽中打破了人工智能模型訓(xùn)練的記錄。盡管只是在速度上發(fā)布基準(zhǔn)數(shù)字,換句話說(shuō),縮短訓(xùn)練特定人工智能模型以獲得特定結(jié)果所需的時(shí)間,但在未來(lái)某個(gè)不確定的時(shí)刻,可以記錄TPU Pod技術(shù)在支持這些工作負(fù)載方面所帶來(lái)的規(guī)模提升和成本降低。
這其中沒(méi)有什么本質(zhì)上的“邪惡”,但它更多的是人工智能運(yùn)行時(shí)執(zhí)行的基準(zhǔn),而不是人工智能的潛在瘋狂。考慮到這項(xiàng)技術(shù)目前在社會(huì)上所面臨的疑惑,有必要衡量任何特定的人工智能舉措可能侵犯隱私、對(duì)弱勢(shì)群體造成社會(huì)經(jīng)濟(jì)偏見(jiàn)以及從事其他不利行為的可能性。
這些“邪惡的人工智能” 指標(biāo)將更多地應(yīng)用于整個(gè)人工智能DevOps管道,而不是任何特定的可交付應(yīng)用程序。將人工智能中的“邪惡”值進(jìn)行基準(zhǔn)測(cè)試應(yīng)該歸結(jié)為按照以下方式對(duì)相關(guān)的DevOps進(jìn)程進(jìn)行評(píng)分:
•數(shù)據(jù)敏感性:人工智能倡議是否在人工智能應(yīng)用程序中對(duì)個(gè)人身份信息的訪問(wèn)、使用和建模采用了一系列符合法規(guī)的控制措施?
•模型可變性:人工智能開(kāi)發(fā)人員是否考慮了依賴特定人工智能算法或模型(如面部識(shí)別)的下游風(fēng)險(xiǎn),這些算法或模型的預(yù)期良性使用(如驗(yàn)證用戶登錄)也可能在“雙重用途”場(chǎng)景中得到濫用。
•算法問(wèn)責(zé)制:AI DevOps流程是否使用不可變審計(jì)日志進(jìn)行檢測(cè),以確保能夠查看用于構(gòu)建、培訓(xùn)、部署、管理符合道德標(biāo)準(zhǔn)的應(yīng)用程序的每個(gè)數(shù)據(jù)元素、模型變量、開(kāi)發(fā)任務(wù)和操作流程?開(kāi)發(fā)人員是否制定了程序,以確保每個(gè)AI DevOps任務(wù)、中間工作產(chǎn)品和可交付應(yīng)用程序在與相關(guān)道德約束或目標(biāo)的相關(guān)性方面都能以簡(jiǎn)單語(yǔ)言進(jìn)行解釋?
•質(zhì)量保證檢查點(diǎn):AI DevOps流程中是否有質(zhì)量控制檢查點(diǎn),在這些流程中進(jìn)行進(jìn)一步的審查,以驗(yàn)證是否存在可能破壞道德目標(biāo)的隱藏漏洞,如有偏見(jiàn)的二階特征相關(guān)性。
•開(kāi)發(fā)人員的同理心:人工智能開(kāi)發(fā)者如何徹底地將主題專家、用戶和利益相關(guān)者的道德相關(guān)反饋考慮到圍繞人工智能應(yīng)用程序迭代開(kāi)發(fā)的協(xié)作、測(cè)試和評(píng)估過(guò)程中?
如果這些基準(zhǔn)定期發(fā)布,人工智能社區(qū)將大大減少該技術(shù)對(duì)社會(huì)潛在不利影響的數(shù)量。如果沒(méi)有對(duì)人工智能的DevOps過(guò)程中可能蔓延的“邪惡”數(shù)量進(jìn)行基準(zhǔn)測(cè)試,可能會(huì)加劇以下趨勢(shì):
監(jiān)管范圍過(guò)大:人工智能經(jīng)常作為一種必要的邪惡進(jìn)入公共政策討論。以這種方式接近這一主題往往會(huì)增加政府制定嚴(yán)厲規(guī)定的可能性,從而影響許多其他有前途的“雙重用途”人工智能舉措。擁有明確的清單或人工智能實(shí)踐記分卡可能正是監(jiān)管機(jī)構(gòu)需要知道推薦或禁止的內(nèi)容。如果不存在這樣的基準(zhǔn)框架,那么從社會(huì)角度來(lái)看,當(dāng)行業(yè)認(rèn)證計(jì)劃等替代方法可能成為最有效的人工智能風(fēng)險(xiǎn)緩解制度時(shí),納稅人可能不得不承擔(dān)大量減少人工智能應(yīng)用程序的責(zé)任和代價(jià)。
企業(yè)變得虛偽:許多企業(yè)設(shè)立了“人工智能道德”委員會(huì),向開(kāi)發(fā)人員和其他業(yè)務(wù)職能部門(mén)提供高級(jí)指導(dǎo)。對(duì)于人工智能開(kāi)發(fā)者來(lái)說(shuō),忽視這類指導(dǎo)并不罕見(jiàn),尤其是如果人工智能是企業(yè)展示營(yíng)銷、客戶服務(wù)、銷售和其他數(shù)字業(yè)務(wù)流程結(jié)果的秘訣。那么這種狀況可能會(huì)影響企業(yè)致力于減輕人工智能負(fù)面影響的誠(chéng)意。擁有人工智能道德優(yōu)化基準(zhǔn)可能正是企業(yè)在其人工智能開(kāi)發(fā)實(shí)踐中建立有效的道德護(hù)欄所需要的措施。
員工感到沮喪:一些才華橫溢的開(kāi)發(fā)人員如果認(rèn)為人工智能將可能導(dǎo)致社會(huì)道德滑坡,他們可能不愿意參與人工智能項(xiàng)目。如果企業(yè)中有一種人工智能持不同意見(jiàn)的文化,它可能會(huì)削弱其維持卓越中心和探索技術(shù)創(chuàng)新應(yīng)用的能力。將人工智能實(shí)踐計(jì)分卡與廣為接受的企業(yè)公民計(jì)劃相結(jié)合,可能有助于緩解這種擔(dān)憂,從而鼓勵(lì)新一代開(kāi)發(fā)人員貢獻(xiàn)他們的最佳工作,而不感到他們?cè)跒樾皭旱哪繕?biāo)服務(wù)。
妖魔化人工智能的危險(xiǎn)與利用技術(shù)實(shí)現(xiàn)邪惡目的的危險(xiǎn)一樣真實(shí)。如果沒(méi)有那樣“良好的人工智能”基準(zhǔn),那么企業(yè)可能無(wú)法從這套顛覆性的工具、平臺(tái)和方法中獲得最大價(jià)值。
如果毫無(wú)根據(jù)的懷疑阻止整個(gè)社會(huì)利用人工智能的承諾,那么我們都會(huì)變得更窮。
如果沒(méi)有根據(jù)的懷疑阻止社會(huì)利用人工智能的承諾,那么人們的工作和生活都會(huì)受到不良的影響。