數(shù)據(jù)科學(xué)家指出,數(shù)據(jù)準(zhǔn)備對(duì)于任何一個(gè)人工智能系統(tǒng)的成功都至關(guān)重要。即使是最好、最復(fù)雜的分析技術(shù)采用低質(zhì)量、集成度低、設(shè)計(jì)草率或基本上不相關(guān)的數(shù)據(jù),最終的結(jié)果也是不可靠的。
分析和探討人工智能和機(jī)器學(xué)習(xí)用途的文章有很多,但關(guān)于人工智能系統(tǒng)基礎(chǔ)——高質(zhì)量的數(shù)據(jù)的文章則很少。以下介紹有助于確保企業(yè)的人工智能系統(tǒng)不會(huì)由于數(shù)據(jù)質(zhì)量問題而受到阻礙的五個(gè)規(guī)則。
規(guī)則1.少即是多
有些企業(yè)很難知道哪些數(shù)據(jù)對(duì)其業(yè)務(wù)重要,所以使用盡可能多的數(shù)據(jù)構(gòu)建人工智能系統(tǒng),人們會(huì)發(fā)現(xiàn)重要的見解隱藏在其中。但是,企業(yè)的人工智能系統(tǒng)采用大量無關(guān)或糟糕的數(shù)據(jù),最終將面臨失敗。一篇名為《機(jī)器學(xué)習(xí)系統(tǒng)中隱藏的技術(shù)債務(wù)》的文章指出,未充分利用的數(shù)據(jù)、提供很少或沒有增量收益的數(shù)據(jù),將使人工智能系統(tǒng)受到不利的影響,其后果有時(shí)是災(zāi)難性的。剔除無關(guān)數(shù)據(jù)使人工智能系統(tǒng)更易于測(cè)試、運(yùn)行、擴(kuò)展和維護(hù)。
企業(yè)遇到的問題是——哪些數(shù)據(jù)子集是包含所有或幾乎所有信號(hào)的精簡(jiǎn)數(shù)據(jù)集?這可能不容易確定。有一些數(shù)據(jù)科學(xué)技術(shù)可以確定特定數(shù)據(jù)功能的重要性,但它們不一定能說明全部情況。雖然有些數(shù)據(jù)可能非常重要,但僅限于某些情況。或者一些數(shù)據(jù)可能只有在與其他數(shù)據(jù)結(jié)合使用時(shí)才重要。弄清楚使用哪些數(shù)據(jù)以及要消除哪些數(shù)據(jù)是一個(gè)棘手但關(guān)鍵的步驟,在企業(yè)急于實(shí)現(xiàn)人工智能的過程中,這一步常常被忽略。
規(guī)則2.仔細(xì)尋找數(shù)據(jù)來源
在設(shè)計(jì)人工智能解決方案的原型或創(chuàng)建實(shí)驗(yàn)時(shí),數(shù)據(jù)通常有著不同的來源。數(shù)據(jù)集成和準(zhǔn)備可能是臨時(shí)的,只要人工智能系統(tǒng)做好了準(zhǔn)備,企業(yè)就可以利用適合其目的的所有自動(dòng)化和控制來實(shí)現(xiàn)特定的流程工業(yè)實(shí)力。
在某些情況下,人工智能開發(fā)人員從更加簡(jiǎn)單便捷的來源獲取數(shù)據(jù),但這不一定是最好的來源。例如在一個(gè)案例中,開發(fā)了一個(gè)來自未經(jīng)協(xié)調(diào)和處理的數(shù)據(jù)模型,其結(jié)果證明該模型與公布的財(cái)務(wù)數(shù)據(jù)完全不一致。對(duì)于概念證明,這樣的錯(cuò)誤可能是可以接受的。但在實(shí)施之前,其數(shù)據(jù)應(yīng)該來自支持良好的平臺(tái),這些平臺(tái)需要具有控制能力強(qiáng)、可靠性和可用性高的特點(diǎn)。
通常情況下,必須將來自不同來源的數(shù)據(jù)匯集在一起??,然后為采用人工智能的目的進(jìn)行整合和組合??紤]這些組合來自不同系統(tǒng)的客戶數(shù)據(jù)、產(chǎn)品數(shù)據(jù)和交易數(shù)據(jù)。將這些數(shù)據(jù)放在一起進(jìn)行建模是一個(gè)重要的步驟。這可能會(huì)以快速的方式進(jìn)行實(shí)驗(yàn),但在實(shí)施之前,需要對(duì)流程進(jìn)行適當(dāng)?shù)脑O(shè)計(jì)和測(cè)試。
然而在設(shè)計(jì)良好的人工智能系統(tǒng)之前,允許使用實(shí)驗(yàn)人工智能系統(tǒng)的誘惑是強(qiáng)烈的,必須加以抵制。當(dāng)然,只是定期使用的人工智能(例如用于月度報(bào)告)可能需要更少的數(shù)據(jù),以便在業(yè)務(wù)運(yùn)營(yíng)中持續(xù)使用。人工智能的高風(fēng)險(xiǎn)使用(例如損失預(yù)測(cè)、信貸批準(zhǔn)、欺詐檢測(cè))比低風(fēng)險(xiǎn)使用(例如營(yíng)銷活動(dòng)、客戶細(xì)分、潛在客戶優(yōu)先級(jí))要求更嚴(yán)格。
規(guī)則3.確定數(shù)據(jù)良好的程度
在商業(yè)環(huán)境中,完美的數(shù)據(jù)是罕見的。因此,不可避免地存在需要修補(bǔ)數(shù)據(jù)中的漏洞、需要清理的數(shù)據(jù)中的錯(cuò)誤或需要在使用前解決不一致的問題。
數(shù)據(jù)達(dá)到100%準(zhǔn)確率的成本可能很高,有時(shí)甚至無法實(shí)現(xiàn)。但在某些情況下則要求完全準(zhǔn)確,例如使用人工智能來預(yù)測(cè)貸款損失,那么其記錄貸款損失的歷史數(shù)據(jù)最好是100%完整的。但對(duì)于欺詐檢測(cè)模型來說,如果額外的2%的數(shù)據(jù)會(huì)阻礙模型的實(shí)施,那么達(dá)到98%的準(zhǔn)確率就足夠了,這將為企業(yè)減少大量欺詐損失。對(duì)于市場(chǎng)營(yíng)銷而言,85%的準(zhǔn)確率已經(jīng)足夠了。
企業(yè)需要決定數(shù)據(jù)質(zhì)量良好的程度。但需記住的是,這是一把雙刃劍。建立在低質(zhì)量數(shù)據(jù)上的人工智能系統(tǒng)最終在使用中變得不可靠,但也看到模型風(fēng)險(xiǎn)管理阻礙了人工智能模型的實(shí)施,因?yàn)閿?shù)據(jù)質(zhì)量問題影響人工智能的價(jià)值的情況令人擔(dān)憂。
每個(gè)用例都有所不同,在確定數(shù)據(jù)良好的過程中必須有一些步驟明確聲明數(shù)據(jù)質(zhì)量級(jí)別。并且需要實(shí)施控制措施(例如數(shù)據(jù)質(zhì)量指標(biāo)),以證明已達(dá)到閾值或在低于某些最低質(zhì)量標(biāo)準(zhǔn)時(shí)發(fā)出警告。
規(guī)則4.管理變化
更多的模型由于數(shù)據(jù)變更管理不善而失敗,而不是其他原因。數(shù)據(jù)中的某些意外變化或數(shù)據(jù)在某處中斷,將導(dǎo)致人工智能會(huì)產(chǎn)生不可靠的結(jié)果,有時(shí)甚至非常糟糕。
大多數(shù)企業(yè)都制定了數(shù)據(jù)變更管理流程。這一流程旨在傳達(dá)和分析數(shù)據(jù)更改的影響。但人工智能系統(tǒng)的應(yīng)用讓這變得更加困難。人工智能和數(shù)據(jù)管理交織在一起;數(shù)據(jù)可以影響人工智能,人工智能也可以影響數(shù)據(jù)。在通常情況下,數(shù)據(jù)變更管理由企業(yè)首席數(shù)據(jù)官負(fù)責(zé),人工智能變更管理由首席分析官負(fù)責(zé),或者模型風(fēng)險(xiǎn)管理由首席風(fēng)險(xiǎn)官負(fù)責(zé),而這些部門并沒有充分或有效地溝通。
數(shù)據(jù)變更管理和模型變更管理必須緊密聯(lián)系在一起。必須分析數(shù)據(jù)更改對(duì)人工智能的潛在影響,并且必須分析人工智能更改對(duì)其數(shù)據(jù)輸出的消費(fèi)者的潛在影響。這兩者都不能孤立地進(jìn)行管理。
還有兩種方法可以處理這個(gè)問題:一種選擇是將數(shù)據(jù)變更管理和模型變更管理合并在一起,但這對(duì)大多數(shù)企業(yè)來說難以做到。第二種選擇是制定正確的政策和程序,例如在實(shí)施之前分析數(shù)據(jù)更改對(duì)人工智能的潛在影響。
為此,必須有一個(gè)完整的人工智能注冊(cè)表,其中包括人工智能使用的數(shù)據(jù)信息(模型元數(shù)據(jù))。否則幾乎不可能確定哪個(gè)人工智能受到數(shù)據(jù)更改的影響。同樣,模型風(fēng)險(xiǎn)應(yīng)該是一個(gè)因素,與只影響低風(fēng)險(xiǎn)模型的數(shù)據(jù)更改相比,高風(fēng)險(xiǎn)模型將得到更嚴(yán)格的潛在影響分析。
規(guī)則5.建立警報(bào)系統(tǒng)
數(shù)據(jù)的質(zhì)量問題可能并不明顯,而且數(shù)據(jù)流從表面上看似乎都在正常運(yùn)行。如果沒有設(shè)計(jì)良好的警報(bào)系統(tǒng),數(shù)據(jù)問題可能會(huì)被忽視。例如一家銀行的信用模型運(yùn)行了數(shù)周時(shí)間,但在任何人意識(shí)到出現(xiàn)問題之前就已經(jīng)丟失了關(guān)鍵數(shù)據(jù)。
即使是細(xì)微但出乎意料的數(shù)據(jù)變化也可能導(dǎo)致模型性能下降。更糟糕的是由于流程故障而突然丟失數(shù)據(jù),這樣的事件很常見。
被忽視的數(shù)據(jù)問題比快速發(fā)現(xiàn)的數(shù)據(jù)問題造成的損害更大。例如,證券定價(jià)錯(cuò)誤可以通過多個(gè)系統(tǒng)蔓延,并且持續(xù)的時(shí)間越長(zhǎng),修復(fù)起來就越困難,成本也越高。建立正確的警報(bào)系統(tǒng),可以發(fā)現(xiàn)數(shù)據(jù)問題并采取行動(dòng),降低因數(shù)據(jù)處理中斷而導(dǎo)致人工智能系統(tǒng)故障的風(fēng)險(xiǎn)。
這需要采用正確的工具?,F(xiàn)有的應(yīng)用程序監(jiān)控系統(tǒng)通常不足以監(jiān)控?cái)?shù)據(jù)流。它們甚至可能提供虛假的安全感,表明一切正常,而實(shí)際上企業(yè)的數(shù)據(jù)中存在重大漏洞或高度異常的情況。企業(yè)可以從簡(jiǎn)單的數(shù)據(jù)質(zhì)量指標(biāo)開始,例如完整性檢查(是否獲得了所有數(shù)據(jù)?)和一致性檢查(是否與總賬或基礎(chǔ)貸款或存款系統(tǒng)等記錄系統(tǒng)相匹配?)。
當(dāng)出現(xiàn)問題時(shí),企業(yè)需要制定故障轉(zhuǎn)移計(jì)劃,例如在研究和糾正錯(cuò)誤時(shí)暫時(shí)讓人工智能離線運(yùn)行。
結(jié)語(yǔ)
數(shù)據(jù)是優(yōu)秀人工智能系統(tǒng)的重要基礎(chǔ)。數(shù)據(jù)科學(xué)家通常不會(huì)獨(dú)自承擔(dān)上述所有任務(wù)。他們需要來自數(shù)據(jù)治理、數(shù)據(jù)工程和IT團(tuán)隊(duì)的正確支持。采用正確的控制措施,可以幫助企業(yè)避免在人工智能系統(tǒng)由于無法預(yù)見或未被發(fā)現(xiàn)的數(shù)據(jù)問題而出現(xiàn)的嚴(yán)重錯(cuò)誤。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。