在人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方面,目前有很多市場熱議和技術(shù)探討。大多數(shù)問題有的過于松散,有的過于數(shù)學(xué)化,有的過于籠統(tǒng),有的過于專注于特定的應(yīng)用程序,與業(yè)務(wù)成果和指標(biāo)脫節(jié),有的沒有方向性。
本文通過以下方式概述這些相關(guān)技術(shù):
•定義人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí),解釋與傳統(tǒng)方法的區(qū)別,描述何時使用它們,并指出它們的優(yōu)缺點(diǎn)。
•解釋它們?nèi)绾窝a(bǔ)充業(yè)務(wù)框架并實(shí)現(xiàn)業(yè)務(wù)成果和指標(biāo)。
•描述常見類型的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型培訓(xùn)、算法、架構(gòu)、性能評估和良好性能的障礙。
•提供工作中的機(jī)器學(xué)習(xí)模型和算法的示例。
•為業(yè)務(wù)成果的人工智能實(shí)施提出潛在的框架。
商業(yè)環(huán)境中的人工智能
所有的組織都致力于實(shí)現(xiàn)特定的結(jié)果,他們同時兼顧了一些業(yè)務(wù)指標(biāo)和流程來實(shí)現(xiàn)這一目標(biāo),例如收入、成本、上市時間、流程準(zhǔn)確性和效率。但他們的資源有限(費(fèi)用、時間、人力和其他資產(chǎn))。因此,問題歸結(jié)為對資源配置做出正確的決策(什么樣的資源、多少資源、應(yīng)該做什么、需要什么能力等等),并且比競爭對手更快、比市場變化更快地做出正確的決策。
做出這些決定很困難,但是很明顯,當(dāng)可以獲得數(shù)據(jù)、信息和知識時,它們變得非常容易。假設(shè)這些輸入信息可用,則需要對它們進(jìn)行匯總和挖掘。分析人員需要時間獲得行業(yè)專家的專業(yè)知識和經(jīng)驗,以適應(yīng)不斷變化的業(yè)務(wù)規(guī)則,在可能的情況下針對個人偏見進(jìn)行校準(zhǔn),并找出模式并產(chǎn)生見解。在理想情況下,分析人員和管理人員應(yīng)該(在時間允許的情況下)評估多種情況并進(jìn)行多次實(shí)驗,以增強(qiáng)對其建議和決策的信心。最后,需要將決策付諸實(shí)踐。
輸入人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí),其中:
•根據(jù)觀察為組織建模。
•通過同時審查許多因素和變量來產(chǎn)生見解(遠(yuǎn)遠(yuǎn)超出在合理的時間段和成本約束下所能達(dá)到的水平)。
•在提供新的觀察結(jié)果時不斷學(xué)習(xí)。
•量化結(jié)果的可能性(即預(yù)測可能發(fā)生的事情)。
•規(guī)定具體行動,以優(yōu)化業(yè)務(wù)目標(biāo)和指標(biāo)。
•通過更快的再培訓(xùn)與傳統(tǒng)的較慢的重新編程,快速適應(yīng)新的業(yè)務(wù)規(guī)則。
使人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)成為可能的是數(shù)據(jù)量和數(shù)據(jù)類型的激增,加上計算和存儲硬件和工具的成本降低。Facebook、Google、Amazon和Netflix等公司已經(jīng)證明了它的有效性,所有行業(yè)的組織都在緊隨其后。結(jié)合商業(yè)智能,人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)三者克服了決策的障礙,從而促進(jìn)組織實(shí)現(xiàn)其商業(yè)目標(biāo)。
人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)適用于指標(biāo)驅(qū)動型組織和企業(yè)中的每個人。
麥肯錫全球研究院在其2011年5月出版的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》一書中指出,美國對于使用分析結(jié)果的管理人員和分析師的需求為150萬人,超過了對分析人員(例如數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家)的需求。
換句話說,數(shù)據(jù)價值鏈中的瓶頸不是數(shù)據(jù)或分析,而是能夠根據(jù)場景和智能方式利用數(shù)據(jù)/分析實(shí)施的能力。對于業(yè)務(wù)和流程專業(yè)人員來說,這是一個將人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)與已經(jīng)很好理解的業(yè)務(wù)框架和概念結(jié)合起來的機(jī)會。這是一個在這些框架和概念中定義問題和假設(shè)的機(jī)會,然后使用人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來發(fā)現(xiàn)模式(洞察)和測試假設(shè),這些假設(shè)需要太長時間才能測試,否則識別和測試成本太高,或者對人們來說太難執(zhí)行。
組織越來越多地轉(zhuǎn)向人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí),而業(yè)務(wù)正變得越來越復(fù)雜。組織一次要處理的事情太多了。也就是說,有太多數(shù)據(jù)點(diǎn)(相關(guān)的和不相關(guān)的)需要整合。這樣看,處理太多的數(shù)據(jù)可能是一個責(zé)任。
但是,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)可以通過系統(tǒng)地確定數(shù)據(jù)的重要性、預(yù)測結(jié)果、規(guī)定具體行動和自動化決策,將這堆數(shù)據(jù)變成一種資產(chǎn)。簡而言之,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)使組織和企業(yè)能夠承擔(dān)驅(qū)動業(yè)務(wù)復(fù)雜性的因素,其中包括:
•價值鏈和供應(yīng)鏈更加全球化,相互交織,并專注于微細(xì)分市場。
•快速變化的業(yè)務(wù)規(guī)則,以與競爭對手以及客戶的需求和偏好保持同步。
•正確預(yù)測和部署稀缺資源,以優(yōu)化競爭項目/投資和業(yè)務(wù)指標(biāo)。
•需要同時提高質(zhì)量和客戶體驗,同時降低成本。
在許多方面,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)要優(yōu)于顯式編程和傳統(tǒng)統(tǒng)計分析:
•不需要真正了解業(yè)務(wù)規(guī)則即可達(dá)到預(yù)期的結(jié)果,只需對機(jī)器進(jìn)行樣例輸入和輸出方面的培訓(xùn)即可。
•如果業(yè)務(wù)規(guī)則發(fā)生變化,使得相同的輸入不再導(dǎo)致相同的輸出,則只需對機(jī)器進(jìn)行重新培訓(xùn)(而不是重新編程)即可,從而可以縮短響應(yīng)時間,并減輕人們學(xué)習(xí)新業(yè)務(wù)規(guī)則的需要。
•與傳統(tǒng)的統(tǒng)計分析相比,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的建立相對較快,因此可以通過嘗試學(xué)習(xí)重試方法快速迭代多個模型。
然而,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)確實(shí)有不利之處。其中,仍以統(tǒng)計數(shù)據(jù)為依據(jù),因此產(chǎn)出存在不確定性因素。這使得將人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)集成到工作流中變得棘手,因為機(jī)器決策中的高度模糊性很可能由一個人來處理。為了提高機(jī)器的準(zhǔn)確性,錯誤或正確的答案應(yīng)該反饋給機(jī)器,用于額外的訓(xùn)練(學(xué)習(xí))。
此外,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的解釋也較少;也就是說,可能不清楚他們?nèi)绾巫龀鰶Q定。對于具有許多“層”和“神經(jīng)元”的復(fù)雜深度學(xué)習(xí)模型尤其如此。在高度管制的行業(yè)中,這種不清晰可能會特別令人擔(dān)憂。應(yīng)該注意的是,有很多研究集中在這一領(lǐng)域,因此也許將來不會成為不利條件。
考慮到這些優(yōu)點(diǎn)和缺點(diǎn),那么什么時候使用人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是合適的?以下是一些想法:
•值得一提的是:取得高潛力的業(yè)務(wù)成果,但傳統(tǒng)的方法過于繁瑣、耗時,或者根本不合適。
•相關(guān)數(shù)據(jù)可用且可訪問。
•主題專家認(rèn)為數(shù)據(jù)包含有意義的信號(也就是說,可以從數(shù)據(jù)中獲得洞察力)。
•問題定義與機(jī)器學(xué)習(xí)或深度學(xué)習(xí)問題相關(guān),例如分類、聚類或異常檢測。
•用例的成功可以映射到機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的性能指標(biāo),例如精確調(diào)用和準(zhǔn)確性。
人工智能定義:從商業(yè)智能到人工智能的自然演進(jìn)
人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是商業(yè)智能的自然發(fā)展。在商業(yè)智能描述和診斷過去事件的地方,人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)試圖預(yù)測未來事件的可能性,并規(guī)定如何增加這些事件實(shí)際發(fā)生的可能性。說明這一點(diǎn)的一個簡單示例是GPS可以引導(dǎo)車輛從A點(diǎn)行駛到B點(diǎn):
•描述:車輛行駛了哪條路線,行駛了多長時間?
•診斷:為什么車輛在特定的交通信號燈下花費(fèi)很長時間(假設(shè)GPS平臺/工具跟蹤事故和車流情況等)?
•預(yù)測:如果車輛從A點(diǎn)到B點(diǎn),預(yù)計到達(dá)時間是多少?
•規(guī)定:如果車輛從A點(diǎn)駛向B點(diǎn),則該車輛應(yīng)在哪條路線行駛可以預(yù)期到達(dá)?
人工智能的預(yù)測
預(yù)測的一個例子是情感分析(某人喜歡某事的概率)。假設(shè)組織可以跟蹤和存儲任何用戶發(fā)布的文本內(nèi)容(例如推文、博客文章和論壇消息)。然后,組織可以建立一個模型,根據(jù)用戶發(fā)布來預(yù)測其情緒。
另一個例子是提高客戶轉(zhuǎn)化率:如果人們有機(jī)會獲得他們想要的獎品,人們更有可能注冊訂閱,因此就可以預(yù)測哪些獎品會帶來最高的轉(zhuǎn)化次數(shù)。
人工智能中的處方
人工智能的處方是關(guān)于在營銷、銷售和客戶服務(wù)等各個流程中優(yōu)化業(yè)務(wù)指標(biāo)的,它是通過告訴規(guī)范分析系統(tǒng)應(yīng)優(yōu)化哪些指標(biāo)來實(shí)現(xiàn)的。這就像告訴GPS要優(yōu)化的內(nèi)容,例如最少的油耗、最快的時間、最低的行駛里程,或者經(jīng)過的快餐店。在業(yè)務(wù)環(huán)境中,組織可以將轉(zhuǎn)化率提高10%,銷售額提高20%或?qū)⑼茝V者得分(NPS)提高5點(diǎn)。
從那里,說明性分析系統(tǒng)將規(guī)定一系列操作,這些操作可以導(dǎo)致組織想要的相應(yīng)業(yè)務(wù)成果。
假設(shè)要實(shí)現(xiàn)10%的轉(zhuǎn)化率提升。系統(tǒng)可能會規(guī)定:
•將直接郵件營銷的頻率降低15%。
•同時將Twitter和Facebook的參與度分別提高10%和15%。
•當(dāng)企業(yè)的社交媒體總參與度達(dá)到12%時,開始將公眾引導(dǎo)到組織的客戶社區(qū)門戶以實(shí)現(xiàn)客戶的參與。
這些說明性操作就像GPS系統(tǒng)建議組織在旅途中進(jìn)行的轉(zhuǎn)彎以優(yōu)化其設(shè)定的目標(biāo)一樣。
商業(yè)智能、統(tǒng)計數(shù)據(jù)和人工智能之間的關(guān)系
這是定義商業(yè)智能、統(tǒng)計信息和人工智能之間差異的一種方法:
•傳統(tǒng)上,商業(yè)智能是面向查詢的,并且依靠分析師來確定模式(例如最賺錢的客戶,為什么他們最賺錢,它們與眾不同的屬性(例如年齡或工作類型)。
•統(tǒng)計數(shù)據(jù)還依賴于分析人員了解數(shù)據(jù)的屬性(或結(jié)構(gòu))以在數(shù)據(jù)中找到有關(guān)總體的信息,但它在推斷一般化方面增加了數(shù)學(xué)上的嚴(yán)謹(jǐn)性(例如,實(shí)際生活中的這些客戶群體與樣本數(shù)據(jù)中的客戶群體之間是否存在差異)。
•人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)依靠算法(而非分析師)來自主找到數(shù)據(jù)中的模式并啟用預(yù)測和處方。
請注意,商業(yè)智能和人工智能,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)可以做的更多。
雖然一方面使用統(tǒng)計建模,另一方面使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來建立業(yè)務(wù)狀況模型,但兩者之間存在一些關(guān)鍵差異,尤其是:
•統(tǒng)計建模需要在輸入和輸出之間建立一個數(shù)學(xué)方程式。相比之下,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)并不會嘗試使用該數(shù)學(xué)方程;與其相反,它們只是嘗試在給定輸入的情況下重新創(chuàng)建輸出。
•統(tǒng)計建模需要了解變量之間的關(guān)系,并對數(shù)據(jù)總體的統(tǒng)計屬性進(jìn)行假設(shè)。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)則沒有。
通常,由于統(tǒng)計建模需要數(shù)學(xué)方程式,并且需要了解數(shù)據(jù)之間的關(guān)系,因此統(tǒng)計模型在建立統(tǒng)計模型以研究和處理數(shù)據(jù)時需要花費(fèi)相對較長的時間。但是,如果成功完成(即找到方程式并且很好地理解數(shù)據(jù)之間的統(tǒng)計關(guān)系),則該模型可能會致命。
另一方面,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的構(gòu)建速度非常快,但啟動時可能無法獲得高性能。但是由于它們很容易在早期階段構(gòu)建,因此可以同時嘗試許多算法,并不斷嘗試最有希望的算法,直到模型性能變得非常好為止。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型還具有額外的優(yōu)勢,即可以“獨(dú)立”不斷地從新數(shù)據(jù)中學(xué)習(xí),從而提高其性能。
如果數(shù)據(jù)的性質(zhì)發(fā)生變化,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型只需對新數(shù)據(jù)進(jìn)行再培訓(xùn);而統(tǒng)計模型通常需要全部或部分重建。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型在解決高度非線性問題方面也很出色(人們很難做到這一點(diǎn),因為這些方程太長了)。隨著微細(xì)分成為規(guī)范(例如細(xì)分的客戶群、大規(guī)模定制、個性化客戶體驗、個人和精準(zhǔn)醫(yī)療),并且流程和根本原因分析變得越來越多方面和相互依賴,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的這一屬性真的很有用。
人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)有何不同
到目前為止,把人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)結(jié)合在一起。但它們并不完全相同。
一般來說:
人工智能是機(jī)器執(zhí)行人類智能特征任務(wù)的地方。它包括計劃、理解語言、識別物體和聲音、學(xué)習(xí)和解決問題。這可以是人工通用智能(AGI)或人工狹義智能(ANI)的形式。
•人工通用智能(AGI)具有人類智慧的所有特征,包括人們的所有感官(甚至更多)和推理能力,因此可以像人們一樣思考。有些人將其描述為“認(rèn)知”,例如C3PO等。
•人工狹義智能(ANI)具有人類智能的某些方面,但不是全部。它用于執(zhí)行特定任務(wù)。例子包括Pinterest等服務(wù)中的圖像分類和Facebook上的人臉識別。人工狹義智能(ANI)是大多數(shù)業(yè)務(wù)應(yīng)用程序當(dāng)前關(guān)注的焦點(diǎn)。
機(jī)器學(xué)習(xí)是指機(jī)器使用算法來學(xué)習(xí)和執(zhí)行任務(wù)而無需進(jìn)行顯式編程(也就是說,不必向它們提供特定的業(yè)務(wù)規(guī)則來從數(shù)據(jù)中學(xué)習(xí);換句話說,它們不需要諸如“如果看到X,就做Y”)。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子集,通常使用人工神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)的好處是,從理論上說,無需告知哪些數(shù)據(jù)元素(或機(jī)器學(xué)習(xí)中的“特征”很重要),但是大多數(shù)時候,它需要大量數(shù)據(jù)。
以識別手寫數(shù)字為例,可以更好地理解顯式編程、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)之間的差異。對于人們來說,識別手寫數(shù)字并不難。多年來,人們已經(jīng)從父母、老師、兄弟姐妹和同學(xué)學(xué)到很多知識和技能。
現(xiàn)在假設(shè)讓一臺機(jī)器通過顯式編程執(zhí)行相同的操作。在顯式編程中,必須告訴機(jī)器要查找的內(nèi)容。例如,圓形對象為零,豎線為1,依此類推。但是,如果對象不是完美的圓形,或者末端沒有連接而并不是一個完整的圓形,會發(fā)生什么?當(dāng)直線不是豎直線而是向側(cè)面傾斜時,或者該行的頂部有一個鉤子(例如“ 1”)時,會發(fā)生什么?是數(shù)字7嗎?手寫字母的多種變體使編寫一個明確的程序變得困難。組織將不斷添加新的“業(yè)務(wù)規(guī)則”以說明差異。在機(jī)器學(xué)習(xí)方法中,將顯示機(jī)器示例1s,2s等,并告訴它要尋找什么“特性”(重要特征)。特征工程很重要,重要特征的示例可以是圓的數(shù)量、直線的數(shù)量、直線的方向、直線相交的數(shù)量以及直線相交的位置。不重要特征的示例可能是顏色、長度、寬度和深度。假設(shè)組織為機(jī)器提供了正確的功能,并提供了示例和答案,則機(jī)器最終將自行了解這些功能對于不同數(shù)字的重要性,然后希望能夠正確區(qū)分(或分類)數(shù)字。
需要注意,使用機(jī)器學(xué)習(xí)時,必須告訴機(jī)器重要的功能(即要查找的內(nèi)容),因此機(jī)器與確定適當(dāng)功能的人員一樣好。
深度學(xué)習(xí)的承諾是,無需工作人員告訴機(jī)器要使用哪些功能(即哪些功能最重要),它就會自動發(fā)現(xiàn)這一點(diǎn)。需要做的就是為它提供所有功能,它會從中自動選擇重要的功能。盡管這是一個明顯的優(yōu)勢,但它是以高數(shù)據(jù)量要求和長時間培訓(xùn)的形式付出的代價,而這需要大量的計算處理能力。
人工智能模型概念綜述
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型背后的思想是,它們從給定的數(shù)據(jù)(他們以前看到的東西)中學(xué)習(xí),然后可以概括為對新數(shù)據(jù)(他們以前沒有看到的東西)做出正確的決策。
但是什么構(gòu)成模型?模型的一種定義是由三個部分組成:
•數(shù)據(jù):歷史數(shù)據(jù)用于訓(xùn)練模型。例如,在學(xué)習(xí)彈鋼琴時,輸入的數(shù)據(jù)是不同的音符、不同類型的音樂、不同的作曲家風(fēng)格等。
•算法:模型用于學(xué)習(xí)過程的一般規(guī)則。在鋼琴示例中,組織的內(nèi)部算法可能會告訴尋找音符,如何在琴鍵上移動手指、如何以及何時按下踏板等。
•超參數(shù):這些是數(shù)據(jù)科學(xué)家為改善模型性能而進(jìn)行調(diào)整的“旋鈕”,它們并不是從數(shù)據(jù)中學(xué)習(xí)到的。再次以鋼琴為例,超參數(shù)包括人們練習(xí)音樂作品的頻率、練習(xí)的位置、一天中的練習(xí)時間,用于練習(xí)的鋼琴等。這種想法是,調(diào)整這些“旋鈕”可以提高其學(xué)習(xí)如何演奏音樂的能力。
將所有這些放在一起,便會構(gòu)建一個鋼琴演奏模型。從理論上講,根據(jù)其訓(xùn)練水平,可以創(chuàng)作以前從未彈奏過的新音樂作品,并且可以演奏它們。
機(jī)器學(xué)習(xí)的類型
機(jī)器就像人一樣可以通過不同的方式學(xué)習(xí)。在此將再次使用鋼琴訓(xùn)練的例子進(jìn)行解釋:
•有人監(jiān)督:鋼琴教師向彈奏者展示或告訴其正確的演奏方法,以及糾正錯誤的演奏方法。在理想的情況下,將提供相同數(shù)量的示例,說明如何正確和錯誤地演奏方法。實(shí)質(zhì)上,訓(xùn)練數(shù)據(jù)由要從一組預(yù)測變量(獨(dú)立變量)中預(yù)測的目標(biāo)/結(jié)果變量(或因變量)組成。使用這些變量集,將生成一個將輸入映射到所需輸出的函數(shù)。訓(xùn)練過程一直持續(xù)到模型在訓(xùn)練數(shù)據(jù)上達(dá)到期望的性能水平為止。監(jiān)督培訓(xùn)的業(yè)務(wù)示例顯示了已獲批準(zhǔn)或被拒絕(目標(biāo)結(jié)果和決策)的貸款申請的系統(tǒng)示例(由信用歷史、工作歷史、資產(chǎn)所有權(quán)、收入和教育等預(yù)測變量組成)。
•無人監(jiān)督:如果演奏者自己一個人在演奏,也就是說沒有人教他如何彈鋼琴,因此他可以根據(jù)自己的想法來決定對與錯,以優(yōu)化對其重要的參數(shù),例如完成樂曲的速度,高音符與柔和音符的比率,或觸按琴鍵的數(shù)量。本質(zhì)上,數(shù)據(jù)點(diǎn)沒有與之關(guān)聯(lián)的標(biāo)簽來告知是對還是錯。與其相反,目標(biāo)是以某種方式組織數(shù)據(jù)或描述其結(jié)構(gòu)。這可能意味著將其分組,或者尋找查看復(fù)雜數(shù)據(jù)的不同方法,從而使其看起來更簡單或更有組織。通常,無監(jiān)督學(xué)習(xí)在訓(xùn)練模型方面不如無監(jiān)督學(xué)習(xí)有效,但是當(dāng)沒有標(biāo)簽存在時(換句話說,“正確”的答案是未知的),這可能是必要的。一個常見的商業(yè)例子是市場細(xì)分:通常不清楚什么是“正確”的市場細(xì)分,但每個營銷人員都在尋找自然親緣關(guān)系的細(xì)分,以便他們能夠以正確的信息、提議和產(chǎn)品接近這些細(xì)分。
•半監(jiān)督:受監(jiān)督和無監(jiān)督的組合。在沒有足夠監(jiān)督數(shù)據(jù)的情況下使用此方法。在鋼琴示例中,就會得到一些指導(dǎo),但不會得到很多指導(dǎo)(可能是因為課程昂貴或老師人數(shù)不足)。
•強(qiáng)化:系統(tǒng)不會告知演奏者正確和錯誤的演奏方式,也不知道要優(yōu)化的參數(shù)是什么,但是會告訴何時做對或錯。在進(jìn)行鋼琴訓(xùn)練的情況下,當(dāng)彈錯音符或以不正確的節(jié)奏演奏時,鋼琴教師可能會糾正,并且當(dāng)演奏者彈奏得很好時,就會給予鼓勵。強(qiáng)化學(xué)習(xí)現(xiàn)在非常流行,因為在某些情況下,每種情況下沒有足夠的監(jiān)督數(shù)據(jù),但是已知“正確”的答案。例如,在國際象棋游戲中,要記錄到文檔(標(biāo)簽)的移動過多。但是強(qiáng)化學(xué)習(xí)仍然可以告訴機(jī)器何時做出對與錯的決定,進(jìn)而贏得勝利(比如在國際象棋中捕捉棋子和強(qiáng)化位置)。
•轉(zhuǎn)移學(xué)習(xí):演奏者已經(jīng)掌握了一些可轉(zhuǎn)移的技能(例如閱讀筆記的能力,甚至掌握了手指的敏捷性),因此可以利用自己的彈奏鋼琴知識來學(xué)習(xí)另一種樂器,以此來學(xué)習(xí)如何吹小號。之所以使用轉(zhuǎn)移學(xué)習(xí),是因為它減少了學(xué)習(xí)時間,對于使用深度學(xué)習(xí)架構(gòu)的模型而言,這可能很重要(數(shù)小時甚至數(shù)天)。
通用機(jī)器學(xué)習(xí)算法
常見的算法類型包括:
•回歸只是通過數(shù)據(jù)點(diǎn)繪制曲線或直線。
•分類是確定某物屬于哪個組。二進(jìn)制分類(兩組)正在確定某物是否屬于一類,例如圖片中的動物是否是狗。以動物為例,多種分類(兩個以上類別)是動物是狗、貓、鳥等。
•聚類類似于分類,但是并不會提前知道分類。再次以識別動物圖片為示例,可以確定存在三種類型的動物,但是不知道這些動物是什么,因此只需將它們分為幾類即可。一般而言,當(dāng)沒有足夠的受監(jiān)管數(shù)據(jù)時,或者當(dāng)想在數(shù)據(jù)中找到自然分組而不受限于特定組(例如狗、貓或鳥)時,可以使用聚類。
•時間序列假定數(shù)據(jù)順序很重要(隨著時間的推移獲取的數(shù)據(jù)點(diǎn)具有應(yīng)考慮的內(nèi)部結(jié)構(gòu))。例如,可以將銷售數(shù)據(jù)視為時間序列,因為可能希望隨時間變化收入趨勢,以檢測季節(jié)性并將其與促銷活動相關(guān)聯(lián)。
深度學(xué)習(xí)模型
深度學(xué)習(xí)基于人工神經(jīng)網(wǎng)絡(luò)(ANN)的概念。這樣可以就像人類的大腦一樣工作,在這種情況下,根據(jù)某種反饋,突觸變得更強(qiáng)或更弱,而神經(jīng)元則根據(jù)特定條件激發(fā)。通過深度學(xué)習(xí)模型解決了難題,其中包括自動駕駛汽車、圖像檢測、視頻分析和語言處理。
為了避免認(rèn)為深度學(xué)習(xí)模型是唯一應(yīng)該使用的東西,這里有一些注意事項:
•首先,它們需要大量數(shù)據(jù),通常比機(jī)器學(xué)習(xí)模型要多得多。如果沒有大量數(shù)據(jù),深度學(xué)習(xí)通常會表現(xiàn)不佳。
•其次,由于深度學(xué)習(xí)模型需要大量數(shù)據(jù),因此訓(xùn)練過程需要很長時間,并且需要大量的計算處理能力。這一點(diǎn)正被越來越強(qiáng)大和更快的CPU和存儲器以及更新的GPU和FPGAs(現(xiàn)場可編程邏輯陣列)所解決。
•第三,深度學(xué)習(xí)模型通常比機(jī)器學(xué)習(xí)模型更難解釋。可解釋性是深度學(xué)習(xí)研究的主要領(lǐng)域,因此也許會有所改善。
如何衡量機(jī)器學(xué)習(xí)模型的性能
模型就像人類一樣,可以對其性能進(jìn)行評估。這里有幾種方法可以衡量相對簡單的回歸模型的性能。
所有這些都可以被認(rèn)為是一種成本函數(shù),它可以幫助模型知道它是否離“正確”答案越來越近,或者距該答案“足夠近”。成本函數(shù)告訴模型需要多長時間才能獲取之前從未見過的新數(shù)據(jù),并以足夠高的概率輸出正確的預(yù)測。訓(xùn)練模型時,目標(biāo)是最小化成本函數(shù)。
分類模型中的精度與召回率
一旦成本函數(shù)完成了根據(jù)訓(xùn)練數(shù)據(jù)(正在顯示的數(shù)據(jù))幫助模型朝著“正確答案”方向發(fā)展的工作,就需要評估模型在尚未處理的數(shù)據(jù)上的表現(xiàn)如何看過。在分類模型的場景中進(jìn)行解釋(分類模型可以確定某物是否屬于一組或另一組,例如圖片是狗、貓、老鼠等)。
要評估分類模型的性能,請使用方程式以提高準(zhǔn)確性。但是,通常認(rèn)為,當(dāng)訓(xùn)練數(shù)據(jù)顯示等級不平衡時,準(zhǔn)確性指標(biāo)可能會誤導(dǎo),因此可以使用稱為精度和召回率的指標(biāo)。這些術(shù)語的含義如下:
•等級不平衡:數(shù)據(jù)在一個方向相對于其他方向偏斜。考慮預(yù)測信用卡交易是否為欺詐的示例。絕大多數(shù)交易不是欺詐性的,數(shù)據(jù)集將朝這個方向傾斜。因此,如果預(yù)測給定的交易不是欺詐,那么即使對交易本身一無所知,也可能是對的。在此示例中應(yīng)用準(zhǔn)確性指標(biāo)會使人們誤以為在預(yù)測非欺詐性交易方面做得很好。
•精確性是相關(guān)性的衡量標(biāo)準(zhǔn)。假設(shè)使用搜索引擎來了解人們喜歡網(wǎng)球運(yùn)動的程度。精確測量返回的項目中有多少與此有關(guān),而鏈接則表示人們喜歡網(wǎng)球的程度,人們喜歡網(wǎng)球活動的方式等等。
•召回是衡量完整性的標(biāo)準(zhǔn)。以喜歡網(wǎng)球運(yùn)動為例,召回率可以衡量搜索引擎捕獲所有可用參考的程度。缺少零引用是令人驚訝的,缺少一兩個參考值還可以,缺少數(shù)千個參考值將是可怕的。
不幸的是,在現(xiàn)實(shí)世界中,精確性和召回率是相互抵消的;也就是說,當(dāng)一個指標(biāo)提高時,另一個指標(biāo)就會降低。所以,必須確定哪個指標(biāo)更重要。
以一個約會應(yīng)用程序為例,該應(yīng)用程序?qū)⒛橙伺c異性匹配。如果相貌端正、富有并且個性十足,那么可能會傾向于更高的精度,因為知道會有很多潛在的匹配,但只想要真正合適的匹配,并且篩選潛在對手的可能性很高。為了評估模型在精度和召回率之間的平衡程度,使用了F1評分。
這些指標(biāo)可以繪制在圖表上;一個稱為ROC曲線(接收者工作特性曲線),另一個稱為PR曲線(精度召回曲線)。一條完美的曲線(除非作弊,否則永遠(yuǎn)得不到它)是Y軸到1,然后越過頂點(diǎn)的曲線。在ROC曲線的情況下,對角線上的一條直線是不好的,這意味著模型以50%的比率平均預(yù)測正值和負(fù)值(不比隨機(jī)猜測好)。這些指標(biāo)經(jīng)常轉(zhuǎn)換為曲線下的面積(AUC),因此將看到AUC ROC和AUC PR等術(shù)語。
為什么建立機(jī)器學(xué)習(xí)模型會很困難
既然了解了什么是模型以及如何判斷模型的性能,那么探討一下為什么構(gòu)建一個性能良好的模型會很困難。這有幾個原因,其中包括:問題表述、數(shù)據(jù)問題、選擇合適的模型算法和結(jié)構(gòu)、選擇合適的特征、調(diào)整超參數(shù)、訓(xùn)練模型、代價(誤差)函數(shù)、欠擬合(偏差)和過擬合(方差)。
要知道,數(shù)據(jù)科學(xué)和其他任何科學(xué)一樣,既是一門藝術(shù),也是一門科學(xué)。當(dāng)然,做事情總是有一些簡單的方法,但是這些方法可能會很費(fèi)時,可能會減少洞察力,而且很可能適得其反。當(dāng)前的數(shù)據(jù)科學(xué)方法是匯集行業(yè)專家(如業(yè)務(wù)線、運(yùn)營、轉(zhuǎn)型和改進(jìn)專家)和數(shù)據(jù)科學(xué)家的知識,以創(chuàng)建滿足業(yè)務(wù)需求的模型。
過擬合與欠擬合
過擬合與欠擬合是最受歡迎的問題結(jié)果,因此對其進(jìn)行深入研究。它們涉及偏差和方差。
過擬合(高方差)意味著該模型對數(shù)據(jù)的變化反應(yīng)過多,因此它并未真正了解其真正含義,而是“記憶”了數(shù)據(jù)。就像學(xué)習(xí)一本數(shù)學(xué)書一樣,當(dāng)接受測試時,只知道書中給出的三個例子的答案。當(dāng)老師問你這些數(shù)學(xué)問題時(例如2+1=3,7+2=9,和4+2=6),會發(fā)現(xiàn)它們是正確的。但是當(dāng)她問一些不同的東西(例如7×9 =?)時,就可能不知道答案。這是因為即使了解例子的答案,但并沒有掌握算法。
欠擬合(高偏差)是相反的問題,因為拒絕學(xué)習(xí)新知識。也許你學(xué)會簡單的算法。但是現(xiàn)在情況已經(jīng)改變了,要求實(shí)施更難的算法。如果表現(xiàn)出很高的偏見,則將繼續(xù)學(xué)習(xí)簡單的算法而不學(xué)習(xí)更難的算法的話,那么就會得到錯誤的答案。
這兩者都是問題,數(shù)據(jù)科學(xué)具有幫助緩解這些問題的機(jī)制。
機(jī)器學(xué)習(xí)模型示例
可以了解一下使用兩種算法的機(jī)器學(xué)習(xí)示例:急切算法和懶惰算法。
急切算法不使用顯式訓(xùn)練,而懶惰算法是顯式訓(xùn)練。由于急切算法未經(jīng)過明確訓(xùn)練,因此它們的訓(xùn)練階段很快(實(shí)際上不存在),但是其執(zhí)行(或推斷階段)比經(jīng)過訓(xùn)練的懶惰算法慢。急切算法也使用更多的內(nèi)存,因為需要存儲整個數(shù)據(jù)集,而一旦訓(xùn)練完成,用于訓(xùn)練懶惰算法的數(shù)據(jù)可以被丟棄,而占用的總內(nèi)存更少。
示例:使用TF-IDF進(jìn)行文檔搜索
在應(yīng)用于文本分析的急切算法的第一個示例中,使用的是稱為TF-IDF的算法。將在短期內(nèi)解釋TF和IDF的含義,但首先明確一下這個示例的目標(biāo)。有五個簡單的簡短文檔(文檔1至5)。這些文檔還有一個關(guān)鍵字詞典;該詞典用于關(guān)鍵字搜索。還有一個用戶查詢,目的是檢索最適合用戶查詢的文檔。在這個例子中,要按優(yōu)先級相關(guān)性順序返回五個文檔??。
首先解釋一下TF和IDF的縮寫。TF代表術(shù)語頻率或術(shù)語出現(xiàn)的頻率(即該術(shù)語在文檔中的密度)。人們關(guān)心的原因是,假設(shè)當(dāng)“重要”術(shù)語出現(xiàn)得更頻繁時,它所在的文檔更相關(guān);TF幫助將用戶查詢中的術(shù)語映射到最相關(guān)的文檔。
IDF代表反文檔頻率。這幾乎是相反的想法,在所有文檔中頻繁出現(xiàn)的術(shù)語的重要性較低,因此希望減少這些術(shù)語的重要性。顯而易見的詞是“a”、“an”和“the”,但對于特定的主題或領(lǐng)域,還有許多其他詞。可以把這些常見的術(shù)語看作是干擾搜索過程的噪音。
為文檔和查詢計算出TF和IDF值后,只需計算用戶查詢與每個文檔之間的相似度即可。相似性評分越高,文檔越相關(guān)。然后,按照相關(guān)性順序?qū)⑦@些文檔呈現(xiàn)給用戶。
現(xiàn)在已經(jīng)了解了如何完成操作,只需要進(jìn)行計算即可。
可以看看計算結(jié)果。將會看到幾個矩陣。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型使用矩陣數(shù)學(xué)進(jìn)行大量計算。與數(shù)據(jù)科學(xué)家合作時,需要意識到這一點(diǎn),需要幫助他們以對業(yè)務(wù)問題有意義的方式將數(shù)據(jù)轉(zhuǎn)換為這些類型的格式。這并不難,但這是數(shù)據(jù)科學(xué)預(yù)處理階段的一部分。
在第一個TF矩陣中,計算每個文檔的每個關(guān)鍵字(在字典中指定)的規(guī)范化(“相對”)頻率。分子表示該文檔中的單詞計數(shù)頻率,分母表示單詞在任何給定文檔中出現(xiàn)的最大次數(shù);換句話說,它是所有分子之間的最大值。
在第二個矩陣中,為字典中的每個術(shù)語在最后一行添加一個IDF向量。只需應(yīng)用已經(jīng)給出的方程:IDF(t)=log(N/N(t)),其中
•N =推薦文件數(shù)
•n(t)=出現(xiàn)關(guān)鍵字t的文檔數(shù)
下一步是通過將文檔的每一行乘以IDF的最后一行來為文檔創(chuàng)建TF-IDF矩陣。現(xiàn)在,已經(jīng)完成了文檔矩陣。重復(fù)相同的過程以創(chuàng)建用戶查詢矩陣。
最后,將兩個矩陣組合起來,并計算每個文檔和用戶查詢之間的相似度。在這種情況下,可以使用方程式來計算相似度,稱為余弦相似度(也可以使用其他相似度計算)。注意,用戶查詢和自身之間的相似度值是1,因為它應(yīng)該是1,因為它正在與自身進(jìn)行比較。
從這里,可以將相似度值(在矩陣的最后一列)從高到低排序,從而向用戶呈現(xiàn)從高到低的相關(guān)文檔。現(xiàn)在完成了。但要注意的是,該模型沒有“訓(xùn)練”,只應(yīng)用了一些方程式。
示例:使用基于內(nèi)容的協(xié)作方法推薦寵物
再了解一下推薦引擎中使用的急切機(jī)器學(xué)習(xí)算法的另一個例子,類似于人們在許多網(wǎng)站上看到的內(nèi)容。在這種情況下,假設(shè)你有四名寵物愛好者的數(shù)據(jù),并且可以了解他們喜歡的寵物的類型以及他們對特定寵物的喜歡程度。假設(shè)有第五個寵物愛好者(Amy),你對他的偏愛知之甚少。
你的目標(biāo)有兩個:預(yù)測Amy對特定寵物的評價,并預(yù)測Amy喜歡寵物的偏好。應(yīng)該看到,這與相似性問題非常相似,這是在你認(rèn)識的人與不太了解的的人之間使用屬性相似性來實(shí)現(xiàn)的。
有兩種方法可以確定推薦系統(tǒng)中的相似性:協(xié)作和基于內(nèi)容,協(xié)作可以進(jìn)一步定義為基于用戶或基于項目。
在協(xié)作方法中,需要對社區(qū)中的用戶進(jìn)行評級。通過基于用戶的方法來應(yīng)用此功能,可以根據(jù)社區(qū)中相似用戶的喜歡來預(yù)測用戶喜歡什么。相比之下,使用基于項目的方法,可以根據(jù)社區(qū)喜歡的項目之間的相似性來預(yù)測用戶喜歡什么。
基于內(nèi)容的方法不使用社區(qū)中用戶的評分。取而代之的是,它基于商品本身的特征,而分配給這些特征的值(或標(biāo)簽)則由領(lǐng)域?qū)<姨峁?/div>
每種方法都有其優(yōu)點(diǎn)和缺點(diǎn)。
考慮這個例子:在協(xié)作方法中,使用其他用戶的寵物等級來預(yù)測個人對寵物的未知等級。
首先,嘗試基于用戶的方法。因為正在比較可能因人為偏見而歪曲的總體個人評級(他們的基準(zhǔn)可能會有所不同),所以使用了一個稱為Pearson相似性的相似性函數(shù),該函數(shù)試圖通過規(guī)范化評分(即通過從每個用戶評分中減去評分的平均值)。在該示例中,就會發(fā)現(xiàn)Alice的評分與Bill的評分最為相似,因此可以假設(shè)Amy的缺失評分與Bill的評分相同。
現(xiàn)在嘗試基于項目的方法。通過這種方法,不必關(guān)注個人的評分,而是關(guān)注項目的評分。而且,由于項目的評分是由幾個人提供的評分的綜合,因此不必?fù)?dān)心偏差,因此可以使用余弦相似度函數(shù)。在這里,你會看到貓和刺猬最相似,因此可以推斷出Amy對貓的評分與她對刺猬的評分相同。
最后,嘗試基于內(nèi)容的方法。這種方法不需要對社區(qū)成員進(jìn)行評分。取而代之的是,專家標(biāo)記了數(shù)據(jù),在這種情況下,數(shù)據(jù)是每種寵物類型的屬性(可愛、整潔、忠誠)。如果知道某人對每種屬性的偏好,則可以使用余弦相似度函數(shù)來預(yù)測該人最可能喜歡的寵物。在此示例中,Amy最有可能按照偏好降序依次選擇刺猬、兔子、狗、豬、貓。
以下學(xué)習(xí)一些數(shù)學(xué)。舉例來說,要確定Amy對刺猬的評分,會發(fā)現(xiàn)刺猬的寵物屬性與Amy對寵物屬性的重要性等級之間存在相似之處:
•刺猬的向量是(4,3,1,1)
•Amy的向量是(3,3,2,1)
•需要找到這兩個向量之間的相似性
•余弦相似度= [4(3)+(3)(3)+(1)(2)+(1)(1)]/[SQRT(4^2 + 3^2 + 1^2 + 1^2)* SQRT(3^2 + 3^2 + 2^2 + 1^2] = 0.96
對于協(xié)作方法,可以使用Pearson方程,因為它可以標(biāo)準(zhǔn)化各個用戶的評分(他們的評分可能不一致)。如果具有客觀等級((比如不是基于不同等級的人的評分),可以使用余弦相似度。以下是方程式中的變量:
•u:用戶
•i:需要評級的項目
•N:#個最近的鄰居
•j:鄰居
•rj,I:j對i的評分
•rj bar:j的平均值
•ru bar:用戶評分的平均值
•alpha:等級的縮放比例; 1表示按原樣使用(沒有正確的alpha值;這是那些超參數(shù)之一),有經(jīng)驗的數(shù)據(jù)科學(xué)家可以根據(jù)問題的目標(biāo)和背景進(jìn)行調(diào)整,以得出更好的結(jié)果。
示例:使用支持向量機(jī)(SVM)的懶惰算法
最后,這里是一個稱為支持向量機(jī)(SVM)的懶惰機(jī)器學(xué)習(xí)算法的例子。在這種方法中,需要確定一個項目屬于哪個組,例如一個新客戶最終是一個利潤高還是低的客戶。要使用支持向量機(jī)完成此操作,需要計算兩個參數(shù):
•每個屬性的權(quán)重(重要性)(屬性的示例可能是客戶的收入、家庭成員的數(shù)量、職業(yè)和教育成就)
•支持向量,它是最接近將各組分開的曲線(稱為超平面)的數(shù)據(jù)集。
然后使用這兩個參數(shù)并將它們插入方程式。
計算這些參數(shù)的方法是使用可用的數(shù)據(jù)集,這就是所謂的訓(xùn)練數(shù)據(jù)。
在訓(xùn)練階段計算出的值是:
•用于最小化成本函數(shù)的權(quán)重(alpha和theta)。
•支持向量xi,它是訓(xùn)練數(shù)據(jù)的子集。
一旦模型得到訓(xùn)練,就可以插入x的新值(例如新客戶的屬性),然后預(yù)測x的這些新值所屬的類h(x)(例如它們是否預(yù)期是高利潤客戶)。
人工智能項目失敗的原因
人工智能項目在業(yè)務(wù)環(huán)境中失敗的常見方式很多。任何人工智能框架都應(yīng)解決這些問題。
失敗的第一個驅(qū)動因素或者是選擇了錯誤的用例,或者是在沒有足夠能力和基礎(chǔ)設(shè)施的情況下使用了太多的用例。可以使用前面描述的條件來確定更好地適合于人工智能解決方案的問題。此外,明智的做法是建立一系列用例,以使功能和知識以漸進(jìn)的方式構(gòu)建,并隨著技術(shù)的成熟程度的提高而提高。
選擇正確的用例最好與以下人員協(xié)作:
•企業(yè)員工,他們知道業(yè)務(wù)問題、環(huán)境和約束,以及他們想要測試的假設(shè)。
•分析師,他們可以提出問題以闡明業(yè)務(wù)意圖和要求,并且可以識別數(shù)據(jù)源和轉(zhuǎn)換。
•可以制定機(jī)器學(xué)習(xí)和深度學(xué)習(xí)問題的數(shù)據(jù)科學(xué)家,以便模型可以為企業(yè)的假設(shè)提供答案。
•可以提供對數(shù)據(jù)訪問權(quán)限的數(shù)據(jù)工程師和IT資源。
正確地預(yù)先組織和安排這些類型的活動需要經(jīng)驗豐富的跨職能領(lǐng)導(dǎo)者,他們需要了解并可以平衡業(yè)務(wù)影響,運(yùn)營驅(qū)動因素、工作流障礙和機(jī)遇、數(shù)據(jù)需求和約束以及技術(shù)支持因素。
失敗的第二個驅(qū)動程序錯誤地自己構(gòu)建了人工智能模型。這包括兩個元素:
•盡管數(shù)據(jù)科學(xué)和其他科學(xué)一樣,在本質(zhì)上是實(shí)驗性的(在使用數(shù)據(jù)之前,并不真正知道數(shù)據(jù)會告訴你什么),但數(shù)據(jù)科學(xué)的方法應(yīng)該定義明確,應(yīng)該具有紀(jì)律性,并且應(yīng)該加快價值時間。
•優(yōu)秀的數(shù)據(jù)科學(xué)家可以快速進(jìn)行實(shí)驗和迭代,從他們的實(shí)驗中學(xué)習(xí),區(qū)分有前途和無效的方法,并在必要時研究和調(diào)整前沿方法。優(yōu)秀的數(shù)據(jù)科學(xué)家以快速、并行的方式構(gòu)建最小可行產(chǎn)品(MVP)。
失敗的第三個驅(qū)動因素是缺乏同時快速構(gòu)建和改進(jìn)多個人工智能模型的規(guī)模。通常,這歸結(jié)于數(shù)據(jù)科學(xué)家能夠協(xié)同工作,重用數(shù)據(jù)管道、工作流和模型/算法,并重現(xiàn)模型結(jié)果。此外,他們還需要能夠捕獲并快速合并操作反饋(在測試、登臺或生產(chǎn)環(huán)境中),以進(jìn)一步構(gòu)建規(guī)模。實(shí)現(xiàn)這一點(diǎn)既需要正確的基礎(chǔ)設(shè)施環(huán)境,也需要正確的模型治理方法。
失敗的第四個驅(qū)動因素是無法實(shí)現(xiàn)人工智能模型的運(yùn)營和貨幣化。一般來說,開發(fā)人工智能模型是出于以下兩個目的之一:
•發(fā)現(xiàn)以前未經(jīng)確認(rèn)的見解
•自動化決策(以降低成本和提高效率/生產(chǎn)率)。
很明顯,從來沒有出過實(shí)驗室的模型不能完成這些任務(wù)。
此外,不僅需要部署模型(即使人們或系統(tǒng)可以訪問模型),而且還必須以在操作和異常中“使用”它們的方式將它們合并到工作流中。無法做出具有較高正確性概率的決策,必須進(jìn)行優(yōu)雅的管理(例如通過人工干預(yù)、模型重新訓(xùn)練和模型回滾)。人工智能的運(yùn)營和貨幣化需要逐步但完整的模型工作流集成,數(shù)據(jù)輸入和模型性能參數(shù)的監(jiān)視以及頻繁模型部署的管理。
如何使用人工智能?端到端的人工智能解決方案框架
最后,將所有這些與人工智能解決方案框架結(jié)合在一起。
有四個組成部分:
•數(shù)據(jù)管理。
•模型開發(fā)。
•模型操作。
•確保使用模型,影響業(yè)務(wù)并改善業(yè)務(wù)指標(biāo)。
第一個組件是數(shù)據(jù)管理,是當(dāng)前商業(yè)智能環(huán)境的常規(guī)組成部分。
第二部分是模型開發(fā),包括兩個廣泛的領(lǐng)域:
•定義適合機(jī)器學(xué)習(xí)模型的用例并確定其優(yōu)先級。
•大規(guī)模構(gòu)建機(jī)器學(xué)習(xí)模型。
第三個組成部分,模型操作化,不僅需要模型部署,還需要持續(xù)的再培訓(xùn)和重新部署過程,模型與操作工作流的集成,以及集成操作反饋以改進(jìn)模型。
所有這些目的是通過模型的功能獲利。
最后,組織和業(yè)務(wù)影響的第四部分很簡單(很明顯),但對組織的人工智能能力的未來成熟至關(guān)重要。這個組件的功能是確保人工智能模型被業(yè)務(wù)線實(shí)際使用(也就是說,他們信任人工智能模型并從中獲取價值),并且它們正在影響業(yè)務(wù)結(jié)果。如果沒有業(yè)務(wù)的支持,人工智能將不會迅速發(fā)展。
這四個組件之上是協(xié)作組:IT、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、業(yè)務(wù)部門。人工智能是一項團(tuán)隊工作。
可以采用這些組件并在其周圍放置參考體系結(jié)構(gòu),添加一個稱為模型治理的組件,以確保實(shí)現(xiàn)模型的可再現(xiàn)性,數(shù)據(jù)科學(xué)的可重用性以及數(shù)據(jù)科學(xué)家的協(xié)作,并確保對模型進(jìn)行重新訓(xùn)練/回滾需要時可能。
設(shè)計和實(shí)施類似這個參考體系結(jié)構(gòu)的解決方案將以健壯性、上市速度和業(yè)務(wù)成果來支持人工智能解決方案框架。
本文作者Jerry Hartanto是Trace3公司人工智能和自助服務(wù)商業(yè)智能業(yè)務(wù)的領(lǐng)導(dǎo)者,Trace3公司是一家技術(shù)解決方案提供商,該公司咨詢業(yè)務(wù)不斷增長,其中包括數(shù)據(jù)智能、云計算解決方案、網(wǎng)絡(luò)分析、Devops和數(shù)據(jù)中心解決方案。Hartanto擁有管理咨詢、公司/商業(yè)戰(zhàn)略、營銷和銷售、運(yùn)營和流程改進(jìn)、產(chǎn)品開發(fā)和工程的背景。他擁有麥吉爾大學(xué)電氣工程學(xué)士學(xué)位、約翰霍普金斯大學(xué)電氣工程碩士學(xué)位和密歇根大學(xué)工商管理碩士學(xué)位。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。