精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:CIO技術(shù)探討 → 正文

十個表明你已AI就緒的跡象——但可能不會成功

責(zé)任編輯:cres 作者:Martin Heller |來源:企業(yè)網(wǎng)D1Net  2017-09-06 10:01:56 原創(chuàng)文章 企業(yè)網(wǎng)D1Net

并不是每個問題都可以通過機器學(xué)習(xí)來解決,并不是每個公司都準(zhǔn)備應(yīng)用人工智能。以下是如何知道你的IT組織是否準(zhǔn)備好獲得人工智能的好處。
 
由于機器學(xué)習(xí)是靈丹妙藥,你的公司應(yīng)該能夠有利地使用它,對嗎?也許是;也許不是。好吧,我只是拿靈丹妙藥開玩笑,這只是營銷炒作。我們來討論一下你是否擁有利用人工智能所需要的東西——如果你還沒有達到這個地步你該如何達到。
 
首先,你知道你想預(yù)測或發(fā)現(xiàn)的是什么嗎?你有足夠的數(shù)據(jù)來分析以建立預(yù)測模型嗎?你有需要定義和訓(xùn)練模型的人和工具嗎?你是否已經(jīng)有統(tǒng)計模型或物理模型為你提供預(yù)測的基準(zhǔn)?
 
在此,我們將分解你讓你的人工智能(AI)和機器學(xué)習(xí)(ML)項目成功所需要的東西,討論其衍生后果,以幫助你確定貴組織是否真正準(zhǔn)備好利用機器學(xué)習(xí)、深度學(xué)習(xí)和人工智能。
 
你有很多數(shù)據(jù)
 
充分的相關(guān)數(shù)據(jù)是預(yù)測和特征識別的必要條件。有了它,你可能會成功;沒有它,你不能成功。你需要多少數(shù)據(jù)?你考慮的因素越多,你需要的數(shù)據(jù)就越多,無論你進行普通的統(tǒng)計預(yù)測、機器學(xué)習(xí)或深度學(xué)習(xí)。
 
以預(yù)測銷售的常見問題為例,比如你下個月將在邁阿密銷售多少件海軍藍短袖上衣,以及在不擱死太多錢和倉儲空間的情況下,你在邁阿密商店和亞特蘭大倉庫需要多少庫存以避免欠交訂單。零售銷售季節(jié)性很強,因此你需要多年來積累的具有重要統(tǒng)計意義的月度數(shù)據(jù),以便能夠糾正月度變化并建立年度趨勢——這只是針對標(biāo)準(zhǔn)時間序列分析。機器學(xué)習(xí)需要的數(shù)據(jù)比統(tǒng)計模型要多很多,而深度學(xué)習(xí)模型需要的數(shù)據(jù)量更是多得翻幾翻。
 
你可能構(gòu)建的一個統(tǒng)計模型將分析你的連鎖店在全國超過五年的每月上衣銷售情況,并使用該匯總來預(yù)測下個月的總上衣銷售情況。這個數(shù)字可能在幾十萬(假設(shè)它是30萬)。那么你可以預(yù)測邁阿密的女襯衫銷售額占全國銷售額的百分比(假設(shè)為3%),并獨立預(yù)測藍色短袖上衣的銷售額占總襯衫銷售額的百分比(比如說是1%)。該模型指出下個月在邁阿密約售出90件藍色短袖襯衫。你可以通過查看各種產(chǎn)品的同店銷售情況,對該預(yù)測進行合理性檢查,特別要注意與模型的預(yù)測有多大的差異。
 
現(xiàn)在,假設(shè)你想把天氣和時尚趨勢這樣的外部因素考慮進去。短袖襯衫在炎熱或暖和的日子是不是比涼爽和多雨的日子賣得更好?可能吧。你可以通過在模型中包含歷史天氣數(shù)據(jù)來測試,盡管使用時間序列統(tǒng)計模型可能有點笨拙,因此你可以嘗試使用決策森林回歸(decision forest regression),當(dāng)你嘗試使用其它7 種用于回歸的機器學(xué)習(xí)模型(見上面的截圖),然后比較每個模型的“成本”(歸一化誤差函數(shù)),與去年的實際結(jié)果進行比較,以找到最佳模型。
 
海軍藍軍下個月的銷量會好于去年同期嗎?你可以查看海軍藍色服裝的每月銷售量,并預(yù)測年度時尚趨勢,也許可以將其納入到你的機器學(xué)習(xí)模型中。或者你可能需要根據(jù)你從時尚媒體所聽到的內(nèi)容,將手動更正(亦稱“瞎猜”)應(yīng)用到你的模型。(“以防萬一,讓我們將預(yù)測提高20%,”)
 
也許你想通過為這個預(yù)測創(chuàng)建一個深度神經(jīng)網(wǎng)絡(luò)來做更好的事情。你可能會發(fā)現(xiàn)你添加的每一個隱藏層的都能將回歸誤差提高幾個百分點,直到無助于提高的程度。報酬遞減的原因可能是因為在模型中沒有更多的特征可以識別,或者更有可能是因為沒有足夠的數(shù)據(jù)來支持更多的細(xì)化。
 
你有足夠的數(shù)據(jù)科學(xué)家
 
你可能已經(jīng)注意到,一個人必須構(gòu)建上面討論的所有模型。不,這不是將數(shù)據(jù)傾倒到料斗中并按下按鈕的問題。不管你使用什么工具,這需要經(jīng)驗、直覺、編程的能力以及玩轉(zhuǎn)機器學(xué)習(xí)的過硬的統(tǒng)計學(xué)背景——盡管供應(yīng)商可能會這樣宣稱。
 
某些供應(yīng)商特別傾向于聲稱“任何人”或“任何企業(yè)角色”都可以使用其預(yù)先訓(xùn)練的應(yīng)用機器學(xué)習(xí)模型。如果模型完全適于手頭的問題,例如將正式的書面的魁北克法文翻譯成英文,這可能是真的,但是更常見的情況是,你的數(shù)據(jù)不適合現(xiàn)有的訓(xùn)練有素的機器學(xué)習(xí)(ML)模型。由于你必須訓(xùn)練該模型,你將需要數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家來指導(dǎo)培訓(xùn),而這種培訓(xùn)比工程或科學(xué)更像是一門藝術(shù)。
 
關(guān)于招聘數(shù)據(jù)科學(xué)家的最奇怪的事情之一就是公布的要求,特別是與受聘者的實際技能相比。廣告經(jīng)常這么寫道“招聘:數(shù)據(jù)科學(xué)家??萍脊?shù)類博士(STEM Ph.D.),加上20年的經(jīng)驗。”第一個奇怪的地方是,該領(lǐng)域還沒有真正存在超過20年。第二個奇怪的地方是,公司要雇用26歲的畢業(yè)生——也就是說,沒有任何在學(xué)術(shù)界以外的工作經(jīng)驗,更不用說20年了——而他們優(yōu)先于已經(jīng)知道如何做這些事情的人,因為他們害怕資深人士太貴了,盡管他們要求20年的經(jīng)驗。是的,這是虛偽的,很可能是非法的年齡歧視,但這就是一直發(fā)生的事情。
 
你追蹤或獲取重要的因素
 
即使你有大量的數(shù)據(jù)和很多數(shù)據(jù)科學(xué)家,你可能沒有所有相關(guān)變量的數(shù)據(jù)。用數(shù)據(jù)庫的話來說就是,你可能有很多行,但缺少幾列。統(tǒng)計上你可能有不明原因的方差。
 
諸如天氣觀測的一些自變量的測量很容易獲得并合并到數(shù)據(jù)集中,甚至在事后也行。其它因素可能在測量或獲取上很困難、不切實際或昂貴,即使你知道它們是什么。
 
我們用一個化學(xué)的例子來說明。當(dāng)你將鉛電鍍到銅上時,你可以測量氟硼酸電鍍槽的溫度和濃度,并記錄陽極上的電壓,但是除非槽中含有足夠的肽(但不能太多),否則不能獲得良好的附著力。如果你沒有對放入槽中的肽進行稱重,你就不知道這個關(guān)鍵催化劑的劑量,你就無法用其它變量來解釋電渡質(zhì)量的變化。
 
你有清理和變換數(shù)據(jù)的辦法
 
數(shù)據(jù)幾乎總是很嘈雜的。測量可能缺少一個或多個值,單個值本身可能超出范圍或與同一測量中的其它值不一致,電子測量可能由于電氣噪聲而不準(zhǔn)確,回答問題的人可能無法理解或編造答案等等。
 
任何分析過程中的數(shù)據(jù)過濾步驟通常需要盡最大的努力來設(shè)置——在我的經(jīng)驗中,占總分析時間的80%到90%。一些工場在其ETL(extract, transform, and load;提取,轉(zhuǎn)換和加載)過程中清理數(shù)據(jù),以便分析人員永遠不會看到錯誤的數(shù)據(jù)點,但是其它工場用ELT流程數(shù)保留了據(jù)倉庫或數(shù)據(jù)湖中的所有數(shù)據(jù)(最后的轉(zhuǎn)換步驟)。這意味著,即使是明顯的臟數(shù)據(jù)也被保存了,所依據(jù)的理論是過濾器和變換隨時間的推移需要被細(xì)化了。
 
即使精確的過濾數(shù)據(jù)也可能需要進一步轉(zhuǎn)換才能很好地分析。像統(tǒng)計學(xué)方法一樣,當(dāng)每個可能的狀態(tài)有相似行數(shù)時,機器學(xué)習(xí)模型最有效,這可能意味著通過隨機抽樣來減少最流行狀態(tài)的數(shù)量。與統(tǒng)計學(xué)方法一樣,當(dāng)所有變量的范圍已經(jīng)被歸一化時,機器學(xué)習(xí)模型最有效。
 
例如,由小娜機器學(xué)習(xí)(Cortana ML)完成的特朗普和克林頓競選獻金的分析顯示如何通過創(chuàng)建標(biāo)簽、處理數(shù)據(jù)、設(shè)計附加功能和清理數(shù)據(jù)來準(zhǔn)備機器學(xué)習(xí)數(shù)據(jù)集;該分析在微軟的博文中有討論。該分析在SQL和R中進行了幾次變換,以發(fā)現(xiàn)與克林頓或特朗普相關(guān)聯(lián)的各種委員會和活動資金、根據(jù)姓名識別捐助者的身份可能是男性或女性、糾正拼寫錯誤、并修正類偏斜(數(shù)據(jù)集中有94%是克林頓事務(wù),主要是小額捐款)。我在Azure ML Studio的“入門”教程中展示了如何獲取此樣本的輸出并將其提供給兩類邏輯回歸模型。
 
你已經(jīng)對數(shù)據(jù)進行了統(tǒng)計分析
 
數(shù)據(jù)分析和問題解決的一大罪惡之一就是引起爭議。在你可以弄清楚發(fā)生了什么和為什么之前,你需要退后一步去看看所有變量及其相關(guān)性。
 
探索性數(shù)據(jù)分析可以快速顯示所有變量的范圍和分布,無論變量對是否應(yīng)變或自變,集群所在的位置以及可能存在異常值的地方。當(dāng)你具有高度相關(guān)的變量時,從分析中丟棄一個或另一個變量往往是有用的,或者執(zhí)行類似于逐步多重線性回歸(stepwise multiple linear regression)的某些特征來確定變量的最佳選擇。我的意思并不是說最終的模型是線性的,但在引入復(fù)雜性之前,嘗試簡單的線性模型總是有用的;如果你的模型中有太多的項,那么你最終可能會得到一個超定系統(tǒng)。
 
你測試了很多方法來找到最佳模型
 
只有一種方法可以找到給定數(shù)據(jù)集的最佳模型:試遍它們。如果你的目標(biāo)是一個經(jīng)過深思熟慮但具有挑戰(zhàn)性的領(lǐng)域,例如感光特征識別和語言識別,你可能會試圖從比賽中嘗試“最佳”模型,但不幸的是,這些模型通常是計算密集型的深度學(xué)習(xí)模型,這些模型在圖像識別和用于語音識別的長短期記憶(long short-term memory,LSTM)層的情況下具有卷積層。如果你需要訓(xùn)練這些深層神經(jīng)網(wǎng)絡(luò),那么你可需要的計算能力遠超你現(xiàn)在所具備的。
 
你有訓(xùn)練深度學(xué)習(xí)模式的計算能力
 
你的數(shù)據(jù)集越大,你的深度學(xué)習(xí)模型中的層就越多,訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的時間就越多。擁有大量數(shù)據(jù)可幫你訓(xùn)練更好的模型,但也會因為訓(xùn)練時間的增加而傷害你。擁有大量層可幫助你識別更多功能,同時也會因為訓(xùn)練時間的增加而傷害你。你可能不能等待一年來訓(xùn)練每個模型;一周更合理,特別是因為你很可能需要調(diào)整你的機型數(shù)十次。
 
避免訓(xùn)練時間問題方法之一是使用通用圖形處理單元(general purpose graphics processing unit,GPGPU),如英偉達(Nvidia)出品的那些,用它們來執(zhí)行神經(jīng)網(wǎng)絡(luò)層下面的向量和矩陣計算(也稱為線性代數(shù))。一個K80 GPU和一個CPU一起通常比只用CPU在訓(xùn)練速度上要快5到10倍的,如果你可以將網(wǎng)絡(luò)的整個“內(nèi)核”置入GPU的本地內(nèi)存,并且使用一個P100 GPU,你可以得到比只用CPU快100倍的訓(xùn)練速度。
 
除了單GPU,你可以設(shè)置CPU和GPU的協(xié)作網(wǎng)絡(luò),用更少的時間解決更大的問題。除非你全年訓(xùn)練深度學(xué)習(xí)模型,并且擁有巨大的資本預(yù)算,否則你可能會發(fā)現(xiàn)在具有GPU的云端租用時間是你最具成本效益的選擇,包括CNTK、MXNet和TensorFlow在內(nèi)的幾個深度學(xué)習(xí)框架支持與CPU和GPU進行并行計算,并且對于具有強大GPU的非常大型的虛擬機(VM)實例的網(wǎng)絡(luò),已經(jīng)展示了合理的縮放系數(shù)(一次測試結(jié)果約為85%)。你可以在主要云提供商中發(fā)現(xiàn)這些框架已經(jīng)被安裝到具有GPU支持的VM實例中。
 
你的機器學(xué)習(xí)模型優(yōu)于統(tǒng)計模型
 
你的簡單統(tǒng)計模型為你的工作設(shè)置了機器學(xué)習(xí)和深度學(xué)習(xí)的門檻。如果你不能用給定的模型提高門檻,那么你應(yīng)該調(diào)整它或嘗試不同的方法。一旦你知道自己在做什么,你可以在超參數(shù)調(diào)整算法(hyperparameter tuning algorithm)的控制下并行設(shè)置多個模型的訓(xùn)練,并使用最好的結(jié)果來指導(dǎo)你的進程的下一個階段。
 
你可以部署預(yù)測模型
 
最終,你想要實時地應(yīng)用經(jīng)過培訓(xùn)的模型。根據(jù)應(yīng)用的不同,預(yù)測可以在服務(wù)器、云、個人電腦或電話上運行。深度學(xué)習(xí)框架提供了將模型嵌入網(wǎng)絡(luò)和移動應(yīng)用程序的各種選項。亞馬遜、谷歌和微軟已經(jīng)通過制作理解語音的消費設(shè)備和智能手機應(yīng)用程序來展示其實用性。
 
你可以定期更新模型
 
如果你已經(jīng)在自己的數(shù)據(jù)上訓(xùn)練了自己的模型,你可能會發(fā)現(xiàn)模型的錯誤率(誤報和漏報)隨時間的推移而增加。這主要是因為數(shù)據(jù)隨著時間的推移而偏移:你的銷售模式發(fā)生了變化,競爭對手在變化,風(fēng)格在變化和經(jīng)濟在變化。為了適應(yīng)這種效應(yīng),大多數(shù)深入學(xué)習(xí)框架都有重新訓(xùn)練新數(shù)據(jù)中的舊模型并用新模型替代預(yù)測服務(wù)的選擇。如果你每個月都這樣做,你應(yīng)該能夠控制偏差。如果你不能,你的模型最終將變得過時而不可靠。
 
回到我們的開始的問題,你知道你想預(yù)測或檢測的是什么嗎?你有足夠的數(shù)據(jù)來分析以建立預(yù)測模型嗎?你有需要定義和訓(xùn)練模型的人和工具嗎?你是否已經(jīng)有統(tǒng)計模型或物理模型為你提供預(yù)測的基準(zhǔn)?
 
如果是這樣的話,你還在等什么?

關(guān)鍵字:人工智能

原創(chuàng)文章 企業(yè)網(wǎng)D1Net

x 十個表明你已AI就緒的跡象——但可能不會成功 掃一掃
分享本文到朋友圈
當(dāng)前位置:CIO技術(shù)探討 → 正文

十個表明你已AI就緒的跡象——但可能不會成功

責(zé)任編輯:cres 作者:Martin Heller |來源:企業(yè)網(wǎng)D1Net  2017-09-06 10:01:56 原創(chuàng)文章 企業(yè)網(wǎng)D1Net

并不是每個問題都可以通過機器學(xué)習(xí)來解決,并不是每個公司都準(zhǔn)備應(yīng)用人工智能。以下是如何知道你的IT組織是否準(zhǔn)備好獲得人工智能的好處。
 
由于機器學(xué)習(xí)是靈丹妙藥,你的公司應(yīng)該能夠有利地使用它,對嗎?也許是;也許不是。好吧,我只是拿靈丹妙藥開玩笑,這只是營銷炒作。我們來討論一下你是否擁有利用人工智能所需要的東西——如果你還沒有達到這個地步你該如何達到。
 
首先,你知道你想預(yù)測或發(fā)現(xiàn)的是什么嗎?你有足夠的數(shù)據(jù)來分析以建立預(yù)測模型嗎?你有需要定義和訓(xùn)練模型的人和工具嗎?你是否已經(jīng)有統(tǒng)計模型或物理模型為你提供預(yù)測的基準(zhǔn)?
 
在此,我們將分解你讓你的人工智能(AI)和機器學(xué)習(xí)(ML)項目成功所需要的東西,討論其衍生后果,以幫助你確定貴組織是否真正準(zhǔn)備好利用機器學(xué)習(xí)、深度學(xué)習(xí)和人工智能。
 
你有很多數(shù)據(jù)
 
充分的相關(guān)數(shù)據(jù)是預(yù)測和特征識別的必要條件。有了它,你可能會成功;沒有它,你不能成功。你需要多少數(shù)據(jù)?你考慮的因素越多,你需要的數(shù)據(jù)就越多,無論你進行普通的統(tǒng)計預(yù)測、機器學(xué)習(xí)或深度學(xué)習(xí)。
 
以預(yù)測銷售的常見問題為例,比如你下個月將在邁阿密銷售多少件海軍藍短袖上衣,以及在不擱死太多錢和倉儲空間的情況下,你在邁阿密商店和亞特蘭大倉庫需要多少庫存以避免欠交訂單。零售銷售季節(jié)性很強,因此你需要多年來積累的具有重要統(tǒng)計意義的月度數(shù)據(jù),以便能夠糾正月度變化并建立年度趨勢——這只是針對標(biāo)準(zhǔn)時間序列分析。機器學(xué)習(xí)需要的數(shù)據(jù)比統(tǒng)計模型要多很多,而深度學(xué)習(xí)模型需要的數(shù)據(jù)量更是多得翻幾翻。
 
你可能構(gòu)建的一個統(tǒng)計模型將分析你的連鎖店在全國超過五年的每月上衣銷售情況,并使用該匯總來預(yù)測下個月的總上衣銷售情況。這個數(shù)字可能在幾十萬(假設(shè)它是30萬)。那么你可以預(yù)測邁阿密的女襯衫銷售額占全國銷售額的百分比(假設(shè)為3%),并獨立預(yù)測藍色短袖上衣的銷售額占總襯衫銷售額的百分比(比如說是1%)。該模型指出下個月在邁阿密約售出90件藍色短袖襯衫。你可以通過查看各種產(chǎn)品的同店銷售情況,對該預(yù)測進行合理性檢查,特別要注意與模型的預(yù)測有多大的差異。
 
現(xiàn)在,假設(shè)你想把天氣和時尚趨勢這樣的外部因素考慮進去。短袖襯衫在炎熱或暖和的日子是不是比涼爽和多雨的日子賣得更好?可能吧。你可以通過在模型中包含歷史天氣數(shù)據(jù)來測試,盡管使用時間序列統(tǒng)計模型可能有點笨拙,因此你可以嘗試使用決策森林回歸(decision forest regression),當(dāng)你嘗試使用其它7 種用于回歸的機器學(xué)習(xí)模型(見上面的截圖),然后比較每個模型的“成本”(歸一化誤差函數(shù)),與去年的實際結(jié)果進行比較,以找到最佳模型。
 
海軍藍軍下個月的銷量會好于去年同期嗎?你可以查看海軍藍色服裝的每月銷售量,并預(yù)測年度時尚趨勢,也許可以將其納入到你的機器學(xué)習(xí)模型中。或者你可能需要根據(jù)你從時尚媒體所聽到的內(nèi)容,將手動更正(亦稱“瞎猜”)應(yīng)用到你的模型。(“以防萬一,讓我們將預(yù)測提高20%,”)
 
也許你想通過為這個預(yù)測創(chuàng)建一個深度神經(jīng)網(wǎng)絡(luò)來做更好的事情。你可能會發(fā)現(xiàn)你添加的每一個隱藏層的都能將回歸誤差提高幾個百分點,直到無助于提高的程度。報酬遞減的原因可能是因為在模型中沒有更多的特征可以識別,或者更有可能是因為沒有足夠的數(shù)據(jù)來支持更多的細(xì)化。
 
你有足夠的數(shù)據(jù)科學(xué)家
 
你可能已經(jīng)注意到,一個人必須構(gòu)建上面討論的所有模型。不,這不是將數(shù)據(jù)傾倒到料斗中并按下按鈕的問題。不管你使用什么工具,這需要經(jīng)驗、直覺、編程的能力以及玩轉(zhuǎn)機器學(xué)習(xí)的過硬的統(tǒng)計學(xué)背景——盡管供應(yīng)商可能會這樣宣稱。
 
某些供應(yīng)商特別傾向于聲稱“任何人”或“任何企業(yè)角色”都可以使用其預(yù)先訓(xùn)練的應(yīng)用機器學(xué)習(xí)模型。如果模型完全適于手頭的問題,例如將正式的書面的魁北克法文翻譯成英文,這可能是真的,但是更常見的情況是,你的數(shù)據(jù)不適合現(xiàn)有的訓(xùn)練有素的機器學(xué)習(xí)(ML)模型。由于你必須訓(xùn)練該模型,你將需要數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家來指導(dǎo)培訓(xùn),而這種培訓(xùn)比工程或科學(xué)更像是一門藝術(shù)。
 
關(guān)于招聘數(shù)據(jù)科學(xué)家的最奇怪的事情之一就是公布的要求,特別是與受聘者的實際技能相比。廣告經(jīng)常這么寫道“招聘:數(shù)據(jù)科學(xué)家??萍脊?shù)類博士(STEM Ph.D.),加上20年的經(jīng)驗。”第一個奇怪的地方是,該領(lǐng)域還沒有真正存在超過20年。第二個奇怪的地方是,公司要雇用26歲的畢業(yè)生——也就是說,沒有任何在學(xué)術(shù)界以外的工作經(jīng)驗,更不用說20年了——而他們優(yōu)先于已經(jīng)知道如何做這些事情的人,因為他們害怕資深人士太貴了,盡管他們要求20年的經(jīng)驗。是的,這是虛偽的,很可能是非法的年齡歧視,但這就是一直發(fā)生的事情。
 
你追蹤或獲取重要的因素
 
即使你有大量的數(shù)據(jù)和很多數(shù)據(jù)科學(xué)家,你可能沒有所有相關(guān)變量的數(shù)據(jù)。用數(shù)據(jù)庫的話來說就是,你可能有很多行,但缺少幾列。統(tǒng)計上你可能有不明原因的方差。
 
諸如天氣觀測的一些自變量的測量很容易獲得并合并到數(shù)據(jù)集中,甚至在事后也行。其它因素可能在測量或獲取上很困難、不切實際或昂貴,即使你知道它們是什么。
 
我們用一個化學(xué)的例子來說明。當(dāng)你將鉛電鍍到銅上時,你可以測量氟硼酸電鍍槽的溫度和濃度,并記錄陽極上的電壓,但是除非槽中含有足夠的肽(但不能太多),否則不能獲得良好的附著力。如果你沒有對放入槽中的肽進行稱重,你就不知道這個關(guān)鍵催化劑的劑量,你就無法用其它變量來解釋電渡質(zhì)量的變化。
 
你有清理和變換數(shù)據(jù)的辦法
 
數(shù)據(jù)幾乎總是很嘈雜的。測量可能缺少一個或多個值,單個值本身可能超出范圍或與同一測量中的其它值不一致,電子測量可能由于電氣噪聲而不準(zhǔn)確,回答問題的人可能無法理解或編造答案等等。
 
任何分析過程中的數(shù)據(jù)過濾步驟通常需要盡最大的努力來設(shè)置——在我的經(jīng)驗中,占總分析時間的80%到90%。一些工場在其ETL(extract, transform, and load;提取,轉(zhuǎn)換和加載)過程中清理數(shù)據(jù),以便分析人員永遠不會看到錯誤的數(shù)據(jù)點,但是其它工場用ELT流程數(shù)保留了據(jù)倉庫或數(shù)據(jù)湖中的所有數(shù)據(jù)(最后的轉(zhuǎn)換步驟)。這意味著,即使是明顯的臟數(shù)據(jù)也被保存了,所依據(jù)的理論是過濾器和變換隨時間的推移需要被細(xì)化了。
 
即使精確的過濾數(shù)據(jù)也可能需要進一步轉(zhuǎn)換才能很好地分析。像統(tǒng)計學(xué)方法一樣,當(dāng)每個可能的狀態(tài)有相似行數(shù)時,機器學(xué)習(xí)模型最有效,這可能意味著通過隨機抽樣來減少最流行狀態(tài)的數(shù)量。與統(tǒng)計學(xué)方法一樣,當(dāng)所有變量的范圍已經(jīng)被歸一化時,機器學(xué)習(xí)模型最有效。
 
例如,由小娜機器學(xué)習(xí)(Cortana ML)完成的特朗普和克林頓競選獻金的分析顯示如何通過創(chuàng)建標(biāo)簽、處理數(shù)據(jù)、設(shè)計附加功能和清理數(shù)據(jù)來準(zhǔn)備機器學(xué)習(xí)數(shù)據(jù)集;該分析在微軟的博文中有討論。該分析在SQL和R中進行了幾次變換,以發(fā)現(xiàn)與克林頓或特朗普相關(guān)聯(lián)的各種委員會和活動資金、根據(jù)姓名識別捐助者的身份可能是男性或女性、糾正拼寫錯誤、并修正類偏斜(數(shù)據(jù)集中有94%是克林頓事務(wù),主要是小額捐款)。我在Azure ML Studio的“入門”教程中展示了如何獲取此樣本的輸出并將其提供給兩類邏輯回歸模型。
 
你已經(jīng)對數(shù)據(jù)進行了統(tǒng)計分析
 
數(shù)據(jù)分析和問題解決的一大罪惡之一就是引起爭議。在你可以弄清楚發(fā)生了什么和為什么之前,你需要退后一步去看看所有變量及其相關(guān)性。
 
探索性數(shù)據(jù)分析可以快速顯示所有變量的范圍和分布,無論變量對是否應(yīng)變或自變,集群所在的位置以及可能存在異常值的地方。當(dāng)你具有高度相關(guān)的變量時,從分析中丟棄一個或另一個變量往往是有用的,或者執(zhí)行類似于逐步多重線性回歸(stepwise multiple linear regression)的某些特征來確定變量的最佳選擇。我的意思并不是說最終的模型是線性的,但在引入復(fù)雜性之前,嘗試簡單的線性模型總是有用的;如果你的模型中有太多的項,那么你最終可能會得到一個超定系統(tǒng)。
 
你測試了很多方法來找到最佳模型
 
只有一種方法可以找到給定數(shù)據(jù)集的最佳模型:試遍它們。如果你的目標(biāo)是一個經(jīng)過深思熟慮但具有挑戰(zhàn)性的領(lǐng)域,例如感光特征識別和語言識別,你可能會試圖從比賽中嘗試“最佳”模型,但不幸的是,這些模型通常是計算密集型的深度學(xué)習(xí)模型,這些模型在圖像識別和用于語音識別的長短期記憶(long short-term memory,LSTM)層的情況下具有卷積層。如果你需要訓(xùn)練這些深層神經(jīng)網(wǎng)絡(luò),那么你可需要的計算能力遠超你現(xiàn)在所具備的。
 
你有訓(xùn)練深度學(xué)習(xí)模式的計算能力
 
你的數(shù)據(jù)集越大,你的深度學(xué)習(xí)模型中的層就越多,訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的時間就越多。擁有大量數(shù)據(jù)可幫你訓(xùn)練更好的模型,但也會因為訓(xùn)練時間的增加而傷害你。擁有大量層可幫助你識別更多功能,同時也會因為訓(xùn)練時間的增加而傷害你。你可能不能等待一年來訓(xùn)練每個模型;一周更合理,特別是因為你很可能需要調(diào)整你的機型數(shù)十次。
 
避免訓(xùn)練時間問題方法之一是使用通用圖形處理單元(general purpose graphics processing unit,GPGPU),如英偉達(Nvidia)出品的那些,用它們來執(zhí)行神經(jīng)網(wǎng)絡(luò)層下面的向量和矩陣計算(也稱為線性代數(shù))。一個K80 GPU和一個CPU一起通常比只用CPU在訓(xùn)練速度上要快5到10倍的,如果你可以將網(wǎng)絡(luò)的整個“內(nèi)核”置入GPU的本地內(nèi)存,并且使用一個P100 GPU,你可以得到比只用CPU快100倍的訓(xùn)練速度。
 
除了單GPU,你可以設(shè)置CPU和GPU的協(xié)作網(wǎng)絡(luò),用更少的時間解決更大的問題。除非你全年訓(xùn)練深度學(xué)習(xí)模型,并且擁有巨大的資本預(yù)算,否則你可能會發(fā)現(xiàn)在具有GPU的云端租用時間是你最具成本效益的選擇,包括CNTK、MXNet和TensorFlow在內(nèi)的幾個深度學(xué)習(xí)框架支持與CPU和GPU進行并行計算,并且對于具有強大GPU的非常大型的虛擬機(VM)實例的網(wǎng)絡(luò),已經(jīng)展示了合理的縮放系數(shù)(一次測試結(jié)果約為85%)。你可以在主要云提供商中發(fā)現(xiàn)這些框架已經(jīng)被安裝到具有GPU支持的VM實例中。
 
你的機器學(xué)習(xí)模型優(yōu)于統(tǒng)計模型
 
你的簡單統(tǒng)計模型為你的工作設(shè)置了機器學(xué)習(xí)和深度學(xué)習(xí)的門檻。如果你不能用給定的模型提高門檻,那么你應(yīng)該調(diào)整它或嘗試不同的方法。一旦你知道自己在做什么,你可以在超參數(shù)調(diào)整算法(hyperparameter tuning algorithm)的控制下并行設(shè)置多個模型的訓(xùn)練,并使用最好的結(jié)果來指導(dǎo)你的進程的下一個階段。
 
你可以部署預(yù)測模型
 
最終,你想要實時地應(yīng)用經(jīng)過培訓(xùn)的模型。根據(jù)應(yīng)用的不同,預(yù)測可以在服務(wù)器、云、個人電腦或電話上運行。深度學(xué)習(xí)框架提供了將模型嵌入網(wǎng)絡(luò)和移動應(yīng)用程序的各種選項。亞馬遜、谷歌和微軟已經(jīng)通過制作理解語音的消費設(shè)備和智能手機應(yīng)用程序來展示其實用性。
 
你可以定期更新模型
 
如果你已經(jīng)在自己的數(shù)據(jù)上訓(xùn)練了自己的模型,你可能會發(fā)現(xiàn)模型的錯誤率(誤報和漏報)隨時間的推移而增加。這主要是因為數(shù)據(jù)隨著時間的推移而偏移:你的銷售模式發(fā)生了變化,競爭對手在變化,風(fēng)格在變化和經(jīng)濟在變化。為了適應(yīng)這種效應(yīng),大多數(shù)深入學(xué)習(xí)框架都有重新訓(xùn)練新數(shù)據(jù)中的舊模型并用新模型替代預(yù)測服務(wù)的選擇。如果你每個月都這樣做,你應(yīng)該能夠控制偏差。如果你不能,你的模型最終將變得過時而不可靠。
 
回到我們的開始的問題,你知道你想預(yù)測或檢測的是什么嗎?你有足夠的數(shù)據(jù)來分析以建立預(yù)測模型嗎?你有需要定義和訓(xùn)練模型的人和工具嗎?你是否已經(jīng)有統(tǒng)計模型或物理模型為你提供預(yù)測的基準(zhǔn)?
 
如果是這樣的話,你還在等什么?

關(guān)鍵字:人工智能

原創(chuàng)文章 企業(yè)網(wǎng)D1Net

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 遂溪县| 微博| 文成县| 乌什县| 宣威市| 汕头市| 绵阳市| 凌云县| 虞城县| 石城县| 静安区| 尚志市| 灵丘县| 天峻县| 乐山市| 樟树市| 福海县| 晋城| 漠河县| 通山县| 阳江市| 江华| 朝阳县| 惠安县| 黄骅市| 海宁市| 宁国市| 黄冈市| 中方县| 台东市| 昌宁县| 革吉县| 邵东县| 夹江县| 咸阳市| 海伦市| 西平县| 中宁县| 静海县| 临清市| 德格县|