事實(shí)證明,物聯(lián)網(wǎng)數(shù)據(jù)令數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師和企業(yè)領(lǐng)導(dǎo)者一樣興奮。從醫(yī)療保健和農(nóng)業(yè)到教育和交通,蓬勃發(fā)展的物聯(lián)網(wǎng)領(lǐng)域和其他領(lǐng)域一樣是多元化的,涵蓋了新信息的發(fā)現(xiàn)和決策控制。物聯(lián)網(wǎng)數(shù)據(jù)科學(xué)打開了創(chuàng)造新數(shù)據(jù)產(chǎn)品的大門。本文將討論一些關(guān)于物聯(lián)網(wǎng)數(shù)據(jù)科學(xué)的具體特征。
數(shù)據(jù)注意事項(xiàng)
目前,物聯(lián)網(wǎng)成為了新數(shù)據(jù)的重要來源之一,物聯(lián)網(wǎng)數(shù)據(jù)或許可以被看做大數(shù)據(jù)的縮影。如果我們只看一臺(tái)設(shè)備產(chǎn)生的數(shù)據(jù),那么我們只需要處理很少的數(shù)據(jù)就可以了(即使這些數(shù)據(jù)也一直在變化)。但無數(shù)的分布式設(shè)備會(huì)產(chǎn)生連續(xù)的數(shù)據(jù)流,所以物聯(lián)網(wǎng)會(huì)產(chǎn)生大量的數(shù)據(jù)。物聯(lián)網(wǎng)設(shè)備可以收集從音頻到傳感器數(shù)據(jù)等各種類型的信息,并全面覆蓋整體數(shù)據(jù)格式的多樣化。
但是物聯(lián)網(wǎng)數(shù)據(jù)也存在一些獨(dú)一無二的特性,使其開發(fā)具有挑戰(zhàn)性。由于采集和傳輸過程中出現(xiàn)錯(cuò)誤往往會(huì)產(chǎn)生噪音,這使得構(gòu)建、清理和驗(yàn)收數(shù)據(jù)的過程成為機(jī)器學(xué)習(xí)算法發(fā)揮的關(guān)鍵步驟。本質(zhì)上來講,物聯(lián)網(wǎng)數(shù)據(jù)也是高度可變的,這是因?yàn)榭绺鞣N數(shù)據(jù)收集組件的數(shù)據(jù)流中存在巨大的不一致性,而且存在時(shí)間模式。不僅如此,數(shù)據(jù)本身的價(jià)值在很大程度上取決于底層機(jī)制,數(shù)據(jù)捕獲的頻率以及處理方式。即使來自特定設(shè)備的數(shù)據(jù)被認(rèn)為是值得信賴的,我們?nèi)孕枰紤]到即使在相似條件下不同設(shè)備的行為也可能不同。因此在收集培訓(xùn)數(shù)據(jù)時(shí)捕捉所有可能的情景在實(shí)踐中是不可行的。
半監(jiān)督學(xué)習(xí)
然而,物聯(lián)網(wǎng)數(shù)據(jù)的一個(gè)最顯著的特征在于其粗糙性:因?yàn)槲锫?lián)網(wǎng)設(shè)備通過各種復(fù)雜的傳感器收集數(shù)據(jù),所產(chǎn)生的數(shù)據(jù)通常非常原始。這意味著,在提取業(yè)務(wù)價(jià)值并構(gòu)建強(qiáng)大的AI應(yīng)用程序之前,主要的數(shù)據(jù)處理是必要的。實(shí)際上,將有意義的信號(hào)從噪聲中分離出來并將這些非結(jié)構(gòu)化數(shù)據(jù)流轉(zhuǎn)化為有用的結(jié)構(gòu)化數(shù)據(jù),是構(gòu)建智能物聯(lián)網(wǎng)應(yīng)用程序最重要的一步。
大量物聯(lián)網(wǎng)應(yīng)用需要使用監(jiān)督機(jī)器學(xué)習(xí),這是一類機(jī)器學(xué)習(xí)算法,需要在模型可以被訓(xùn)練之前標(biāo)記數(shù)據(jù)。由于手動(dòng)標(biāo)記大型數(shù)據(jù)集是一項(xiàng)耗時(shí)、容易出錯(cuò)且價(jià)格昂貴的任務(wù),因此機(jī)器學(xué)習(xí)專業(yè)人員通常首先轉(zhuǎn)向標(biāo)記為開源的數(shù)據(jù)集,或者從少量數(shù)據(jù)開始標(biāo)記。然而,物聯(lián)網(wǎng)數(shù)據(jù)的難點(diǎn)來自其特殊性:因?yàn)檫@些數(shù)據(jù)通常是獨(dú)一無二的,所以不能保證現(xiàn)有的開源數(shù)據(jù)集隨著可獲得,并且工程師們有必要標(biāo)記他們自己的數(shù)據(jù)。這正是高品質(zhì),適應(yīng)性強(qiáng)的眾包標(biāo)簽平臺(tái)所能提供的幫助。
但是,歸因于物聯(lián)網(wǎng)數(shù)據(jù)的可變性,標(biāo)記一個(gè)小的隨機(jī)樣本可能不夠。考慮到這一點(diǎn),這些是在算法訓(xùn)練中利用標(biāo)記和未標(biāo)記數(shù)據(jù)的半督查學(xué)習(xí)策略的完美環(huán)境。特別是主動(dòng)學(xué)習(xí)是一種非常合適的方法,允許機(jī)器學(xué)習(xí)科學(xué)家獲得類似的算法精確度,其中算法被允許向群眾查詢智能選擇的訓(xùn)練實(shí)例的子集的標(biāo)簽,是標(biāo)簽成本的一小部分。
群體感知
在機(jī)器學(xué)習(xí)方面,物聯(lián)網(wǎng)發(fā)展的一個(gè)非常有趣的方面是群體感知的出現(xiàn)。群體感知包括兩種形式:自愿的,當(dāng)用戶自愿提供信息時(shí),以及在沒有明確干預(yù)用戶的情況下自動(dòng)收集數(shù)據(jù)。這是物聯(lián)網(wǎng)數(shù)據(jù)不僅可以促進(jìn)物聯(lián)網(wǎng)應(yīng)用程序的開發(fā)或改進(jìn)的一種方式,而且還可以用作其他非物聯(lián)網(wǎng)應(yīng)用程序的輸入。
物聯(lián)網(wǎng)實(shí)際上允許以前所未有的方式收集非常獨(dú)特的數(shù)據(jù)集。由于每個(gè)設(shè)備生成的數(shù)據(jù)通常都是人為的,因此用戶可以標(biāo)記或驗(yàn)證它。收集最接近用戶位置的數(shù)據(jù)也變得可能:這正是Google要求用戶拍攝他們正在用餐的餐廳的照片,或者回答關(guān)于便利設(shè)施的一些問題的目的。這是第一次可以以大數(shù)據(jù)規(guī)模收集人工生成的數(shù)據(jù)。
模型開發(fā)
人工智能取得令人矚目的進(jìn)步的主要因素之一是出現(xiàn)了更好的技術(shù),如GPU:可以實(shí)現(xiàn)更快速的數(shù)據(jù)處理。物聯(lián)網(wǎng)的機(jī)器學(xué)習(xí)帶來了一個(gè)有趣的難題:最好的模型需要接受大量數(shù)據(jù)的訓(xùn)練,而大多數(shù)物聯(lián)網(wǎng)設(shè)備仍然受限于存儲(chǔ)空間和處理能力。因此,安全高效地將大量數(shù)據(jù)從物聯(lián)網(wǎng)設(shè)備傳送到服務(wù)器或云端,并提高數(shù)據(jù)輸出的能力是AI應(yīng)用程序開發(fā)的關(guān)鍵。
在云計(jì)算時(shí)代,一種較好的解決方案是將數(shù)據(jù)導(dǎo)出到開發(fā)模型的云中,并在模型能夠投入使用后將模型導(dǎo)回到設(shè)備上。這非常具有吸引力,特別是因?yàn)轭A(yù)計(jì)到2021年所有生成的數(shù)據(jù)中有94%將在云中處理,這意味著可以利用其他數(shù)據(jù)源,無論是歷史數(shù)據(jù)還是源于其他物聯(lián)網(wǎng)設(shè)備的數(shù)據(jù)。然而,將復(fù)雜模型存儲(chǔ)回內(nèi)存受限的設(shè)備本身可能是一個(gè)挑戰(zhàn),因?yàn)榫哂写罅繀?shù)的復(fù)雜模型(如深度學(xué)習(xí)模型)本身通常非常大。另一方面,包括從設(shè)備向云上的模型發(fā)送數(shù)據(jù)以進(jìn)行推理步驟的解決方案也可能不是最優(yōu)方案,尤其是在需要延遲非常低的情況下進(jìn)行。
另一個(gè)挑戰(zhàn)是物聯(lián)網(wǎng)設(shè)備可能無法連續(xù)連接到云,因此可能需要一些本地參考數(shù)據(jù)用于脫機(jī)處理,并具有獨(dú)立運(yùn)行的功能。這是邊緣計(jì)算架構(gòu)變得有趣的地方,因?yàn)樗箶?shù)據(jù)能夠在邊緣設(shè)備級(jí)別進(jìn)行初始處理。在安全性方面,這種方法特別有吸引力;而且這種方法非常有利,因?yàn)檫@樣的邊緣設(shè)備能夠過濾數(shù)據(jù),減少噪聲并且當(dāng)場改善數(shù)據(jù)質(zhì)量。
不出所料,人工智能工程師一直試圖獲得兩全其美的方案,并最終開發(fā)了霧計(jì)算,這是一個(gè)去中心化的計(jì)算基礎(chǔ)設(shè)施。在這種方法中,數(shù)據(jù),計(jì)算能力,存儲(chǔ)和應(yīng)用程序以最合理的方式在設(shè)備和云之間分布,最終將它們更緊密地結(jié)合在一起來發(fā)揮它們各自的優(yōu)勢。
轉(zhuǎn)移學(xué)習(xí)
事實(shí)證明,物聯(lián)網(wǎng)設(shè)備能夠生成大數(shù)據(jù),但,使用外部歷史數(shù)據(jù)集開發(fā)物聯(lián)網(wǎng)智能應(yīng)用程序并不罕見。這意味著可以依靠多個(gè)物聯(lián)網(wǎng)設(shè)備(通常是多個(gè)用戶的相同類型的設(shè)備)或完全不同的數(shù)據(jù)源生成的數(shù)據(jù)。應(yīng)用程序越具體和獨(dú)特,現(xiàn)有數(shù)據(jù)集可供使用的可能性就越小,例如,當(dāng)設(shè)備捕獲Imagenet中特定類型的圖像而與開放源圖像數(shù)據(jù)集沒有相似性時(shí)。但物聯(lián)網(wǎng)應(yīng)用程序?qū)嶋H上是幾種現(xiàn)有的現(xiàn)成模型的巧妙結(jié)合,這使得轉(zhuǎn)換學(xué)習(xí)很好地適應(yīng)了物聯(lián)網(wǎng)背景下智能應(yīng)用的發(fā)展。
轉(zhuǎn)移學(xué)習(xí)范式包括在數(shù)據(jù)集上訓(xùn)練模型(通常是黃金標(biāo)準(zhǔn)),并用它來推斷另一個(gè)數(shù)據(jù)集。或者,可以將在生成此模型期間計(jì)算的參數(shù)用作在實(shí)際數(shù)據(jù)集上訓(xùn)練模型時(shí)的起點(diǎn),而不是將模型初始化為隨機(jī)值。在這種情況下,我們將原始模型稱為“預(yù)先訓(xùn)練好的”模型,我們對(duì)應(yīng)用程序特定的數(shù)據(jù)進(jìn)行微調(diào)。這種方法可以將訓(xùn)練階段加速幾個(gè)數(shù)量級(jí)。 使用相同的范例,可以訓(xùn)練一個(gè)通用模型,最終用戶可以直接使用這些數(shù)據(jù)。
安全和隱私問題
由于互聯(lián)網(wǎng)連接設(shè)備技術(shù)通過提供物理和網(wǎng)絡(luò)世界之間的連接來擴(kuò)展當(dāng)前的互聯(lián)網(wǎng),因此它生成的數(shù)據(jù)是通用的,但也是導(dǎo)致嚴(yán)重隱私問題的原因。事實(shí)上,參與物聯(lián)網(wǎng)的大約50%的組織認(rèn)為安全性是物聯(lián)網(wǎng)部署的最大障礙。考慮到大約三分之二的物聯(lián)網(wǎng)設(shè)備處于消費(fèi)領(lǐng)域,以及一些共享數(shù)據(jù)的私密性,也就不難理解安全性問題為什么會(huì)是一個(gè)難題了。 這些顧慮以及與云頻繁數(shù)據(jù)傳輸相關(guān)的預(yù)期風(fēng)險(xiǎn),解釋了用戶為何提出保護(hù)其數(shù)據(jù)的要求。
然而,當(dāng)這些物聯(lián)網(wǎng)應(yīng)用程序由“聯(lián)合”數(shù)據(jù)(即由多個(gè)用戶生成的數(shù)據(jù))驅(qū)動(dòng)時(shí),事情會(huì)變得更加隱伏:不僅可能直接泄露用戶數(shù)據(jù),當(dāng)惡意代理對(duì)機(jī)器學(xué)習(xí)算法的輸出進(jìn)行逆向工程以推斷私人信息時(shí),就可能間接暴露用戶數(shù)據(jù),。因此,很有必要在發(fā)展物聯(lián)網(wǎng)的同時(shí)建立起完整的數(shù)據(jù)保護(hù)法。
物聯(lián)網(wǎng)機(jī)器學(xué)習(xí)是以人為中心的機(jī)器學(xué)習(xí)
由于物聯(lián)網(wǎng)設(shè)備使互聯(lián)網(wǎng)更貼近用戶并觸及人類生活的各個(gè)方面,因此它們通常允許收集相關(guān)數(shù)據(jù)。物聯(lián)網(wǎng)數(shù)據(jù)描述了用戶生活的方方面面,并使其比以往更容易理解用戶的需求,愿望,歷史和偏好。這使得物聯(lián)網(wǎng)數(shù)據(jù)成為完善的數(shù)據(jù),可以根據(jù)用戶的個(gè)性創(chuàng)建個(gè)性化的應(yīng)用程序。
而且由于物聯(lián)網(wǎng)通過收集高度個(gè)性化的數(shù)據(jù)以及提供高度個(gè)性化的應(yīng)用和服務(wù)來親密接觸我們的生活,因此物聯(lián)網(wǎng)機(jī)器學(xué)習(xí)有真正成為以人為本的機(jī)器學(xué)習(xí)的資格。