關(guān)于物聯(lián)網(wǎng)機(jī)器學(xué)習(xí)的機(jī)遇和挑戰(zhàn)

責(zé)任編輯：zsheng |來源：企業(yè)網(wǎng)D1Net 2018-07-24 19:50:45 本文摘自：億歐

根據(jù)Gartner公司的數(shù)據(jù)，到2020年將會(huì)有200億臺(tái)網(wǎng)絡(luò)連接設(shè)備投入使用，這些設(shè)備每年將產(chǎn)生超過500 ZB(zettabytes)數(shù)據(jù)，也就是需要5000億個(gè)1TB硬盤才能放下，隨著科技的進(jìn)步，預(yù)計(jì)這一數(shù)字將繼續(xù)大幅增長。對(duì)于已經(jīng)進(jìn)入物聯(lián)網(wǎng)行業(yè)的70%的組織來講，這些數(shù)據(jù)代表了其獨(dú)一無二的競爭優(yōu)勢。這些數(shù)據(jù)可以幫助企業(yè)獲得有價(jià)值的信息用于開發(fā)創(chuàng)新的AI應(yīng)用程序，這對(duì)于企業(yè)來說是一個(gè)巨大的機(jī)會(huì)。

事實(shí)證明，物聯(lián)網(wǎng)數(shù)據(jù)令數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師和企業(yè)領(lǐng)導(dǎo)者一樣興奮。從醫(yī)療保健和農(nóng)業(yè)到教育和交通，蓬勃發(fā)展的物聯(lián)網(wǎng)領(lǐng)域和其他領(lǐng)域一樣是多元化的，涵蓋了新信息的發(fā)現(xiàn)和決策控制。物聯(lián)網(wǎng)數(shù)據(jù)科學(xué)打開了創(chuàng)造新數(shù)據(jù)產(chǎn)品的大門。本文將討論一些關(guān)于物聯(lián)網(wǎng)數(shù)據(jù)科學(xué)的具體特征。

數(shù)據(jù)注意事項(xiàng)

目前，物聯(lián)網(wǎng)成為了新數(shù)據(jù)的重要來源之一，物聯(lián)網(wǎng)數(shù)據(jù)或許可以被看做大數(shù)據(jù)的縮影。如果我們只看一臺(tái)設(shè)備產(chǎn)生的數(shù)據(jù)，那么我們只需要處理很少的數(shù)據(jù)就可以了(即使這些數(shù)據(jù)也一直在變化)。但無數(shù)的分布式設(shè)備會(huì)產(chǎn)生連續(xù)的數(shù)據(jù)流，所以物聯(lián)網(wǎng)會(huì)產(chǎn)生大量的數(shù)據(jù)。物聯(lián)網(wǎng)設(shè)備可以收集從音頻到傳感器數(shù)據(jù)等各種類型的信息，并全面覆蓋整體數(shù)據(jù)格式的多樣化。

但是物聯(lián)網(wǎng)數(shù)據(jù)也存在一些獨(dú)一無二的特性，使其開發(fā)具有挑戰(zhàn)性。由于采集和傳輸過程中出現(xiàn)錯(cuò)誤往往會(huì)產(chǎn)生噪音，這使得構(gòu)建、清理和驗(yàn)收數(shù)據(jù)的過程成為機(jī)器學(xué)習(xí)算法發(fā)揮的關(guān)鍵步驟。本質(zhì)上來講，物聯(lián)網(wǎng)數(shù)據(jù)也是高度可變的，這是因?yàn)榭绺鞣N數(shù)據(jù)收集組件的數(shù)據(jù)流中存在巨大的不一致性，而且存在時(shí)間模式。不僅如此，數(shù)據(jù)本身的價(jià)值在很大程度上取決于底層機(jī)制，數(shù)據(jù)捕獲的頻率以及處理方式。即使來自特定設(shè)備的數(shù)據(jù)被認(rèn)為是值得信賴的，我們?nèi)孕枰紤]到即使在相似條件下不同設(shè)備的行為也可能不同。因此在收集培訓(xùn)數(shù)據(jù)時(shí)捕捉所有可能的情景在實(shí)踐中是不可行的。

半監(jiān)督學(xué)習(xí)

然而，物聯(lián)網(wǎng)數(shù)據(jù)的一個(gè)最顯著的特征在于其粗糙性：因?yàn)槲锫?lián)網(wǎng)設(shè)備通過各種復(fù)雜的傳感器收集數(shù)據(jù)，所產(chǎn)生的數(shù)據(jù)通常非常原始。這意味著，在提取業(yè)務(wù)價(jià)值并構(gòu)建強(qiáng)大的AI應(yīng)用程序之前，主要的數(shù)據(jù)處理是必要的。實(shí)際上，將有意義的信號(hào)從噪聲中分離出來并將這些非結(jié)構(gòu)化數(shù)據(jù)流轉(zhuǎn)化為有用的結(jié)構(gòu)化數(shù)據(jù)，是構(gòu)建智能物聯(lián)網(wǎng)應(yīng)用程序最重要的一步。

大量物聯(lián)網(wǎng)應(yīng)用需要使用監(jiān)督機(jī)器學(xué)習(xí)，這是一類機(jī)器學(xué)習(xí)算法，需要在模型可以被訓(xùn)練之前標(biāo)記數(shù)據(jù)。由于手動(dòng)標(biāo)記大型數(shù)據(jù)集是一項(xiàng)耗時(shí)、容易出錯(cuò)且價(jià)格昂貴的任務(wù)，因此機(jī)器學(xué)習(xí)專業(yè)人員通常首先轉(zhuǎn)向標(biāo)記為開源的數(shù)據(jù)集，或者從少量數(shù)據(jù)開始標(biāo)記。然而，物聯(lián)網(wǎng)數(shù)據(jù)的難點(diǎn)來自其特殊性：因?yàn)檫@些數(shù)據(jù)通常是獨(dú)一無二的，所以不能保證現(xiàn)有的開源數(shù)據(jù)集隨著可獲得，并且工程師們有必要標(biāo)記他們自己的數(shù)據(jù)。這正是高品質(zhì)，適應(yīng)性強(qiáng)的眾包標(biāo)簽平臺(tái)所能提供的幫助。

但是，歸因于物聯(lián)網(wǎng)數(shù)據(jù)的可變性，標(biāo)記一個(gè)小的隨機(jī)樣本可能不夠。考慮到這一點(diǎn)，這些是在算法訓(xùn)練中利用標(biāo)記和未標(biāo)記數(shù)據(jù)的半督查學(xué)習(xí)策略的完美環(huán)境。特別是主動(dòng)學(xué)習(xí)是一種非常合適的方法，允許機(jī)器學(xué)習(xí)科學(xué)家獲得類似的算法精確度，其中算法被允許向群眾查詢智能選擇的訓(xùn)練實(shí)例的子集的標(biāo)簽，是標(biāo)簽成本的一小部分。

群體感知

在機(jī)器學(xué)習(xí)方面，物聯(lián)網(wǎng)發(fā)展的一個(gè)非常有趣的方面是群體感知的出現(xiàn)。群體感知包括兩種形式：自愿的，當(dāng)用戶自愿提供信息時(shí)，以及在沒有明確干預(yù)用戶的情況下自動(dòng)收集數(shù)據(jù)。這是物聯(lián)網(wǎng)數(shù)據(jù)不僅可以促進(jìn)物聯(lián)網(wǎng)應(yīng)用程序的開發(fā)或改進(jìn)的一種方式，而且還可以用作其他非物聯(lián)網(wǎng)應(yīng)用程序的輸入。

物聯(lián)網(wǎng)實(shí)際上允許以前所未有的方式收集非常獨(dú)特的數(shù)據(jù)集。由于每個(gè)設(shè)備生成的數(shù)據(jù)通常都是人為的，因此用戶可以標(biāo)記或驗(yàn)證它。收集最接近用戶位置的數(shù)據(jù)也變得可能：這正是Google要求用戶拍攝他們正在用餐的餐廳的照片，或者回答關(guān)于便利設(shè)施的一些問題的目的。這是第一次可以以大數(shù)據(jù)規(guī)模收集人工生成的數(shù)據(jù)。

模型開發(fā)

人工智能取得令人矚目的進(jìn)步的主要因素之一是出現(xiàn)了更好的技術(shù)，如GPU：可以實(shí)現(xiàn)更快速的數(shù)據(jù)處理。物聯(lián)網(wǎng)的機(jī)器學(xué)習(xí)帶來了一個(gè)有趣的難題：最好的模型需要接受大量數(shù)據(jù)的訓(xùn)練，而大多數(shù)物聯(lián)網(wǎng)設(shè)備仍然受限于存儲(chǔ)空間和處理能力。因此，安全高效地將大量數(shù)據(jù)從物聯(lián)網(wǎng)設(shè)備傳送到服務(wù)器或云端，并提高數(shù)據(jù)輸出的能力是AI應(yīng)用程序開發(fā)的關(guān)鍵。

在云計(jì)算時(shí)代，一種較好的解決方案是將數(shù)據(jù)導(dǎo)出到開發(fā)模型的云中，并在模型能夠投入使用后將模型導(dǎo)回到設(shè)備上。這非常具有吸引力，特別是因?yàn)轭A(yù)計(jì)到2021年所有生成的數(shù)據(jù)中有94%將在云中處理，這意味著可以利用其他數(shù)據(jù)源，無論是歷史數(shù)據(jù)還是源于其他物聯(lián)網(wǎng)設(shè)備的數(shù)據(jù)。然而，將復(fù)雜模型存儲(chǔ)回內(nèi)存受限的設(shè)備本身可能是一個(gè)挑戰(zhàn)，因?yàn)榫哂写罅繀?shù)的復(fù)雜模型(如深度學(xué)習(xí)模型)本身通常非常大。另一方面，包括從設(shè)備向云上的模型發(fā)送數(shù)據(jù)以進(jìn)行推理步驟的解決方案也可能不是最優(yōu)方案，尤其是在需要延遲非常低的情況下進(jìn)行。

另一個(gè)挑戰(zhàn)是物聯(lián)網(wǎng)設(shè)備可能無法連續(xù)連接到云，因此可能需要一些本地參考數(shù)據(jù)用于脫機(jī)處理，并具有獨(dú)立運(yùn)行的功能。這是邊緣計(jì)算架構(gòu)變得有趣的地方，因?yàn)樗箶?shù)據(jù)能夠在邊緣設(shè)備級(jí)別進(jìn)行初始處理。在安全性方面，這種方法特別有吸引力;而且這種方法非常有利，因?yàn)檫@樣的邊緣設(shè)備能夠過濾數(shù)據(jù)，減少噪聲并且當(dāng)場改善數(shù)據(jù)質(zhì)量。

不出所料，人工智能工程師一直試圖獲得兩全其美的方案，并最終開發(fā)了霧計(jì)算，這是一個(gè)去中心化的計(jì)算基礎(chǔ)設(shè)施。在這種方法中，數(shù)據(jù)，計(jì)算能力，存儲(chǔ)和應(yīng)用程序以最合理的方式在設(shè)備和云之間分布，最終將它們更緊密地結(jié)合在一起來發(fā)揮它們各自的優(yōu)勢。

轉(zhuǎn)移學(xué)習(xí)

事實(shí)證明，物聯(lián)網(wǎng)設(shè)備能夠生成大數(shù)據(jù)，但，使用外部歷史數(shù)據(jù)集開發(fā)物聯(lián)網(wǎng)智能應(yīng)用程序并不罕見。這意味著可以依靠多個(gè)物聯(lián)網(wǎng)設(shè)備(通常是多個(gè)用戶的相同類型的設(shè)備)或完全不同的數(shù)據(jù)源生成的數(shù)據(jù)。應(yīng)用程序越具體和獨(dú)特，現(xiàn)有數(shù)據(jù)集可供使用的可能性就越小，例如，當(dāng)設(shè)備捕獲Imagenet中特定類型的圖像而與開放源圖像數(shù)據(jù)集沒有相似性時(shí)。但物聯(lián)網(wǎng)應(yīng)用程序?qū)嶋H上是幾種現(xiàn)有的現(xiàn)成模型的巧妙結(jié)合，這使得轉(zhuǎn)換學(xué)習(xí)很好地適應(yīng)了物聯(lián)網(wǎng)背景下智能應(yīng)用的發(fā)展。

轉(zhuǎn)移學(xué)習(xí)范式包括在數(shù)據(jù)集上訓(xùn)練模型(通常是黃金標(biāo)準(zhǔn))，并用它來推斷另一個(gè)數(shù)據(jù)集。或者，可以將在生成此模型期間計(jì)算的參數(shù)用作在實(shí)際數(shù)據(jù)集上訓(xùn)練模型時(shí)的起點(diǎn)，而不是將模型初始化為隨機(jī)值。在這種情況下，我們將原始模型稱為“預(yù)先訓(xùn)練好的”模型，我們對(duì)應(yīng)用程序特定的數(shù)據(jù)進(jìn)行微調(diào)。這種方法可以將訓(xùn)練階段加速幾個(gè)數(shù)量級(jí)。使用相同的范例，可以訓(xùn)練一個(gè)通用模型，最終用戶可以直接使用這些數(shù)據(jù)。

安全和隱私問題

由于互聯(lián)網(wǎng)連接設(shè)備技術(shù)通過提供物理和網(wǎng)絡(luò)世界之間的連接來擴(kuò)展當(dāng)前的互聯(lián)網(wǎng)，因此它生成的數(shù)據(jù)是通用的，但也是導(dǎo)致嚴(yán)重隱私問題的原因。事實(shí)上，參與物聯(lián)網(wǎng)的大約50%的組織認(rèn)為安全性是物聯(lián)網(wǎng)部署的最大障礙。考慮到大約三分之二的物聯(lián)網(wǎng)設(shè)備處于消費(fèi)領(lǐng)域，以及一些共享數(shù)據(jù)的私密性，也就不難理解安全性問題為什么會(huì)是一個(gè)難題了。這些顧慮以及與云頻繁數(shù)據(jù)傳輸相關(guān)的預(yù)期風(fēng)險(xiǎn)，解釋了用戶為何提出保護(hù)其數(shù)據(jù)的要求。

然而，當(dāng)這些物聯(lián)網(wǎng)應(yīng)用程序由“聯(lián)合”數(shù)據(jù)(即由多個(gè)用戶生成的數(shù)據(jù))驅(qū)動(dòng)時(shí)，事情會(huì)變得更加隱伏：不僅可能直接泄露用戶數(shù)據(jù)，當(dāng)惡意代理對(duì)機(jī)器學(xué)習(xí)算法的輸出進(jìn)行逆向工程以推斷私人信息時(shí)，就可能間接暴露用戶數(shù)據(jù)，。因此，很有必要在發(fā)展物聯(lián)網(wǎng)的同時(shí)建立起完整的數(shù)據(jù)保護(hù)法。

物聯(lián)網(wǎng)機(jī)器學(xué)習(xí)是以人為中心的機(jī)器學(xué)習(xí)

由于物聯(lián)網(wǎng)設(shè)備使互聯(lián)網(wǎng)更貼近用戶并觸及人類生活的各個(gè)方面，因此它們通常允許收集相關(guān)數(shù)據(jù)。物聯(lián)網(wǎng)數(shù)據(jù)描述了用戶生活的方方面面，并使其比以往更容易理解用戶的需求，愿望，歷史和偏好。這使得物聯(lián)網(wǎng)數(shù)據(jù)成為完善的數(shù)據(jù)，可以根據(jù)用戶的個(gè)性創(chuàng)建個(gè)性化的應(yīng)用程序。

而且由于物聯(lián)網(wǎng)通過收集高度個(gè)性化的數(shù)據(jù)以及提供高度個(gè)性化的應(yīng)用和服務(wù)來親密接觸我們的生活，因此物聯(lián)網(wǎng)機(jī)器學(xué)習(xí)有真正成為以人為本的機(jī)器學(xué)習(xí)的資格。

關(guān)鍵字：機(jī)器物聯(lián)網(wǎng)