提到眾包,想必大多數(shù)人都不陌生,“一個公司或機構(gòu)把過去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定的(而且通常是大型的)大眾網(wǎng)絡(luò)的做法。眾包的任務(wù)通常由個人來承擔(dān),但如果涉及到需要多人協(xié)作完成的任務(wù),也有可能以依靠開源的個體生產(chǎn)的形式出現(xiàn)。”這一概念由美國《連線》雜志的記者杰夫·豪(Jeff Howe)在 2006 年 6 月提出,眾包模式的出現(xiàn)極大的提升了企業(yè)工作效率而且大幅降低成本。
人工智能時代即將來臨,作為實現(xiàn)人工智能的重要方法,機器學(xué)習(xí)開始受到廣泛關(guān)注。訓(xùn)練機器學(xué)習(xí)系統(tǒng)需要大量的帶標(biāo)簽數(shù)據(jù),實現(xiàn)諸如語音識別及圖片分類等功能,比如將帶有花朵的圖片與“花朵”這個詞語捆綁起來。傳統(tǒng)基于專家的數(shù)據(jù)標(biāo)記緩慢而昂貴,基于此,機器學(xué)習(xí)開始與眾包模式相融合,后者成為了當(dāng)今獲取標(biāo)記數(shù)據(jù)的基本手段。
盡管聽起來非常簡單,但如何利用眾包打造機器學(xué)習(xí)的高品質(zhì)數(shù)據(jù)庫遠不是一件簡單的事情。眾包背后涉及哪些技術(shù)?怎樣保證數(shù)據(jù)精準(zhǔn)?帶著這些問題,我們采訪了美國微軟雷德蒙研究院首席研究員周登勇博士,就眾包與機器學(xué)習(xí)融合中的一些問題進行了請教。
周登勇(Dengyong Zhou),美國微軟雷德蒙研究院首席研究員。在加入微軟研究院之前,周登勇博士曾任職于德國馬普研究所智能系統(tǒng)分所(Max Planck Institute for Intelligent Systems),以及 NEC 美國研究院普林斯頓分部的機器學(xué)習(xí)部。他在中國科學(xué)院自動化所獲得人工智能專業(yè)博士學(xué)位,并同時獲得中國科學(xué)院院長獎學(xué)金。周登勇博士在微軟工作期間曾獲研究院金星獎,以及擔(dān)任 NIPS 與其他若干國際會議的領(lǐng)域主席。
以下為采訪實錄:CSDN:首先請與我們的讀者分享一下您與團隊目前正在專注的研究領(lǐng)域,以及取得了怎樣的進展?
周登勇:在微軟雷德蒙研究院, 我與我的團隊一直專注在如何提高眾包數(shù)據(jù)的質(zhì)量這個基本問題上。具體來說,我們主要集中在兩個方面:一是如何從非專家標(biāo)記的數(shù)據(jù)中提煉出高質(zhì)量的標(biāo)記,二是如何激勵數(shù)據(jù)標(biāo)記員工提供高質(zhì)量的工作。針對這兩方面問題我們進行了算法和理論基礎(chǔ)的研究,一些技術(shù)發(fā)明已經(jīng)應(yīng)用在產(chǎn)品中。
CSDN:我們知道,眾包是獲取大量的帶標(biāo)簽數(shù)據(jù),供機器學(xué)習(xí)系統(tǒng)進行訓(xùn)練的一種方式,那么是什么促成了眾包模式的出現(xiàn),采用眾包模式相比傳統(tǒng)的數(shù)據(jù)收集方式具有什么優(yōu)勢?
周登勇:在建立基于機器學(xué)習(xí)的智能系統(tǒng)時,只要有大量的訓(xùn)練數(shù)據(jù),一個樸素的機器學(xué)習(xí)模型往往可以完勝一個只是基于很少量數(shù)據(jù)訓(xùn)練出來的精心設(shè)計的高級模型。當(dāng)你需要短時間內(nèi)提高一個機器學(xué)習(xí)應(yīng)用的性能時,大幅度增加訓(xùn)練數(shù)據(jù)應(yīng)該是優(yōu)先考慮的策略,而獲得大量標(biāo)記數(shù)據(jù)可以通過眾包達到。
一個商業(yè)化的互聯(lián)網(wǎng)眾包平臺可能有上百萬分布在世界各地的數(shù)據(jù)標(biāo)記員。他們能以低廉的價格在幾天甚至幾小時之內(nèi)就產(chǎn)生大量的標(biāo)記數(shù)據(jù)。相比之下,傳統(tǒng)的基于專家的數(shù)據(jù)標(biāo)記緩慢而又昂貴。
CSDN:通常認為,眾包的工作流程是任務(wù)準(zhǔn)備、任務(wù)執(zhí)行、任務(wù)答案整合。在此基礎(chǔ)上,微軟雷德蒙研究院有哪些創(chuàng)新?效果如何?
周登勇:微軟雷德蒙研究院的多個小組在眾包不同方面的問題上展開了深入而又持久的研究。我們的研究工作往往與產(chǎn)品部門緊密配合。隨著數(shù)據(jù)的類型以及數(shù)據(jù)收集流程的不同,眾包的問題會很不一樣。我與我的團隊提出了一個叫極小極大熵原理的簡潔的統(tǒng)計推斷模型用于眾包任務(wù)答案整合。該原理可以適用于很多類型的數(shù)據(jù),包括多類別的數(shù)據(jù),分級數(shù)據(jù),以及結(jié)構(gòu)化的數(shù)據(jù),也可以很容易融合先驗知識。在任務(wù)執(zhí)行上,我們從博弈論出發(fā)提出了一種叫翻倍或者歸零的付錢機制,數(shù)據(jù)標(biāo)記員可以選擇不回答他沒有把握的問題。采用這種付錢方式,我們觀察到數(shù)據(jù)標(biāo)記的錯誤率大幅度降低。而且,理論上我們還證明了這也是經(jīng)濟上最節(jié)省的付錢方式。
CSDN:在眾包中,任務(wù)花費、質(zhì)量和時間是重要的三個指標(biāo),但往往無法兼得。該如何平衡這三者的關(guān)系?
周登勇:這三個問題的平衡與具體的眾包任務(wù)密切相關(guān)。一般來說,質(zhì)量是更重要的指標(biāo),如果沒有質(zhì)量,再低的花費與再少的時間都是沒有意義的。我與我的團隊考慮過任務(wù)花費與質(zhì)量的平衡。我們的目標(biāo)是在一個給定的預(yù)算下獲得最高質(zhì)量的數(shù)據(jù)。大致說來,我們考慮一種在線的眾包模式。在每一步,我們需要做出兩個決定:一是哪個數(shù)據(jù)需要標(biāo)記,二是讓誰來標(biāo)記。我們?yōu)檫@個問題設(shè)計了一個基于馬爾科夫決策理論的數(shù)學(xué)模型,并提出了一個稱之為知識梯度的有效算法。
CSDN:通過眾包會獲取大量的數(shù)據(jù),這些數(shù)據(jù)在應(yīng)用于機器學(xué)習(xí)系統(tǒng)之前,可以通過哪些技術(shù)和操作,改善數(shù)據(jù)的質(zhì)量?存在哪些誤區(qū)?
周登勇:這些數(shù)據(jù)在應(yīng)用于機器學(xué)習(xí)系統(tǒng)之前,我們要做數(shù)據(jù)整合,前面提到的極小極大熵原理的統(tǒng)計推斷模型就是服務(wù)于此。有些人或許喜歡考慮將數(shù)據(jù)整合與機器學(xué)習(xí)的訓(xùn)練算法捆綁到一個單一的模型中,技術(shù)上很容易做到,但這個或許不是好的主意。我傾向把數(shù)據(jù)整合與模型訓(xùn)練分開,這有兩方面原因,迄今為止,我還沒有觀察到這種捆綁模型有哪些有意義的性能提升。更重要的是,在實際應(yīng)用中,當(dāng)機器學(xué)習(xí)系統(tǒng)出了問題,我們通常需要精確知道到底是哪個環(huán)節(jié)出了問題。捆綁模型模糊了整合與訓(xùn)練這兩個環(huán)節(jié)的界限。
CSDN:眾包中的統(tǒng)計推斷背后涉及哪些關(guān)鍵技術(shù)?哪些對質(zhì)量的影響最大?
周登勇:眾包中的統(tǒng)計推斷技術(shù)已經(jīng)比較成熟,特別是針對多類別的數(shù)據(jù)。我們的極小極大熵原理的統(tǒng)計推斷模型能用到很多不同的數(shù)據(jù)類型上,對不同的數(shù)據(jù)類型當(dāng)然需要做一些適當(dāng)?shù)恼{(diào)整。但是,眾包遠不只是一個靜態(tài)的數(shù)據(jù)處理問題,為改善眾包數(shù)據(jù)質(zhì)量,我們還需要考慮其他的環(huán)節(jié)。比如說,在眾包工人執(zhí)行標(biāo)記任務(wù)之前,執(zhí)行資格考試,只有達到了一定的正確率,才有資格標(biāo)記數(shù)據(jù)。否則,需要一定的職能訓(xùn)練直到達標(biāo)。這樣的一個環(huán)節(jié)通常會帶來顯著的數(shù)據(jù)質(zhì)量改善。另外,我前面提到,付錢方式也會對數(shù)據(jù)質(zhì)量產(chǎn)生很大的影響,有效的付錢方式會讓眾包工人愿意付出足夠的努力把工作完成好。
CSDN:目前眾包平臺的激勵機制有哪些缺陷,AI 新技術(shù)能帶來哪些不同?未來的困難會在何處(例如是否有可能作弊)?請舉例說明。這些研究,除了“眾包”還有可能應(yīng)用在哪些領(lǐng)域?
周登勇:目前眾包平臺的激勵機制一般都是一些經(jīng)驗方法。比如說,隨機抽查一些結(jié)果,如果回答質(zhì)量過得去的話,就付全款;否則,就不給錢。我們是把激勵機制奠定在堅實的數(shù)學(xué)基礎(chǔ)之上,并發(fā)展了實際上簡單而又有效的付費機制。目前,這方面還有諸多問題需要更仔細的考慮。比如說,抽查結(jié)果的工作量可能太大,我們需要設(shè)法減少對抽查的依賴,而一旦減少抽查會讓作弊更容易。還有,一些比較困難的標(biāo)記問題,比如說自然語言處理的標(biāo)注,需要提供有吸引力的市場價格吸引足夠多的眾包工人去標(biāo)注。這些問題目前還只是有一些粗淺的經(jīng)驗方法,還有很長的路要走。對眾包中激勵機制的研究工作可以不只是用在眾包中,可以放在更大的范圍之內(nèi)考慮,特別是在人機結(jié)合的智能系統(tǒng)中我們也需要考慮如何合理激勵每位參與人員。
CSDN:擁有怎樣特征的公司應(yīng)該構(gòu)建自己或者使用第三方眾包平臺,應(yīng)該考量哪些要素? 可否簡單舉例說明?
周登勇:大數(shù)據(jù)驅(qū)動占據(jù)核心位置的公司都需要考慮使用眾包平臺。如果數(shù)據(jù)的私密性很重要,需要構(gòu)建自己的眾包平臺。否則,可以直接使用第三方平臺。平臺的易用性是一個重要考慮因素。 不管是眾包工人還是標(biāo)記任務(wù)提供者都會喜歡容易使用的平臺。平臺的靈活性也很重要,特別是任務(wù)分發(fā)以及付錢機制上需要有足夠的靈活性。還有,平臺需要提供一些基本的質(zhì)量控制功能包括檢測作弊。
CSDN:您將在今年的 CCAI 大會上發(fā)表《眾包中的統(tǒng)計推斷與激勵機制》主題演講,希望此次演講能夠為聽眾帶來怎樣的啟發(fā),以幫助他們解決當(dāng)前在人工智能領(lǐng)域哪些共性問題?
周登勇:通過做這個眾包工作的報告,我希望大家看到人機結(jié)合的智能系統(tǒng)的潛力。在可以預(yù)見的將來,機器智能完全代替人的智能幾乎沒有任何可能。我們應(yīng)該是讓人與機器各施所長互相補充。數(shù)據(jù)標(biāo)記是一個比較簡單的人機系統(tǒng),但是這里面包含的技術(shù)已經(jīng)相當(dāng)有挑戰(zhàn)性。如果我們要建立更復(fù)雜的人機智能系統(tǒng)解決更大的問題,會有更多的新的困難需要克服。另外, 我們也通過報告展示出如何在一個看起來實際得不能再實際的問題上發(fā)展出堅實優(yōu)雅的數(shù)學(xué)理論并產(chǎn)生有效的實用技術(shù)。這是基礎(chǔ)研究的魅力,這需要足夠的時間,耐心與環(huán)境支持。在我們的工作之前,眾包領(lǐng)域的工作基本是處于非常初級的經(jīng)驗主導(dǎo)的階段。
CSDN:在此次 CCAI 大會上,您對哪些內(nèi)容比較感興趣?
周登勇:我非常高興參加這次中國人工智能大會。人工智能正在國內(nèi)呈現(xiàn)爆炸性的發(fā)展,從各種互聯(lián)網(wǎng)公司到學(xué)術(shù)研究。我對這次人工智能大會的所有的內(nèi)容都很有興趣。特別是,我許多朋友都來參加這次大會,他們在人工智能領(lǐng)域做了杰出的工作,我非常高興我們能聚在杭州這個美麗的城市一起談?wù)撊斯ぶ悄茴I(lǐng)域的最新進展。
關(guān)于 CCAI中國人工智能大會(CCAI),由中國人工智能學(xué)會發(fā)起,目前已成功舉辦兩屆,是中國國內(nèi)級別最高、規(guī)模最大的人工智能大會。秉承前兩屆大會宗旨,由中國人工智能學(xué)會、阿里巴巴集團 & 螞蟻金服主辦,CSDN、中國科學(xué)院自動化研究所承辦的第三屆中國人工智能大會(CCAI 2017)將于 7 月 22-23 日在杭州召開。
作為中國國內(nèi)高規(guī)格、規(guī)模空前的人工智能大會,本次大會由中國科學(xué)院院士、中國人工智能學(xué)會副理事長譚鐵牛,阿里巴巴技術(shù)委員會主席王堅,香港科技大學(xué)計算機系主任、AAAI Fellow 楊強,螞蟻金服副總裁、首席數(shù)據(jù)科學(xué)家漆遠,南京大學(xué)教授、AAAI Fellow 周志華共同甄選出在人工智能領(lǐng)域本年度海內(nèi)外最值得關(guān)注的學(xué)術(shù)與研發(fā)進展,匯聚了超過 40 位頂級人工智能專家,帶來 9 場權(quán)威主題報告,以及“語言智能與應(yīng)用論壇”、“智能金融論壇”、“人工智能科學(xué)與藝術(shù)論壇”、“人工智能青年論壇”4 大專題論壇,屆時將有超過 2000 位人工智能專業(yè)人士參與。
目前,大會 8 折優(yōu)惠門票正在火熱發(fā)售中,掃描下方圖片中的二維碼或直接點擊鏈接火速搶票。