國際機器學習大會(ICML)源于1980年在卡內(nèi)基-梅隆大學(CMU)舉辦的機器學習研討會。幾十年過去了,ICML如今已發(fā)展為由國際機器學習學會(IMLS)主辦的年度機器學習國際頂級會議,可以說代表了當今機器學習學術(shù)界的最高水平。那么,在“大數(shù)據(jù)”時代的背景下,ICML又有什么看點呢?今年,第三十屆國際機器學習大會(ICML 2013)于6月16-21日在美國亞特蘭大舉行,下面我與各位讀者一起分享一下我的參會感想。
可擴展的大規(guī)模圖學習與推斷算法
可擴展性(Scalability)可謂是貫穿今年ICML的一大主線。首先,什么是可擴展性?通俗的說,就是讓傳統(tǒng)的機器學習算法能夠適應(yīng)并處理海量數(shù)據(jù)(如上百億級別的文件)。在結(jié)構(gòu)化數(shù)據(jù)普遍存在的今天,可擴展的圖算法,尤其是可擴展的復(fù)雜概率圖算法尤其引人注目。到底實現(xiàn)可擴展的圖結(jié)構(gòu)算法有什么困難?一個顯而易見的難點就在于:數(shù)據(jù)樣本之間往往有較強的依賴性,所以MapReduce這種對數(shù)據(jù)進行“分割-計算-合并”處理的傳統(tǒng)數(shù)據(jù)并行化方法可能并不直接適用于圖結(jié)構(gòu)的并行化。
在ICML開幕前一天的結(jié)構(gòu)化學習研討會上,F(xiàn)acebook數(shù)據(jù)科學家Jonathan Chang就介紹了他們面臨的實際問題:Facebook的在線社交網(wǎng)絡(luò)有大約109個結(jié)點(用戶),以及大約1012條邊(關(guān)系)。 在這種規(guī)模的圖結(jié)構(gòu)里,就算僅僅是計算所有用戶好友的好友(Friends of Friends)這一簡單屬性,如果不使用高效的圖計算模型,也可能產(chǎn)生龐大的開銷和非最優(yōu)的結(jié)果。Jonathan接著介紹了他們的解決方法:Giraph,一種基于圖靈獎得主Leslie Valiant在20世紀80年代推出的Bulk Synchronous Parallel(BSP)模型衍生而來的開源工具。Giraph其實可以被看成是近年來Google Pregel迭代計算模型的開源版本:在這個以結(jié)點為中心的模型的每次迭代計算中,結(jié)點處理上次收到的消息,發(fā)送消息給其他結(jié)點,并且改變自身結(jié)點、邊或者拓撲結(jié)構(gòu)。當Jonathan被問到與GraphLab的對比時,他表示Facebook曾經(jīng)嘗試過GraphLab,但并不能達到他們的需求。非常有意思的是,Carlos Guestrin正好將在本次ICML大會上做關(guān)于GraphLab最新進展的主題報告。
第二天一早,會場早已座無虛席。ICML大會主席Michael Littman簡短介紹后,Carlos Guestrin這位機器學習的新生代領(lǐng)軍人物就正式登臺了。說到GraphLab,相信大家不會過于陌生:GraphLab三年前誕生于CMU機器學習系,主要目的是為了并行化復(fù)雜的圖算法。
Carlos接下來介紹了他們開發(fā)GraphLab的心路歷程:早期推出的第一代GraphLab,在許多任務(wù)中取得了非常驚人的表現(xiàn)。如GraphLab1對于Never-Ending Language Learning(Tom Mitchell的永不停息機器學習系統(tǒng))的CoEM算法的并行化實驗,所需時間僅僅是Hadoop的0.3%。然而,GraphLab1在處理14億結(jié)點、67億條邊的Altavista數(shù)據(jù)集上失敗了。為什么呢?在分析了數(shù)據(jù)后,他們發(fā)現(xiàn)Altavista服從自然圖的Power Law分布屬性,即有1%的結(jié)點與53%的邊相連,而這些高度數(shù)的結(jié)點會導(dǎo)致他們原先的算法失效,并且使得圖結(jié)構(gòu)很難被分割。同時,他也介紹了Pregel的問題,由于Pregel/Giraph是同步類算法,很多情況效率也不如非同步算法,在自然圖上也會發(fā)生此類問題。2012年推出的GraphLab2對自然圖計算的瓶頸問題進行了改進:通過把計算遷移到數(shù)據(jù)上,他們設(shè)法并行化高度數(shù)的結(jié)點,并且設(shè)計了有效的適應(yīng)自然圖Power Law分布的圖分割算法。如今,GraphLab2在處理Altavista的數(shù)據(jù)上已經(jīng)有了重大突破,使用1024個核與4.4TB的內(nèi)存,現(xiàn)在只需要11分鐘的處理時間。最后,Carlos介紹了GraphLab3的規(guī)劃:GraphLab3將結(jié)合第一代的代碼可讀性與第二代強大的可擴展性特點,使得圖并行算法能被更多的開發(fā)者所使用。另外值得注意的是,如今GraphLab已正式注冊了公司,并且獲得了675萬美元的風險投資。
深度學習熱潮的延續(xù)
隨著深度學習概念的興起,本屆ICML自然也是少不了許多關(guān)于特征學習以及深度神經(jīng)網(wǎng)絡(luò)的工作。由于深度學習的學術(shù)界領(lǐng)頭人Geoffrey Hinton老先生已歸順了Google,所以加拿大蒙特利爾大學的Yoshua Bengio教授在本次大會中顯得非常活躍。首先在6月16日的研討會上,Yoshua介紹了他近期一些較為“激進”的思想:他認為傳統(tǒng)的隱變量概率圖模型在實際使用中會產(chǎn)生很多的局部最優(yōu)區(qū)域,這些局部最優(yōu)區(qū)域甚至可能會超過經(jīng)典馬爾科夫鏈蒙特卡洛(MCMC)推斷算法的采樣次數(shù),最終導(dǎo)致得到非優(yōu)的推斷結(jié)果。Yoshua提出,傳統(tǒng)的隱變量模型可以被Denoising Autoencoders(DA)替代。DA可以被看作是一種生成式深度學習模型(generative model),并可使用任意的變量(離散或連續(xù))、任意的噪音,以及任意的損失函數(shù)。Yoshua最新研究成果表明,DA不僅在輸入層,在中間計算層也可以加入噪音建模。他認為此算法可以用經(jīng)典的反向傳播算法訓練參數(shù),從而克服顯式傳統(tǒng)隱變量模型的缺點。在6月17日的大會上,Yoshua還有一項有意思的工作就是介紹Recurrent Neural Networks訓練過程中梯度(gradient)的消失與爆炸(過大)現(xiàn)象。其實梯度的突然消失與爆炸在各類隨機梯度下降算法中普遍存在,也是一個優(yōu)化中常見的問題。他們解決的方法是將爆炸的梯度重新規(guī)整,并且將消失的梯度正則化。
6月19日,Google語音搜索組Vincent Vanhoucke做了關(guān)于深度學習在語音識別中應(yīng)用的精彩主題演講。Vincent從語音的基礎(chǔ)(聲學模型與語言模型),堪稱經(jīng)典的高斯混合模型-隱馬爾科夫模型,語者適應(yīng)技術(shù),講到如今基于深度學習的語音識別。深度學習在語音學習的應(yīng)用源自一個跨領(lǐng)域的經(jīng)典合作:故事是2010年前后,微軟和Google的語音組分別招了Hinton老先生的幾個學生做實習,結(jié)果發(fā)現(xiàn)如果不用傳統(tǒng)的MFCC/PLP特征,而用深度學習直接從語音信號里學習特征,并且用深度學習技術(shù)對聲學模型建模,居然可以在標準數(shù)據(jù)集TIMIT上取得驚人的突破。以Google為例,3個月時間下來,語音搜索的相對錯誤率竟然減少了10%。Vincent介紹說,其實語音識別對神經(jīng)網(wǎng)絡(luò)并不陌生,早在20世紀80年代末與90年代,神經(jīng)網(wǎng)絡(luò)就在語音及音素識別上有了應(yīng)用,但基于當時算法和硬件的限制,并沒有被廣泛采納。隨后神經(jīng)網(wǎng)絡(luò)在語音世界里消失了近10年,直到2010年前后的深度學習熱潮,才重新回到人們的視野里。
還有一個不得不提的就是斯坦福大學Andrew Ng關(guān)于用GPU做深度學習的最新工作。還記得Google曾經(jīng)用1000臺計算機(開銷約100萬美元)做的貓臉識別軟件嗎?在本次ICML中,Andrew的學生僅用價值2萬美元的GPU集群,就做到了相同的準確率。可以說,Andrew的這項GPU技術(shù),使得深度學習技術(shù)逐步走向中小公司及學校,又邁進了一大步。同時,在6月21日的遷移學習研討班中,Andrew還通過Skype視頻遠程與我們進行了溝通,介紹了斯坦福大學深度學習項目的研究進展,尤其是在計算機視覺上的應(yīng)用。另外,在ICML的講習班里,另一位深度學習的領(lǐng)路人,紐約大學的Yann LeCun教授也做了一個長達3小時的深度學習教學講座,受到了各位聽眾的好評。
其他機器學習熱點問題及最新進展
本年度ICML的經(jīng)典論文獎頒給了10年前(ICML 2003)兩篇來自CMU的論文:第一篇論文是Jerry Zhu、Zoubin Ghahramani以及John Lafferty關(guān)于圖結(jié)構(gòu)半監(jiān)督學習的經(jīng)典論文。如果你關(guān)心機器學習的進展,不難發(fā)現(xiàn),用半監(jiān)督或無監(jiān)督學習方法挖掘無標簽的數(shù)據(jù),不僅是過去10年,還很可能是大數(shù)據(jù)時代的一個熱點。另外一篇是Martin Zinkevich的在線學習經(jīng)典論文。在線學習解決的問題是:當數(shù)據(jù)集太大,并且數(shù)據(jù)流速度太快的情況下,我們沒有理由每次都把所有數(shù)據(jù)全部重新訓練一遍。通過在線學習方法,我們可以不用把數(shù)據(jù)存在硬盤里,每次直接用實時的數(shù)據(jù)流來更新機器學習模型的參數(shù)。另外,ICML 2013最佳論文獎之一授予了Vanishing Component Analysis。傳統(tǒng)的特征選擇方法通常是在采樣中選擇顯著的特征,這篇論文研究的是,在特征選擇時,能不能選擇一些不變的特征呢?在特征選擇的問題中,這也是一個比較新的研究方向。
如果你是Dave Blei的粉絲或者對文本分析有興趣,ICML 2013也有相當多有意思的主題建模文章,例如Arora等人推出的基于錨點詞(anchor words)的主題建模新算法,Ke Zhai等人的無限詞匯維度在線LDA模型,以及Weicong Ding等人推出的基于投影方法的主題模型,這些都讓人眼前一亮。
核函數(shù)領(lǐng)域的專家Alex Smola在ICML上介紹了一種名為Fastfood的核函數(shù)計算方法,使得計算核函數(shù)的時間和空間復(fù)雜度分別降到了O(nlogd)與O(n)。這對廣大的基于非線性核函數(shù)的SVM應(yīng)用來講,絕對是一個大救星。
最后還有就是概率編程(probabilistic programming):雖然本次大會關(guān)于概率編程的研究不多,但其日前被DARPA認為是機器學習的未來。概率編程的主要思想就是對確定性編程語言概率化,使得不具備機器學習專業(yè)背景的程序員也可以用簡單的程序語言與規(guī)則來從數(shù)據(jù)中學習規(guī)律,對未知世界進行預(yù)測。IMLS主席William Cohen教授與我分別在16日與20日的研討班上簡單介紹了新發(fā)明的高效概率化Prolog語言ProPPR:通過幾行簡單的邏輯編程,可以在復(fù)雜的圖結(jié)構(gòu)上進行快速的推斷,并且實現(xiàn)統(tǒng)計關(guān)系推斷、分類、實體消歧、序列預(yù)測等多種任務(wù)。
通過本次大會,我們不難發(fā)現(xiàn),隨著大數(shù)據(jù)時代的來臨,機器學習領(lǐng)域也正在悄然積極應(yīng)對。值得一提的是,ICML 2014將于明年的6月21-26日在中國北京舉行,屆時中國的機器學習愛好者將有機會在家門口享受一場機器學習的饕餮盛宴。
本文作者王威廉,畢業(yè)于哥倫比亞大學,目前在CMU攻讀博士。曾供職于微軟總部研究院、哥大工學院、南加州大學。ACL、CIKM、COLING、Interspeech等知名國際會議上發(fā)表論文20余篇,并擔任多家SCI雜志的審稿人。2011年被CMU校長選為R. K. Mellon Presidential Fellow。