摘要 : 深度學習是為了讓人們更好地相信我們能做到用神經網絡模擬人腦。深度學習算法未來能沖擊世界,目前對我們所能進行的測量來說,數據提供得越多,得到的結果就越好。在大數據環境下,新的人工智能算法較之前變得越來越好。
The BIG Talk在2015開年第一期首次走進美國,以《迎接嶄新智能社會》為主題,邀請了100多位來自國內最具影響力的主流媒體,科技垂直媒體及自媒體知名人士前往舊金山和硅谷,邀請十幾名世界級科技大咖,為科技界奉上一場關于智能社會技術的前瞻知識盛宴。
以下為百度首席科學家Andrew Ng(吳恩達)在硅谷The BIG Talk專場活動中的主題演講:
主持人Jason Pontin開場:
大家好,歡迎來到BIG TALK – 未來就在這里。我是Jason Pontin ,MIT技術評論的主編。
這次的BIG TALK是第一次在硅谷主辦,也是第一次在中國大陸以外的地區主辦。首先歡迎遠道而來的中國媒體朋友,歡迎你們來硅谷做客。本次論壇的主辦媒體是百度,這是一家在美國廣為人知的企業,被譽為中國的谷歌。去年中,百度宣布將以三億美元在硅谷建造一個研發中心,并且聘用計算機科學領域的專家Andrew Ng,斯坦福大學教授,“深度學習”領域的先驅。深度學習是人工智能的一種形式,一種模擬人腦學習的軟件。它在人工智能領域掀起了一場革命,通過非常強大的模式識別形式,結束了人工智能長達十年未能有突破性進展的局面。
接下來的五小時時間,我們將為大家展示在深度學習中,大數據分析是如何應用到從機器人技術教育到金融及運輸等各個行業。它是我們生活的這個時代中計算機科學專業領域的重大突破。下面有請我們的重量級人物Andrew來為我們詳細闡述深度學習的原理以及其重要作用。
Andrew Ng:
非常高興大家可以在硅谷相聚。過去幾年里,有一種人工智能開始飛速發展,對硅谷產生了重大影響。正如Jason所講,今天你會了解到人工智能如何沖擊并改變醫療保險、教育及其他領域。當然,大家也會認識到這里面也有一點炒作的成分。
今天我想和大家分享兩件事情。第一點,到底什么是深度學習,在深度學習領域里到底發生了什么?在接下來的二十分鐘里,希望可以讓大家知道這樣是什么樣的技術。第二點,請在座各位各行各業的佼佼者們在策略上思考,你們的公司、學?;蚱髽I應該還是不應該應用這種深度學習的技術。
多年以來,我們一直有這樣的想法,就是在人工智能的虛擬圈里做一個很好的產品,吸引眾多用戶使用,并為我們提供很多數據,使這個人工智能產品變得越來越好,而這樣又能讓你得到越來越多的用戶,如此產生人工智能的良性循環。但是這種想法并沒有得到實現,因為這個循環里缺失的最大一環恰恰是人工智能。我們來看一下早期的人工智能算法,即使有很多的數據支持,其表現也并未提升。拋掉炒作的成分,為什么深度學習算法能沖擊世界,我認為一個非常根本的原因就是對目前我們所能進行的測量來說,數據提供得越多,得到的結果就越好。所以在大數據環境下,新的人工智能算法較之前變得越來越好。這也是我們第一次可以在這個虛擬圈里完成整個循環。
網絡中的很多溝通交流都是通過文字進行。十年前,網頁就是一堆文字。如今在百度,我們看到,溝通已經越來越多地變成了圖像和語音,特別是在移動互聯網領域。百度公司成立已有十五年了,在這個方面的改進也持續了十五年,所以我想借此機會跟大家分享人工智能如何實現在圖像和語音交流的方面。人工智能幫助我們理解互聯網上的溝通,為我們在世界各地提供更好的服務和更多的信息。
首先我們來談談如何利用人工智能進行圖像交流。
七年前,在斯坦福,我讓我的學生們寫程序識別咖啡杯的圖像。他們用了當時最好的算法,而這就是他們得到的結果——他們發現到處都是咖啡杯。那為什么識別咖啡杯這么困難?圖像放大以后來仔細分析,在這些紅色的方塊下,我們看到了一個咖啡杯,電腦也看到了。但電腦的問題是,只能單純根據色素的亮度值、強度等數據定義咖啡杯。所以這是長久以來在電腦圖像方面不足的地方,但是在過去幾年我們已經認識到一種叫做神經網絡的技術能夠幫助電腦識別和發送圖像。神經網絡技術深受人腦工作模式的激發,通過大量神經元信號來互相傳遞腦電信息。神經網絡模擬人腦,而算法使其更加智能,能夠識別單個物體。
有一種對深度學習的熱炒說法是神經網絡模擬人腦很容易實現并應用。這個有點夸張了,只是為了讓人們更好地相信我們能做到用神經網絡模擬人腦。但神經學家們知道,我們目前還無法了解人腦的工作模式。我一個伯克利大學的朋友開玩笑說,神經網絡有點像大腦的卡通畫。我覺得他說得很對。深度學習就是一種神經網絡,我們這些探索深度學習領域的人強烈意識到,我們所建立的智能平臺是一種超級簡單化了的卡通大腦,其更復雜的一面我們目前還無法了解。不過我們開發的軟件程序可以使我們識別物體,比如我們給咖啡杯照一張相,把大量數據和圖像傳輸給神經網絡,它就能識別咖啡杯。這只是簡單識別物體,現在我們已經能很輕松地做到這一點了,但是計算機視覺比這個要復雜得多。比如我們看這幅圖像,這就不是看一個咖啡杯那么簡單了。如果讓你對這幅圖進行描述,你可以寫黃色大巴開在路上,右邊的圖描述的是一間灑滿陽光的起居室。你能夠準確寫下圖像的注解,源自你對這個圖像的深度理解。那可不可以讓電腦像我們這樣理解圖片呢?如果要讓你用中文來注解這張圖片,同樣,你就看這個圖片描述,這個棒球運動員準備擊球,一個人在沖浪,一輛車停在現場。所以,電腦是否可以像我們這樣理解圖像,取決于我們對這個圖像的注解。我想給你們一個驚喜,這個圖解字幕不是人寫的,而是電腦。它的工作原理是,我們開發一個系統,輸入圖像后可以自動提供圖解。這是一種神經網絡。百度是第一家使用現有的神經網絡發明這項技術的公司,之后有好幾家公司跟隨我們的步伐。
所以我們今天的計算機視覺技術水平到底到達了一個什么樣的高度呢?我們目前已經研發了一項能夠深度識別并理解圖像的技術。剛才我們用電腦輸出的中文圖解是第一次對美國觀眾進行展示。我們已經擁有了這項非常復雜的計算機視覺技術,然而目前的最大挑戰是把它應用到哪里?計算機視覺技術在過去五年有長足的發展,不過我們并不太明確具體的應用場合,比如醫學影像、圖像搜尋,搜索你可以買什么衣服等等。百度以及其他公司擁有這種計算機視覺技術的公司可以更好地嘗試開發相關產品和應用,雖然今天我們也不知道最好的應用是什么,但我相信未來幾年計算機視覺技術會有更大的發展。
計算機視覺是深度學習帶來的互聯網革命之一。為什么目前深度學習(神經網絡)會有如此快速的發展呢?這是因為我們建立了有效的深度學習算法。舉個例子:建造火箭?;鸺蓛蓚€部分組成,很大的引擎和很多燃料;宇宙火箭也不過是有更大的引擎和很多的燃料。如果只有很大的引擎但燃料不多便無法工作的,反之亦然。必須要由巨大的引擎搭配超多的燃料才行得通。同理,建立一個深度學習算法就必須要建造一個很大的神經網絡作為引擎來支撐算法,于是我們就可以建造更大的神經網絡來支撐更復雜的算法;而數據就是燃料,在如今這個數據化社會的時代,從醫療保健到金融到教育各個領域,我們能夠較以前拿到更多的數據。巨大的引擎(神經網絡)和不斷累積的燃料(數據)結合在一起,使我們能建造巨型火箭(深度學習算法)去騰飛。近年的深度學習就是讓火箭騰飛。大概在2010年,最大的神經網絡有一千萬個連接點,即模擬神經元和模擬線路連接。幾年前我就在谷歌開始了一個云項目,用谷歌的基礎網絡(一千臺電腦)建立十億個連接點的神經元網絡,百倍于2010年,這其實為深度學習帶來很大進展。后來我意識到這是一項非常昂貴的技術,得用到一千臺電腦。所以我和幾個朋友希望能換一種方式,用其他技術來代替這么多臺電腦。于是我們只用了三臺電腦,使用GPU技術(GRAPHICS PROGRESSING UNIT),即用電腦里的一塊硬盤設計圖像處理技術,可以建立十倍于過去的龐大神經網絡。用GPU作為基礎技術,百度已經在硅谷及中國建立了越來越大的神經網絡。從百度的角度來說,我們是第一個將GPU技術應用到深度學習的公司,這就像是一個火箭引擎,能夠支撐我們完成很多深度學習的工作。我們也很高興看到有很多公司正在追隨我們的腳步。
接下來我們來談談語音識別。
舉個實例來說明深度學習是如何改變互聯網世界的?,F在,百度很多用戶使用語音搜索,因為中國有很多年幼的用戶、年長的用戶或文化程度不高的用戶無法使用拼音打字搜索,所以語音是目前唯一可以讓我們知道他們需求的搜索方式。手機在安靜的環境中可以很好地識別你的語音,但如果在嘈雜的環境中,比如開車時或在熙攘的餐廳中,語音識別效果就不是很好。我們要想辦法解決這個問題。以前的語音識別系統非常復雜,工程師要編寫軟件,將語音小片段輸入系統中,通過語音匹配來識別你所說的話。幾個月前,我們決定用神經網絡來替換這種傳統的語音識別方式,通過建立龐大的神經網絡(火箭發動機引擎)來進行語音識別。對于火箭燃料,一般來說最大的語音識別數據為兩千小時,但我們想使用七千小時的語音數據,是之前燃料的三倍多(大家可以查閱學術文章),可是又覺得不夠,又說從這七千小時語音數據總結出十萬多個小時的數據,終于準備好了火箭燃料。通過矩陣排列把這些數據結合在一起,我們可以在較短的時間當中建立一個龐大的語音識別系統,比目前其他的公共API系統都好很多,不僅在安靜的環境中,即使在嘈雜的環境中也表現得很好。秘訣就是我們有很大的引擎和很多的燃料。
為什么要說這個語音識別問題呢?現在市場上有很多的相類似產品,而語音是互聯網改革的一個重要因素。全世界都在改進移動互聯網,在這個方面,中國其實領先于美國和其他國家很多。移動互聯網已經成為我們生活里很重要的部分,所以我們會在小小的鍵盤上用打字的方式溝通。即使在嘈雜的環境中,如果我們通過講話就給對方發消息,便能讓語音識別更好地為我們服務。即使我在開車,我的手機在副駕駛座上,我也可以通過說話便能給我的另一半發送消息。如果語音識別繼續改進的話,我很樂意圍繞語音界面來重新設計手機的功能。如果語音識別能更好地為我們工作,它就會改變我們在座各位和手機的相互作用。
除了移動設備外,語音識別也會對互聯網帶來變個性的影響,包括汽車顯示界面和家用電器等。我想在不久的將來,你可能不需要用到遙控器了。我家里有五個電視機遙控器,但總是找不到,以后我也不需要用到它了,直接對著電視機說話就行。我現在還沒有下一代,但是我希望有一天我的兒子或孫子一輩,可以問我說:在我小時候,你跟你的微波爐講話它卻沒有反應這是真的嗎?太不禮貌了。我相信語音識別技術會給我們的生活帶來很多改變。
總結一下,互聯網的交流方式有很多,如文字、圖像和語音等。以一個科學家的身份來說,互聯網上有太多的數據需要處理,而我們可以以引擎和燃料通過深度學習的方式來解決這些問題。深度學習可以幫助計算機理解所有的數據,是目前已知的改變互聯網的最好技術。通過這種人工智能技術,我們很有可能通過文字、圖像和語音來改變和我們身邊所有其他技術的交流方式,也可以帶來其他領域如金融、醫療保健和教育這些方面的變化。你們可以看出來我非常興奮,我相信人工智能能夠讓我們的生活變得更加美好。
另外還有些炒作的內容,過去幾年有很多人提到了邪惡的機器人可能會帶來負面影響,電腦變得比人更聰明由此掌控這個世界。盡管我們現在掌握的技術是非常好的,但神經網絡與人腦相比還遠遠處于原始狀態,我個人也不知道怎么建造出有自我感知能力的機器人。當然,我對于技術是很有激情的,我相信人工智能會改變我們的生活,給成千上萬人的生活帶來變化。有些炒作或擔心我覺得沒有必要。期待未來!非常感謝!
Q&A
問:Andrew,我想請教幾個問題。這些算法并不是剛剛存在,十五年前就有研究,期間發生了很多變化。百度并不是唯一一家研究深度學習的公司,你的前東家谷歌也在努力鉆研,很多其他公司也都在做。什么改變了?更多的燃料,更大的數據庫?更快的處理能力,更大的引擎?
答:我了解到一個事情,就是比如你使用一個軟件,在很慢的機器里沒法運行,但用更快的電腦就可以了。我們現在的優勢就是電腦越來越快,數據越來越多。做軟件其實是個很難的事情,但是比起二十年前,做軟件的環境已經好很多了。
問:現在價格已經顯著下降了。Andrew,當年在谷歌由16個程序員使用一千臺電腦沒人做一個10億連接點的鏈接是很夸張的。但是現在做這個就很便宜了是吧?
答:降低成本的很大一個原因是我們意識到,還有很多更好的技術值得應用。谷歌在云技術方面有很大的優勢,當年我帶領谷歌深度學習團隊“綠色團隊”工作時,我們用云技術建立神經網絡是沒問題的,我們用這個方法解決了很多問題。但是隨后我們發現,我們可以不用云技術,轉而用高效的超級計算機技術來降低成本,可以建立更大的模型。如果在云里面將需要成千的電腦來完成這項工作。電腦的壽命只有幾年時間,因此必須要防止電腦壞掉。所以百度投資建造了HPC電腦,使用HPC技術建立神經網絡比之前幾代技術都要好很多,目前百度的這項技術是世界領先的。
問:剛才Andrew已經介紹了什么是深度學習。他提到一個有趣的事情是,很多人只需通過智能手機就可以上網。其中一個應用就是語音識別,深度學習可以讓從未上過網的人們接觸到網絡,是這樣嗎?
答:智能手機是個很親密的裝置。我在中國有一個iPhone 6 plus,我很多美國朋友都問我為什么不用iPhone 6,plus太大了。但是在中國大家就覺得我的手機很小。在中國,智能手機大屏幕可以來工作,這是很好的機會,做更多的事。在美國我們一直在用桌上電腦,沒有很多人用移動電腦。但是在中國這是很好的機會。
問:最后一個問題,Andrew談到了一些關于深度學習的恐懼,當然他是夸張的,但是有些聰明的人都被嚇到了。Elon Musk 和Steven Hawking找了一些人工智能專家組成了一個未來學院。你自己覺得為什么他們會如此恐懼和擔憂?
答:有時候我覺得霍金掌握了一些關于秘密的人工智能技術,而我不知道。但我不覺得會有聰明的邪惡機器人掌控地球,不過這樣的炒作實際上給人類社會提出了不同的挑戰,比如就業。在很久時間里,技術給人類帶來了很多機會,但從歷史角度來說,技術提出了很多就業方面的挑戰。比如美國,我們花了兩百年從農業經濟發展到如今不到2%的人從事農活。技術取代了農業專業,農民可以讓后代做不同的工作,而我們的教育系統可以實現他們的愿望。我們現在面臨的挑戰是,技術的變革越來越快,因此需要重新訓練人的技能,比如汽車產業,美國有三百五十萬的卡車司機必須重新找工作。如今的教育系統面臨著的困難是,要訓練大量的人適應新的生活方式,而不是訓練后代。我擔心的是沒辦法及時訓練需要的人。機器人的惡意炒作實際上是嚴肅的勞工話題,是學術界、政界的障眼法。