伊隆·馬斯克致力于創造人類的未來。作為連環創業者,他起步于互聯網早期階段。如今,他不僅創建一家純電動汽車公司,把人類從汽油的噩夢(污染與高價)中解救出來,還希望有生之年使用自己制造的火箭——SapceX將普通人送入太空。這一切的跡象似乎都在透露:對于未來科技的前景,馬斯克保持樂觀的態度。
不過,馬斯克并非看好所有前沿科技,比如人工智能。去年10月美國MIT的一次公開訪談上,馬斯克稱人工智能就是「召喚惡魔」——對人工智能的研究將成為人類未來最大的敵人。很多人對他的這一看法表示支持,比如牛津大學哲學教授Nick Bostrom,他曾推動「人類生存危機」(譯者注:指威脅到全人類生存的危險,例如氣候極端變化、核戰和生態系統等。)的研究——其中將超級智能作為人類的重大威脅,與小星球沖撞地球和大規模的核戰爭并列。與此同時,前英國皇家學會會長Lord Rees在劍橋大學建立了一所人類生存危機研究中心,該研究中心十分重視人工智能帶來的威脅。
過去十幾年來,人工智能獲得快速發展,上述一系列的擔憂與人工智能的火爆形成鮮明對照。科技巨頭們——谷歌、Facebook、亞馬遜和百度紛紛涉足這個領域:四處挖掘人才、建立研究實驗室、高價收購創業公司等等。總的來說,這些業內人士并不擔心被自己研發出的「產品」所超越。他們能夠用機器完成一些原先只能靠人類才能完成的任務,這種工作其實并沒有創造出許多新的思維方式,而是消除了對舊方式的依賴。
全球移動設備如計算機、平板電腦、智能手機的普及,使我們邁入了大數據時代,而人工智能具有強大的計算能力,這意味著人工智能的算法可處理這些數據,包括語音識別、圖片識別等等。數字技術變革的速度加快,會讓我們擔心數以萬計的技術人才會因此失業,因為許多工作所需要的技能是識別出圖像、理解語言,等等。如果計算機可以替代人類完成這些工作,不管是通過提供完全自動化的解決方案還是通過幫助員工提升工作效率,那么未來將會有更多的工作者從白領步入領取政府救濟金的行列。
人工智能興盛的跡象到處都是。去年就盛傳谷歌為收購人工智能新創公司DeepMind花費了四億美元,它在Facebook的眼皮底下挖走了這家公司。而Facebook也毫不示弱,邀請來自紐約大學的人工智能著名學者Yann LeCun 牽頭來建立屬于自己的人工智能研發實驗室。谷歌曾雇用過斯坦福大學畢業的人工智能專家 吳恩達,直到去年他被百度挖走在硅谷建立了屬于自己的實驗室。來自芝加哥的公司Narrative Science希望開發智能寫作的產品(該技術已經被商業雜志福布斯采用,用于基本財經報道的寫作)。位于麻州劍橋的Kensho旨在將金融工程師現有的工作自動化,這已經讓投資者們嘗到了甜頭。在今年的4月13日,IBM宣稱將使用沃森計算機來做健康分析和醫藥研究,沃森計算機曾在2011年美國寓教于樂的智力競猜比賽Jeopardy中碾壓了兩位人類冠軍。
深層思考
人們對于人工智能的研究就和計算機本身一樣久遠。現在大多的興奮點都集中在一個稱作「深度學習」的分支,相較于在一大堆數據中自我生成任務的「機器學習」來說,這是一個現代化的進步。這些代碼將在所有人工智能的研究中搭建一個橋梁,彌補一個鴻溝:有一些對人類非常難的事情對機器卻非常容易,反之亦然。如果來求解復雜模型的公式,最簡單的電腦也能擊敗人類。反之,最厲害的計算機在過去相當長的一段時間里也會被人類一眼就能解答的問題所困擾,比如人臉識別、編譯演講或者在圖像中甄別中具體物件。
有一種理解是,對于那些人們覺得困難的事情比如求解復雜方程,人們必須要擬定一套規定。然后按照這套規律再來計算就會非常簡單。對于那些人們覺得簡單的事情,就沒有必要去創造一個法則來解答,想要創造也很難。舉一個非常有名的例子,成年人能區分色情圖片和非色情圖片的不同。但1964年時美國最高法庭的法官Potter Stewart 發現要想定義人們是怎么區分的幾乎是不可能的。他對于要用嚴謹合法的文字來定義色情而幾乎絕望,于是他甩手寫道:盡管無法給出色情的定義和大致內容,「但我一看到就能分辨出來」。
而機器學習的方式是通過計算機內部的程序去識別和分析,通常這種分析都是由大量數據高負荷運算解析完成的。
很多系統采用了一種古老但很有價值的人工智能技術——神經網絡來開發他們需要的統計模型。神經網絡這個概念在20世紀50年代被研究者提出,雖然當時人們還不知道什么是智能,但是人們知道大腦里擁有它。而人類大腦在信息處理時不是使用晶體管,而是通過神經元。如果能模擬這些傳遞電化學信號的纖長且高度互連的神經細胞,可能就會產生一些或多或少的智能行為。
天羅地網
神經系統擁有龐大的復雜性。即使在今天的科技水平下,人工智能對神經網絡的模擬也很拙劣,就像簡筆畫和照片的區別一樣。但近期的研究表明,即使是最粗糙的神經網絡,也能很好地完成一些任務。微軟的人工智能研究者Chris Bishop指出,從20世紀60年代開始,電話公司就開始采用神經網絡中發現的「回音消除算法」。但這些早期的成功應用逐漸失去了魅力。人們可利用的計算能力,大大局限了神經網絡模擬的規模,也限制了這項技術的應用范圍。
然而,在過去的幾年中,電子游戲對圖像的需求重燃了人們的興趣,這使得芯片的運算能力有了顯著提升。早期的人工神經網絡規模很小,僅有幾十個或幾百個神經元,通常組織成單層。而最近,谷歌等公司使用的神經網絡已經能夠模擬數十億的神經元。有了如此巨量的神經元,研究者們便能夠更好地模擬大腦,將神經元組織成彼此不同、金字塔式的多層網絡。正是這些互相關聯的層級,為深度學習提供了「深度」。
每一層神經網絡用來處理不同程度的抽象概念。比如說,要處理一張圖片,最低層級識別了原始圖片。它記錄下圖片中每個像素點的亮度和顏色,以及這些屬性在區域中的分布情況。第二層將這些觀察數據綜合起來,組織成更抽象的類別,識別出其中的邊緣、陰影等特征。第三層則開始分析這些邊緣和陰影,在其中搜尋各種組合特征,比如象征著眼睛、嘴唇和耳朵的特征。而這些特征,以一定方式組合起來,就代表著一張臉——不僅能識別出任意一張普通的臉,甚至還能認出它以前見過的某一張臉的新照片。
神經網絡要發揮作用,必須先接受訓練。比如說,一臺機器要教會自己識別人臉,必須先被展示一個「訓練集」,其中包含成千上萬的照片。這些照片中,有的包含人臉,有的沒有。每張都必須進行人工標記。這些照片就像一個系統的「輸入」,而「有臉」或「無臉」的標記則好似「輸出」。計算機的任務就是總結出一個「輸出」與「輸入」相符合的統計規律。為了實現這一點,它會在自己神經網絡的每一個不同抽象級別的層級中進行搜尋,尋找與人臉照片相似的所有特征。當相關性達到足夠程度時,這臺機器就能夠切實可靠地從訓練集中分辨出哪些照片是有臉的,哪些是無臉的。接下來,你可以隨意給它一組新照片,檢驗一下它之前總結出來的「人臉識別規則」是否符合真實世界。
通過這樣一種自下而上的工作,機器學習算法學著去識別特征、概念和類別,這就是人類非常擅長但一直很難用代碼去實現的任務。但這樣的算法在很長時間里時過分狹窄和細分。程序經常需要從它們的開發者那里獲得提示,根據特定的具體任務來設計出一套專門的「手工制作」的代碼,這些具體任務包括圖像處理和語音識別等。
此外,早期的神經網絡只擁有有限的數據處理能力。超過這個臨界點時,為它們輸入更多信息并不會帶來更好的表現。而現在的神經網絡系統所依賴的開發者的指導和調整要少得多。同時,不管你能輸入多少數據,系統都能夠對其進行充分利用,而互聯網也帶來了大量可以提供給系統的數據。
百度、谷歌和Facebook等互聯網巨頭坐擁他們用戶帶來的海量信息。大量的郵件、搜索和交易的歷史信息,無窮無盡的圖像記錄了人臉、汽車、貓、以及紀錄在他們服務器上的世界萬物。這些公司的領導人深知這些數據中蘊含了有價值的模式,但信息的絕對量卻令人生畏,好在機器不懼怕這些。信息過載是個問題,但歸根結底,解決方案也孕育其中,尤其是突破了這個關鍵的時間節點之后:許多數據在人為加標簽之前就已經能被使用了。基于正確算法的加強,計算機能使用這些帶注釋的數據來自行學習,從而辨認出里面的那些有用的模式、規則和類別。
在這方面已經取得了驕人成績。Facebook于2014年公布了名為DeepFace的算法,它從圖片中能夠識別出特定人臉的準確度能達到97%,甚至他們的臉部被部分遮擋或亮度不足。這就做到了之前只有人類才能做到的事情。微軟稱,其為語音助手Cortana開發的物體識別軟件能夠告訴用戶彭布羅克威爾士柯基犬和卡迪根威爾士柯基犬的區別,這兩個犬類品種的照片看起來非常像(見下圖)。有些國家,比如說英國已經使用人臉識別技術來進行邊境安防控制,這套系統能夠從一端影像中識別出某個人,這對警察和偵探非常有吸引力。5月5日發布的一份報告展示了美國的偵探是如何使用語音識別軟件來將語音通話轉化成文本的,這樣他們就能更好的對談話內容進行搜索。
但是,盡管互聯網是一個巨大的數據寶藏,但它并不是無窮無盡的。機器學習算法賴以發展的那一類人類標記過的數據資源是有限的。為此,發展不需要人類輔助的「無監管學習」算法的比賽已經開始。
目前已經有了很多進展。2012年一支由吳恩達領導的谷歌團隊展示了一個無監督學習的機器對數百萬張YouTube視頻圖像的分析。這個機器學會了給它見過的常見物體進行分類,包括人類面孔和(供網民娛樂的)貓,包括網上隨處可見的各種動作:睡著的、跳躍的、玩滑板的。人類沒有在這些視頻上標明包含「面孔」或「貓」的字眼。相反,機器在看了每個物體不計其數的例子后簡單斷定,它們表現出來的統計模式已經具備了足夠的普遍性,從而可以將這些物體進行分類。
識別單個物體的下一步是識別多個不同物體。斯坦福大學Andrej Karpathy和李飛飛發表的論文描述了一個計算機視覺系統可以標出一個給定圖像的特殊部分。例如給它看一個早餐桌子,它可以識別出餐叉、香蕉片、一杯咖啡和桌子上的花以及桌子本身。它甚至可以在場景中(從右側看到圖片)用自然英語做出描述——盡管這項技術還不是特別完美(從下邊看到圖片)
互聯網巨頭如谷歌都對這項成果感興趣,因為它可以直接影響到這些公司的底線。更完善的圖像分類能夠提高搜索能力從而幫助用戶更好的找到他們所想要的東西。從長遠來看,技術可以找到其他更多的革新性應用。能夠對其分解及進行某個場景解釋對機器人研究者來說是有用處的,這有利于使他們正在研發的產品(工業機器人伙伴、自動駕駛汽車,戰爭機器人)來領航這個雜亂無章的現實世界。
圖像分類也是可以促成「增強現實」實現的技術,增強現實主要應用在可穿戴設備,比如谷歌眼鏡或微軟的HoloLens,它是把有用的信息覆蓋到現實世界之上。Enlitic,一家總部設在舊金山的公司,希望通過圖像識別分析X射線和核磁共振掃描的圖像,以發現人類醫生可能漏掉的問題。
深度學習并不局限于圖像。它是一項通用的模式識別計算,這意味著,從本質上來說,任何利用到大數據的活動,從運營保險業務到基因研究,都能找到它的用處。最近在CERN(歐洲核子研究組織)——世界最大的粒子物理實驗室舉辦的一次競賽中,深度學習算法比物理學家寫的軟件更好地識別了亞原子粒子的特征——盡管創造這些算法的程序員們沒有專門的物理學知識背景。更驚人的是,一組研究者(譯者注:即谷歌收購的DeepMind)寫出了一個程序,在學習玩視頻游戲例如 Space Invaders時會比人類更擅長。
深度學習同樣也能改進機器翻譯。得益于可以從網上獲取大量的多語言文本,機器翻譯已經開始使用神經網絡。供職于百度的吳恩達認為,智能手機上運行的良好的語音識別程序可以讓中國很多文盲群體接觸到互聯網,這會導致與普通計算機的競爭。目前,百度有10%的搜索是通過語音進行。他相信,到2020年這會提升到50%。
這些不同類型的人工智能可以整合到一起形成一個更加強大的系統。例如,2014年5月,在加利福尼亞州舉辦的會議上,微軟展示了一款可以實時語音翻譯的程序。公司一名研究人員用英語與一名德國的同事通話。這款程序中的一個人工智能程序將聲波解碼成多個英語短語,另外一個程序將這些短語從英語轉成德語,第三個程序再將德語轉成語音。微軟希望未來能夠將這一技術運用到互聯網電話Skype上。
機器無魂靈
更好的智能手機、更新奇的機器人以及讓文盲群體能夠使用互聯網都是好事。但這些能夠佐證馬斯克和其他人已有的擔憂嗎?也許圖像識別、自我編程計算機正是機器邁向比它們的創造者更聰明的道路上的早期階段但卻關鍵性的一步。
末世論者有一個重要的支持論據。那就是,數十年的神經科學研究始終沒有結果能表明大腦不是機器。它由普通原子組成,使用自然力并遵守普通自然法則。換句話說,并沒有推動其運行的神秘「精神」存在。這說明建造一個人工大腦——或者一個與大腦外觀不同但功能類似的機器——原則上是可行的。
但是原則上可行跟實際去做是截然不同的兩件事。現供職于波士頓Rethink Robotics公司,也是人工智能先驅之一的Rodney Brooks說,這個問題部分源于對「智能」這個詞的混淆。現在計算機能夠完成人類大腦過去可以完成的一些狹義上的任務(畢竟,最初的「計算機」是人類,通常是指做那些棘手運算問題的女性,而這些問題對數字設備而言十分容易)。一個圖像分類器可以很精準,但是它沒有目標,沒有動機,也沒有意識到自己只是作為一個電子表格或氣候模型而存在。而且,如果你試圖進行腦力勞動,你也不必以現在人工智能那種方式來完成它們。人工智能使用很多蠻力來從系統中獲得看似智能的回應。這些系統盡管比之前更加龐大,也更佳強大,但在思考方面卻沒比過去提高多少。不要奢求建造一個類似生物大腦的系統。就像另外一位人工智能先驅Edsger Dijkstra曾經評論的那樣,問一臺計算機是否可以思考就跟問「一艘潛艇是否可以游泳」差不多。
圈套與錯覺
沒有什么比將現有的人工智能程序愚弄一番更能說明問題的了。一篇將在6月份召開的計算機視覺會議上發表的論文展示了一些被設計出來愚弄圖像識別算法的視錯覺。它向我們展示了算法如何運行——在模式之間進行匹配,但算法的工作卻如此盲目,在理解內容方面一無是處(就像是只認識到了棒球是個客觀物體,而不能把它當成一個對球面的縫合線進行模糊聯想的抽象模式),它阻止了人們掉進類似陷阱。它甚至可能為我們構建出某種圖像,這看上去就像毫無意義的電視雪花點一樣,但神經網絡卻無法對其精確分類——就像對實際物體所做的那樣。
至少對某些人來說,這些狀況并不意味著人工智能項目就不能取得令人欣慰的進展。同時,相對于那些已經過去的科技革新浪潮來說,這些人中相當大部分來自中產階級。比如上文提到的微軟的實時翻譯項目,這項技術從展示效果來看還遠遠稱不上完美。但沒有人會將機器語音翻譯錯認為專業翻譯。但是對于把握交談中的重點,這已經足夠了。這比雇傭一個專職的翻譯人員要方便和便宜得多!這樣一個算法能夠將現在的那種昂貴的、定制的專業翻譯服務變成每個Skype用戶都能享受到的功能(當然,效果會差一些)。這樣一來,對專職翻譯人員也許是壞事,但對于其他所有人卻是好事。而且微軟的這個項目還會不斷優化。
在這次新產業革命中對于人工智能可以勝任白領工作的焦慮,就如同第一個工業革命中蒸汽機的出現取代藍領工作一樣,這需要嚴肅對待。比如Narrative Science的機器財經記者和Kensho的機器數據分析師。
Kensho的系統被設計成能夠描述自然語言的查詢搜索,比如「當原油價格每桶降低5美元,汽車企業的股價將會如何變化」?它會去查找公司財報和上市文件、歷史市場數據等,并在幾秒內以自然語言的形式做出回復。Kensho計劃將這套軟件系統推向大型銀行和富有經驗的交易員。一家法國企業Yseop使用自然語言處理軟件來描述查詢需求,搜遍所有數據來尋找答案,然后1秒鐘就可以用英語、西班牙語、法語或德語寫出3000頁的答案。歐萊雅和獸醫在線VetOnline等公司已經使用該系統用于網站的用戶支持功能。
這不只是一種理論上的擔心,因為有一些白領的工作已經讓位于機器了。例如,一些公司用電腦來進行電話客服。因為那些令人抓狂的限制,它們在遇到無法理解的問題時也需要人類的支持。很難預測將來有什么工作會像這樣被機器取代,即使牛津馬丁學院在2013年發表的一篇論文讓他們恐慌不已,論文的結論是,美國統計學家追蹤的工作類型中將有一半會遭受到機器的襲擊。
技術在給予我們的同時也會索取。自動化的、便宜的翻譯無疑是有用的。擁有一個不知疲倦的且速度飛快的電腦來查看醫學影像也是有必要的。或許,思考人工智能的最好方式就是將其簡化成認知增強發展史上的最新成果,人類一直通過研究認知增強來提升自身大腦的能力。這項研究的科技含量要高于紙(提供了一種便攜式的、可依賴的存儲方式)和算盤的發明,它們是用來輔助提升我們的心算能力。就像印刷術的出現使抄寫員失業,高端的人工智能也會犧牲掉一些工作。但對于那些他們的工作無法被取代的人,這會進一步增強他們的能力,因為這將給每個人賦予使用「智力工具」的機會,而這在目前只屬于少數人。現在,每個擁有智能手機的人就如同把一個城市中所有的舊時的人類計算員裝進了口袋,它們為你工作卻不需要任何報酬,無非就是充充電而已。在未來,我們還會擁有任由我們使喚的貼身翻譯和診斷醫生。
更加聰明的計算機將會成為真正的變革性技術,但至少不是基于馬斯克先生和Lord Rees先生的原因。或許有一天,人類大腦的特有智能能夠在機器中被創造出來。但截止到目前為止,最好的建議就是無視那些「計算機將接管世界」的威脅論,而是應該弄清楚它們首先不會奪走我們的工作。