2010年奇點峰會,DeepMind創始人Demis Hassabis在會上發表了關于AGI的演講,演講題目是:建立AGI的系統神經學方法。
AGI指通用人工智能,它是一種假設的計算機程序,可以和人類一樣執行智能任務,甚至有希望超越人類。AGI將能夠完成離散的任務,比如識別照片或翻譯。此外,它將會加減運算、下棋、說法語,還能理解物理論文、撰寫小說、設計投資策略、與陌生人談話。它將能夠監測核反應、管理電網和交通流量,它可以輕易地做任何事情。相比之下,目前最先進的AI在AGI面前看起來就簡單得像個便攜式計算器。
上述任務目前只能由人類完成。但是人類智力受到腦容量所限,更受人類渺小脆弱的身體限制。既然AGI在計算機上運行,它就不會受到這些機體條件限制,其智能水平只受處理器數量的影響。AGI可能會先從監測核反應開始。但很快,它在一秒內消化的物理論文數量比一個人在千年內消化的還要多,并可以據此發現新能源。人類智慧,再加上計算機的速度和可擴展性,將解決目前看來無解的問題。Hassabis預計AGI將掌握各種學科,包括癌癥研究、氣候變化、能源、基因組學、宏觀經濟、金融系統等等。
AGI將高速地處理信息且高度智能,不斷自我改進的系統將急劇提升機器智能程度。但是AGI的未來難以預測,沒人知道這一切是好是壞。
Hassabis解釋說,到目前為止,科學家們一直從兩個途徑發展AGI。第一個途徑是符號AI。研究人員試圖描述編寫一套完整的規則,使之能像人類一樣思考。這種方法在上世紀八九十年代很流行,但沒有達到預期的結果。Hassabis認為,人類大腦神經結構太過微妙,編程模仿是做不到的。第二個途徑是以數字形式復制大腦的生物網絡。這聽起來似乎可行,畢竟大腦是人類智力的中心。但操作起來并不現實,因為這么做就好比繪制宇宙中每一顆恒星的地圖。最根本的問題在于,這種途徑是在錯位研究大腦功能。打個比方,這就像試圖通過打開計算機并檢查晶體管的交互來理解Microsoft Excel是如何工作的。
Hassabis提出了中間立場:AGI應該從大腦處理信息的廣泛方法中汲取靈感,而不是在特定情況下應用生物系統或特定規則。換句話說,它應該專注于理解大腦的軟件運作,而不是大腦的硬件構成。功能性磁共振成像等新技術使人們能夠在大腦活動的同時觀察大腦內部,因此理解“大腦的軟件運作”漸漸成為可能。最新研究表明,大腦通過在睡眠中重演經驗來學習,從而得出一般原則。AI研究者應該模仿這種系統。
當年Hassabis參加奇點峰會最重要的目的是募資,DeepMind最終獲得200萬英鎊投資,其中著名風險投資人彼得·泰爾投資了140萬英鎊。谷歌在2014年1月以6億美元收購該公司時,Thiel和其他早期投資者的投資回報率高達5000%。
對許多創始人來說,這已經算是一個完美的結局。但對Hassabis來說,被谷歌收購只是他追求AGI過程的一個步驟而已。 2013年,他花費大量時間進行協議條款談判,目的在于保持DeepMind的獨立性。它可以獲得被谷歌收購的好處,比如獲得現金流和計算能力,但是創始人仍然保有對公司的控制權。
Hassabis認為DeepMind具備多種優勢:擁有創企的動力、頂尖大學的優異人才、大公司的財力支持。可謂萬事俱備,因此AGI的時代會加速到來,從而為人類造福。
天才游戲少年
Demis Hassabis 1976年出生于倫敦,他4歲開始下國際象棋,13歲時成為了世界上同年齡段中位列第二的棋手。8歲在老式電腦上自學編程。1992年提前兩年完成高中課程。他在Bullfrog Productions找到一份電子游戲編程的工作,編寫的虛擬游戲Theme Park大賣1500萬張拷貝。
十幾歲的時候,Hassabis同時參加國際象棋、拼字游戲、撲克和西洋雙陸棋的比賽。1995年,在劍橋大學學習計算機科學時,又參加了學生圍棋錦標賽且成績出色。下棋激發了Hassabis對人工智能的興趣。當他下棋時也在思考,計算機是否也可以像人類一樣通過經驗積累不斷學習。游戲提供了脫離現實的完美學習環境。游戲世界純粹又包容,玩游戲不會受到干擾而且可以迅速掌握。
先搞定智能,其它問題就能迎刃而解
1997年5月,IBM超級計算機Deep Blue擊敗了國際象棋世界冠軍Garry Kasparov。這是計算機首次擊敗一位大師級棋手。這場比賽受到廣泛關注,也引起了人們對計算機不斷增長的力量和潛在威脅的擔憂。當時Hassabis產生了一個想法,他要把戰略游戲和AI結合起來,有一天,他會建立一個計算機程序,打敗最高段位的人類圍棋手。
Hassabis有條不紊地規劃職業生涯。1998年,他創辦了自己的游戲工作室Elixir,專注開發一款復雜的模擬政治游戲Republic: The Revolution。還在學校時,Hassabis就有這樣的想法:通過超級計算機來模擬復雜的世界動態,以解決最棘手的社會問題。當時,他試著在游戲中實踐自己的想法。不過現實很骨感,Elixir最終發布了精簡版的游戲但是反響平平。其它游戲也沒有成功。2005年4月,Hassabis關閉了Elixir。有人認為Hassabis創立Elixir只是為了獲得管理經驗。現在,在正式踏上AGI之路以前,他只缺少一個關鍵的知識領域——了解人類的大腦。
2005年,Hassabis在倫敦大學學院開始攻讀神經科學博士學位。他發表的關于記憶和想象力的研究很有影響力。一篇被引用上千次的論文顯示,患有健忘癥的人也很難想象新的體驗,這表明記憶和創造大腦圖像之間存在聯系。Hassabis所作的研究都是朝著AGI邁進。他大部分研究都回歸一個問題:人腦是如何獲得并保留概念和知識的?
2010年11月15日,Hassabis正式成立DeepMind。從那時起,公司的宗旨就一直沒有變過:先搞定智能,其它問題就能迎刃而解。也就是說,把大腦如何完成任務的理解轉化為計算機軟件,軟件可以使用相同的方法進行自我學習。
Hassabis并沒有假裝科學已經完全理解了人類的思想。AGI的藍圖不能簡單地從數百項神經科學研究中得出。我們對大腦的功能仍然知之甚少。2018年,Hassabis自己的博士研究結果甚至受到了澳大利亞研究團隊的質疑。所以DeepMind的起步工作還是很艱難。
Suleyman和Shane Legg加入了公司聯合創始人的行列。公司位于倫敦,許多新員工來自歐洲,有效避開了和谷歌、Facebook等硅谷巨頭爭奪人才。也許DeepMind成功秘訣之一就在于留住了最優秀的員工。
公司花大力氣發展的一種機器學習技術——強化學習,源于Hassabis所擅長了兩個領域:游戲和神經科學。建立這樣一個程序是為了收集有關其環境的信息,然后通過重復經驗來從中學習,就像Hassabis所說的“睡眠期間大腦活動”一樣。
在此之前,強化學習在計算機領域還是一片空白。程序顯示了一個虛擬環境,除了游戲規則,它什么也不知道。程序包含至少一個稱為神經網絡的組件。由計算結構層組成,可篩選信息,目的是識別特定特征或策略。每一層都在不同的抽象層次上檢查環境。起初,這些網絡的成功率很低。當他們嘗試不同的策略時,變得越來越老練,當成功時,也會得到獎勵。程序不會再次范同樣的錯誤。AI神奇的地方就在于它重復任務的速度。
DeepMind的AI項目在2016年獲得重大勝利,當年,AlphaGo在首爾舉行的五局三勝比賽中擊敗圍棋世界冠軍,震驚世人。2.8億人見證了AlphaGo的勝利,有專家曾預測人機對戰機器取勝還需要十年時間。次年,升級版AlphaGo擊敗了中國圍棋冠軍。
人類智慧將被人工智能超越嗎?
就像1997年的Deep Blue一樣,AlphaGo改變了人們對人類成就的看法。人類冠軍無疑擁有地球上最聰明的頭腦,可是他們已經被AI超越。近20年后,Hassabis實現了自己當年的野心,他說這場比賽讓他熱淚盈眶。
當年Deep Blue殺伐決斷,通過快速計算贏得了勝利,但是AlphaGo的風格看起來卻很有藝術氣質,幾乎是人類的風格。它的優雅、復雜以及卓越的計算能力,似乎表明,在治療疾病和管理城市等領域,DeepMind將比競爭對手走得更遠。
DeepMind控制權之爭
Hassabis一直說,DeepMind將使世界變得更好。但AGI存在不確定性。如果它真的出現,我們不知道它是善是惡,也不知道它是否會服從于人類控制。即便它聽從人類控制,那這個人類舵手又會是誰呢?
從一開始,Hassabis就試圖保護DeepMind的獨立性。他一直堅持讓DeepMind留在倫敦。Hassabis不愿交出自己一手帶大的公司。因此DeepMind制定了一項協議,阻止谷歌單方面控制該公司的知識產權。據知情人士透露,在收購前一年,雙方簽署了《道德與安全審查協議》。該協議將DeepMind的核心AGI技術的控制權交給了一個名為Ethics Board的委員會。Ethics Board為DeepMind提供了堅實的法律支持,以保持對其最有價值、也可能是最危險的技術的控制。小組成員的名字尚未公布,但據消息人士透露,DeepMind的三位創始人都是Ethics Board成員。
此外DeepMind在市場公關方面表現極好。AlphaGo就是典型的例子。自谷歌被收購以來,DeepMind多次創造了舉世矚目的奇跡。比如,一個軟件可以在眼睛掃描中發現黃斑病變。另一個程序使用與AlphaGo類似的架構從無到有地學會了下棋,僅僅花費九個小時。2018年12月,一個名為AlphaFold的程序被證明可以從復合物列表中預測蛋白質的三維結構,其準確率高于同行競爭對手,這有助于治療帕金森病和阿爾茨海默癥等疾病。
谷歌數據中心預計包含250萬臺服務器,DeepMind開發了一套算法,以優化谷歌數據中心冷卻方案,DeepMind深以為傲,因為谷歌因此降低了40%的能源成本。谷歌母公司Alphabet為這類服務付給DeepMind豐厚的報酬。2017年,DeepMind向Alphabet收取了5400萬英鎊。但與DeepMind的日常管理費用相比,這一數字顯得微不足道。那一年僅在DeepMind員工身上就花了2億英鎊。總體而言,公司在2017年支出2.82億英鎊。
谷歌收購DeepMind五年后,控制權之爭不可避免。考慮到Hassabis對事業的執著,他不太可能離開公司。他對金錢感興趣只是因為錢能幫助他完成事業追求。到目前為止,谷歌對DeepMind的干預還不大。但最近發生的一件事卻引發了對公司未來獨立性的擔憂。
2016年2月,DeepMind成立了新醫療保健部門DeepMind Health,由公司聯合創始人之一的Mustafa Suleyman領導。公司希望創建Streams項目,當病人的健康狀況惡化時,可以向醫生發出警告。DeepMind將獲得基于績效的費用。由于這項工作需要獲得有關病人的敏感信息,Suleyman建立了一個獨立的審查小組(IRP)。
2018年11月8日,谷歌宣布成立自己的醫療保健部門Google Health。五天后,公司宣布將把DeepMind Health并入母公司相關部門。Suleyman曾在2016年寫道:“在任何階段,患者數據都不會與谷歌賬戶、產品或服務相關聯。”但他的承諾似乎已經落空。不過DeepMind還是說:“在這個階段,我們的合同都沒有轉到谷歌,只有得到合作伙伴的同意,才會轉去谷歌。”合并激怒了DeepMind Health的員工。據消息人士說,一旦合并完成,就會有更多員工計劃離職。據多名知情人士透露,有員工于2017年12月辭職,原因是擔心合并后該獨立審查小組更多的是為了裝門面,而不會對病人隱私數據使用情況進行真正的監督。
這一事件表明,DeepMind的非核心業務容易受到谷歌的左右。DeepMind在一份聲明中對此次合并給出了正面評價。但是我們不禁要問,谷歌是否會將同樣的邏輯應用于DeepMind在AGI方面的工作。
強化學習
總體上來說DeepMind進步明顯。它的軟件可以模擬甚至超越人類學習執行任務。比如打磚塊游戲。沒有人類指導,DeepMind的程序不僅學會了玩這個游戲,而且還學會了如何把球打進磚塊后面的空間,利用球回彈來打更多的磚塊。Hassabis說,這證明了強化學習的力量和DeepMind計算程序的非凡能力。
這個游戲演示令人印象深刻,但有個問題。如果虛擬球拍移動得更高一些,程序就會失敗。AI項目所掌握的技能非常有限,即使對環境的微小變化也無法做出反應,除非接受數千輪強化學習。現實世界的變化太多了。對于智能診斷來說,沒有兩個身體器官是完全相同的。對于智能機械,沒有兩個引擎可以用相同的方式調整。因此,將虛擬空間中完善的程序投放到現實世界困難重重。
另外一個問題是,虛擬環境中的成功取決于獎勵機制:一個允許軟件衡量其進程的信號。程序了解到物體從墻上回彈會加分。AlphaGo很多編程工作都是在構建與復雜游戲兼容的獎勵函數。不幸的是,現實世界并不提供這種簡單的獎勵。政治因素使問題更加復雜化。要協調氣候健康的獎勵信號(單位體積二氧化碳粒子數)與石油公司的獎勵信號(股價),牽涉到許多動機矛盾的各方。獎勵信號往往非常微弱。而人腦在執行任務的過程中不會去想有沒有獎勵的問題。
DeepMind通過大量計算機電力找到了解決方法。公司最近專注于策略電腦游戲星際爭霸II,游戲早期所做的決定對后來會產生影響,這更接近于現實世界任務所特有的那種復雜而延遲的反饋。今年1月,DeepMind軟件擊敗了一些頂級人類玩家,給人留下了深刻印象。它的程序也已經開始學習經由人類反饋的獎勵功能。不過,把人類指令置于計算循環中,比起純粹的計算機處理,其計算規模和速度都會受到影響。
公司研究人員匿名表示,他們也對DeepMind能否通過這些方法達到AGI表示懷疑,專注于在模擬環境中實現高性能,這使得獎勵信號問題很難解決。然而,這種方法又是DeepMind的核心。
Hassabis的人生一直在和游戲打交道。就像公司的軟件一樣,Hassabis只能從以往的經驗中學習。在發明了一些有用的醫療技術,并超越了世界上最偉大的棋類游戲玩家之后,對AGI的追求最終還是可能會失敗。公司取得的成績斐然,卻不是Hassabis最終想要的。他仍然可以開創AGI的時代,就在谷歌的眼皮底下,但卻超出了它的控制范圍。如果這樣做,Hassabis將贏得最艱難的比賽。