對于自然智能,有各種各樣的研究和著作,包括有人提出人腦內部的機理其實是量子計算。對于人工智能,目前還沒有一個大家都能夠接受的定義。在這個階段,沒有必要去過分追求哪個標準定義比較正確。我們不妨務實地來討論:現在的技術能允許我們做出什么樣的智能體系。
有兩種類型的計算系統被人類叫作人工智能。
第一種,本質上相當于“智能計算系統”(ICS)的子系統框架。它將數據作為輸入,從數據中提取信息并建立模型,將我們關心的某些現象轉化為知識。我們稱這種類型的人工智能系統為“通用智能系統”(General AI),并定義“通用智能”的意思是一臺機器獲取知識和實現目標的能力。
第二種,指具有類似人類的認知能力,能感知(“看”“聽”“感覺”),它們可以越來越多地推理和計劃,它們可以用感覺運動控制移動。我們稱這種類型的人工智能系統為“認知智能系統”(Cognitive AI),是具有感知、推理、規劃和感覺運動控制能力的機器。
人工智能系統的另一個二分法是“狹義AI”(Narrow AI)和“廣義AI”(Strong AI)。“廣義AI”是使用相同的算法來解決一大類問題的系統。原則上,“廣義AI”系統可以學習和適應以解決新的問題,而無須人為干預。“狹義AI”系統使用特定算法來解決特定問題,如下棋、識圖等。
總而言之,表1是對人工智能系統狀態的概述,并且是一個務實和可行的定義。
表1 人工智能系統狀態
通用人工智能系統的核心能力就是通過運用算法、計算體系,把知識從數據里提取出來。一旦有了知識,我們就可以做很多事情。我們可以預測,可以解決自動化問題,可以解決任何需要解決的問題。因為知識告訴我們人有什么需求,社會有什么要求,有了知識我們就可以找到答案。所以,人工智能發展的第一個層次就是通用人工智能。
最近幾年深度學習的突破主要是在感知層面,特別是視覺和語音識別,還有自然語言的理解。但這只是起步,接下來要做的是認知上的,因為感知只是把外部世界通過光感、聲音的振動,或者語言的交流,變成可以被系統識別的符號。最重要的還是理解它的意義是什么。系統看到一幅圖片,可以知道有什么樣的物體或人在里面,他們在做什么事情。
目前幾乎所有能見到的做人工智能的公司可以分別放在四個象限里面。大部分公司做的其實是“狹義AI”。“狹義AI”只解決一個問題,或者解決一個到兩個比較窄的問題,下圍棋、打牌或者開汽車都是“狹義AI”。與之相對應,“廣義AI”用同樣一個系統,可以解決所有的問題,那就與人的智能類似了。“廣義AI”是人工智能發展的長期目標,其真正實現至少還需要二三十年的時間。
現在,百度、谷歌、微軟、臉書等公司都在朝著“廣義AI”的方向努力。判斷人工智能的能力,或者判別是否真正是人工智能的標準仍然是,人類是否因此知道更多,做到更多,體驗更多。比如,百度基于海量的搜索數據做的很多技術分析,以前靠人去做幾乎不可能,而現在通過人工智能計算技術,我們得出了許許多多前所未有的知識和結論,人類因此而知道更多,也能因此去做很多前所未有的判斷,去實現更多不可能的功業。如具有代表性的無人駕駛技術、自然語言交互技術,使得人類的運動方式、感官方式都在逐漸發生變化。以前人類用眼睛來看、用耳朵來聽,以后我們可能不需要眼睛也可以看到,不需要耳朵也能聽到,人類將逐步擁有新的感知方式,也將體驗嶄新的世界。
因此,一切做人工智能的公司是否名副其實,都可以從以上角度來衡量:它屬于四個象限中的哪一塊?有沒有實力讓人類和機器一起知道更多,做到更多,體驗更多?
美國和中國都有很多公司說自己是人工智能公司。有的公司說云計算是人工智能,有的說大數據是人工智能,但這些都只是人工智能系統的一部分,最終判斷人工智能實力的是大數據、云計算、算法、訓練時間及其總投入以及軟硬件綜合實力等。
這種實力不是一蹴而就的,也無法一概而論。地上本沒有路,在披荊斬棘的道路上有不同的角色,也有不同的站點,每個人、每個企業達到的程度都不一樣。有人剛起步,有人身后已經留下大片果實。
百度大腦可以看作人工智能綜合實力的一個典型,對它的能力分解,能使我們更明晰人工智能行業的入門門檻及基本標準。如果一家號稱人工智能的公司以下能力皆不具備,那只能說這家公司還沒準備好真正進入這個領域。
百度大腦是硬件基礎、數據基礎和算法能力的緊密結合,是云計算、大數據和人工智能的三位一體,是百度技術戰略的核心。云計算是基礎設施、大數據是燃料、人工智能是發動機,聯合驅動著“互聯網的物理化”,將數字世界的互聯網技術和商業模式又送回到物理世界,全面改變社會。
云計算,名字在云端,卻是百度大腦最底層、最實體的部分,是IaaS(Infrastructure as a Service,基礎設施服務)。
百度大腦的超強計算能力就來源于這一層,是高性能計算硬件的集團軍。這個集團軍擁有數十萬臺服務器,并且采用先進的集群操作系統來統一管理,堪稱人工智能超級計算機。
為了深度學習訓練的需要,百度自主研發了GPU和FPGA(現場可編程門陳列)異構計算服務器,單機可擴展至64塊GPU/FPGA卡,對比傳統服
務器密度提升16倍,一臺服務器即可完成千億數據模型訓練;百度開創性地研制了基于FPGA的人工智能處理器,提供10Tops的計算性能,相對主流的20核服務器,計算效率提升60倍,在人工智能和大數據應用上,可以達到普通服務器4~8倍的性能。
但百度的優勢不只是單臺機器的優秀,更在于優良的系統,優秀個體的集成形成強大的總體作戰能力。針對GPU集群的智能調度和資源管理系統,可以實現計算、存儲和網絡資源的池化管理和動態調度,計算集群整體效率和平均使用率達到80%。將異構硬件用于線上產品,用戶請求時延降至1/5,計算效率提升數十倍。
這個系統涵蓋了國內最大的GPU/FPGA集群(全新的芯片技術),最大的HADOOP/SPARK集群(全新的并發數據處理技術)和運營效率最高的數據中心[全新的異構計算技術、整機柜服務器技術、100G RDMA(遠程直接數據存取)通信技術和運維技術],可謂馬力十足,提供了開發人工智能所需的計算能力。
它同樣燃料充足?;诙嗄攴沼诖笠幠I務,比如通過搜索和視頻技術,百度積累了大量的數據:萬億級網頁數據,數十億次搜索數據,百億級視頻、圖像和語音數據,百億級定位數據等。數據就是人工智能算法的燃料,是發展人工智能的又一基礎條件。
讓硬件與燃料結合的是優秀的算法和模型。百度匯聚了全球頂級科學家和工程師,在理論和實踐方面持續創新,搭建了全球最大的深度神經網絡,支持萬億級參數、千億級樣本、千億級特征訓練,神經網絡層數遠遠突破100層。
硬件動力、數據燃料和算法靈魂的結合,才產生出百度的PaaS(Platform as a Service,平臺服務)。百度PaaS與眾不同之處在于,人工智能作為一種橫向的服務貫穿全平臺。通過深度學習和機器學習技術,結合超強計算、海量數據和優秀算法,在語音、圖像、自然語言處理等方面擁有杰出的能力,打造出獨特的知識圖譜、用戶畫像和商業邏輯,并且向用戶全面開放。用戶可以非常方便地使用各種算法模塊、開發工具、數據引擎為自身的商業目的服務。我們形象地把不同的平臺稱作天算、天像和天工,分別針對智能大數據、智能多媒體和智能物聯網這三個領域提供服務。
在最上層的SaaS(Software as a Service,軟件服務),百度的人工智能很容易凝結成許多垂直行業解決方案,滲透到各行各業。但我們更追求與合作伙伴一起打造智能產業生態,例如教育云、金融云、交通云、物流云等。我們認為,對智能產業生態的構建能力也是判定人工智能價值的重要標準。
在硬件、數據、算法之上還有一個重要的衡量標準,那就是人工智能企業的文化,即人工智能企業的“軟實力”。搜索技術是人工智能的先驅,也是最早的互聯網數字化世界的門戶,其開發流程和技術核心為未來的人工智能奠定了基礎。首先,搜索引擎必須與很大規模的數據打交道;其次,搜索引擎必須同時有大規模的機器學習,人工來做是不可能的事,因為數據規模太大了;最后,也是最根本的一點,搜索引擎的開發流程和工程開發文化與人工智能系統的開發是非常吻合的,都以數據為主,通過抽取其中的特征、模式,然后用這個模式給用戶帶來價值。人們在搜索業務中結成的協作關系,形成的業務能力和工作習慣,都很適合人工智能業務發展,與海量數據一樣,積淀為人工智能企業的文化。所以陸奇在微軟的做法是,培養人才先從Bing開始。你做過Bing,你到其他什么部門都可以做,那些技術在搜索看來都是很簡單的技術。這個文化當然并不完美,但正如神經網絡一樣,可以在正確的方法指引下不斷發展完善。