人類與計算機之間的競爭一直都深受關(guān)注。1996年,IBM超級電腦“深藍”和世界冠軍卡斯帕羅夫的那場國際象棋比賽至今仍被人津津樂道。
15年后,人機大戰(zhàn)又再度上演:2月14日至2月16日,經(jīng)過為期三天的激戰(zhàn), IBM新一代超級電腦沃森(watson)最終在美國最受歡迎的智力競猜節(jié)目《危險邊緣》(Jeopardy)中,戰(zhàn)勝了該節(jié)目史上最出色的兩名人類冠軍選手。為此,本刊特意整理相關(guān)資料,回答幾個讀者可能最關(guān)心的問題。
1.沃森怎么這么強大?
沃森正是IBM所說的“負載優(yōu)化”系統(tǒng)。其硬件由10個機柜總共90臺Power 750服務(wù)器組成,每臺POWER 750服務(wù)器配備四路八核32線程3.5GHz處理器,內(nèi)存15TB,數(shù)據(jù)庫采用DB2,操作系統(tǒng)為SUSE Linux Enterprise Server,是一個總共擁有2880個POWER7核心的集群系統(tǒng)。
沃森的存儲平臺采用的是IBM公司2010年推出的集群NAS系統(tǒng)SONAS。SONAS可以從1個存儲節(jié)點擴展至30個,最大裸容量可達14.4PB。不過,此次為沃森配置的SONAS由48塊SATA盤組成,每塊SATA盤容量450G,因此總?cè)萘繛?1.6TB。由于采用的是RAID1配置,所以沃森的SONAS實際所存儲的原始數(shù)據(jù)是10.8TB,其中還有3TB的數(shù)據(jù)用于操作系統(tǒng)和應(yīng)用程序。
強大的并行計算能力只是沃森獲勝的關(guān)鍵之一,另一個關(guān)鍵則是算法。沃森是基于IBM“DeepQA”(深度開放域問答系統(tǒng)工程)技術(shù)開發(fā)的。作為沃森超級電腦基礎(chǔ)的DeepQA技術(shù)可以讀取數(shù)百萬頁文本數(shù)據(jù),利用深度自然語言處理技術(shù)產(chǎn)生候選答案,根據(jù)諸多不同尺度評估那些問題。IBM研發(fā)團隊為沃森開發(fā)的100多套算法可以在3秒內(nèi)解析問題,檢索數(shù)百萬條信息然后再篩選還原成答案輸出成人類語言。每一種算法都有其專門的功能。其中一種算法被稱為“嵌套分解”算法,它可以將線索分解成兩個不同的搜索功能。
例如,競賽中有一道問題是:“通緝罪犯,最近一次在巴拉多塔(Tower of Barad-Dur)出現(xiàn),這是一只巨眼,伙計們,你們會找到它的。”無論是沃森還是人要通過這些碎片信息找到答案。具體而言,沃森首先要通過巴拉多塔找到《魔戒》這部作品,其次,沃森要將眼睛和罪惡聯(lián)系起來,在魔戒中找到相應(yīng)的角色。巴拉多塔出現(xiàn)在魔戒中,罪惡的巨眼因此是索倫之眼,答案是索倫。當(dāng)然,沃森答對了這道題。
不過,沃森也“出過糗”,例如過錯把加拿大的多倫多當(dāng)作是美國城市。IBM表示將會繼續(xù)分析沃森為在競賽中答錯的那些問題,從而完善算法。
值得一提的是,當(dāng)年IBM為深藍專門定制了組件,而構(gòu)成沃森的組件市面都有銷售。
2.沃森與深藍的區(qū)別是什么?
相比深藍系統(tǒng),IBM中國研究院專家潘越在接受國內(nèi)媒體采訪時表示“最大的差異在于要面對的挑戰(zhàn)和應(yīng)對的算法方面。”
潘越解釋說:“國際象棋定義明確,主要涉及數(shù)學(xué),電腦可以輕易表示每一個游戲狀態(tài)及相應(yīng)步驟。《危險邊緣》則要求電腦必須理解人類自然語言。與國際象棋不一樣,人類語言完全是開放式的,往往模棱兩可,需要上下文才能理解意思。雖然我們可以輕松理解人類語言,但開發(fā)理解人類語言的電腦系統(tǒng)卻極具挑戰(zhàn)性。”
因此,在沃森的設(shè)計中,自然語言理解是其中的核心問題。特別是如何更快地利用已有的各種非結(jié)構(gòu)化和結(jié)構(gòu)化的知識來幫助自然語言的理解——因為本次沃森挑戰(zhàn)的《危險邊緣》是智力問答競賽,要求電腦必須理解人類自然語言。
“這中間又涉及到機器學(xué)習(xí)、大規(guī)模并行計算、語義處理等領(lǐng)域,沃森了不起的地方在于把這些技術(shù)整合在一個體系架構(gòu)里,來應(yīng)對自然語言理解的巨大挑戰(zhàn)。”潘越說。值得一提的是,IBM中國研究院先后有六位專家也參與了沃森的開發(fā)。
3.沃森比谷歌聰明嗎?
人機大戰(zhàn)一開始,沃森與谷歌搜索引擎相比究竟誰更智能。對于,美國《商業(yè)周刊》前科技編輯史蒂芬-貝克爾的看法是:沃森比谷歌更智能。
貝克爾認為,答案很簡單,谷歌現(xiàn)在還不能回答問題。谷歌只是提供一個查詢結(jié)果列表,將人類引導(dǎo)到與所查詢的答案相類似的答案上去,最終的判斷權(quán)仍然是人類來決定。沃森則是自己處理所有問題。它必須要解碼復(fù)雜的英語,窮盡所有可能的答案,并選擇其中一個,最終判定它是否足夠符合要求。不過,隨著科技發(fā)展,未來谷歌等搜索引擎很有可能像沃森一樣擁有精確回答問題的能力。
4.沃森真比人類聰明嗎?
科學(xué)研究顯示,人腦可容納1.25TB的數(shù)據(jù),大約相當(dāng)于一個具有100萬億次浮點運算能力的系統(tǒng)。因此,IBM高級顧問兼發(fā)明家Tony Pearson認為,從某種程度上而言,具有80萬億次浮點運算能力的沃森,其能力已經(jīng)達到人腦的80%。
特別是,盡管10.8TB的數(shù)據(jù)每次都會自動加載到沃森高達15TB的內(nèi)存系統(tǒng)中,但實際只有約1TB的數(shù)據(jù)用來回答問題。Pearson說:“沃森比深藍更象人類。像我們一樣,他只用了他海量存儲中的一小部分來回答問題。”
還有些人擔(dān)心這是否意味著超級電腦將很快超越人類智慧,潘越表示,目前超級電腦只是在某些特定領(lǐng)域表現(xiàn)出和人類可比的智力水平,有更多的領(lǐng)域還差的遠。潘越還表示,目前沃森使用了機器學(xué)習(xí)的技術(shù),已經(jīng)具有一定的學(xué)習(xí)能力,不過這個學(xué)習(xí)還是有指導(dǎo)的,完全的自學(xué)習(xí)能力還有待進一步研究和開發(fā)。
5.沃森的“就業(yè)前景”如何?
沒錯,沃森將會首先成為一名醫(yī)生。
美國哥倫比亞大學(xué)醫(yī)療中心和馬里蘭大學(xué)醫(yī)學(xué)院已與IBM公司簽訂合同,兩所大學(xué)的醫(yī)療人員將利用“沃森”更快、更準確地診病、治病。馬里蘭大學(xué)醫(yī)學(xué)院教授艾略特說:“當(dāng)病人特別多的時候,醫(yī)生來不及把病人的所有信息一一錄入計算機進行檢索,這時沃森就能派上用場。它的海量信息庫中存有許多發(fā)表在期刊上的專業(yè)論文,可以讓醫(yī)生利用最新科研成果治療病人。”
近日,IBM又宣布將與Nuance Communications公司合作,將語音識別功能引入到醫(yī)生助手服務(wù)中,“可能只需要18個月就可以推出這項服務(wù)了”。
當(dāng)然,除了醫(yī)療系統(tǒng)之外,超級電腦在金融、電子、能源與電力等多個行業(yè)領(lǐng)域?qū)⒂兴鶓?yīng)用。