2014年12月12-14日,由中國計算機學會(CCF)主辦,CCF大數(shù)據(jù)專家委員會承辦,中科院計算所與CSDN共同協(xié)辦,以推進大數(shù)據(jù)科研、應用與產業(yè)發(fā)展為主旨的2014中國大數(shù)據(jù)技術大會(Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大數(shù)據(jù)學術會議在北京新云南皇冠假日酒店盛大開幕。
2014中國大數(shù)據(jù)技術大會首日全體會議上,IBM 大中華區(qū)系統(tǒng)與科技事業(yè)部杰出工程師李永輝發(fā)表了演講“IBM Watson 大數(shù)據(jù)與分析平臺:技術評論”。Watson得名于IBM創(chuàng)始人Thomas J. Watson,在2011年IBM 100周年之際,Waston參加了Jeopardy危險邊緣電視游戲節(jié)目,在經(jīng)歷了三輪的比賽后,最終贏得了冠軍。Waston并不是一臺機器,是一個集群,一共有2880個節(jié)點。設計目標是能解答人類語言自然表達的提問,懂得分析大量非結構性數(shù)據(jù),擁有自我學習能力, 并能實時回應的計算機。目前在醫(yī)療、金融、跨行業(yè)應用和云端服務中都有所應用。
IBM大中華區(qū)系統(tǒng)與科技事業(yè)部杰出工程師 李永輝
以下為演講實錄:
各位嘉賓大家早上好,今天很高興參加2014中國大數(shù)據(jù)技術大會,今天很高興介紹一下Watson的系統(tǒng),大數(shù)據(jù)分析平臺技術概述。在座的如果沒有聽過Watson是什么東西,Watson有很多的東西講。Watson得名于IBM創(chuàng)始人Thomas J. Watson,在2011年IBM 100周年之際,Waston參加了Jeopardy危險邊緣電視游戲節(jié)目,在經(jīng)歷了三輪的比賽后,最終贏得了冠軍,獎金給了一個公益團體,這是我們Watson慶祝一百周年的活動。我除了介紹一下這個機器是什么平臺,用了什么技術,我也給大家展望一下我們往后走的方向,特別是大數(shù)據(jù)分析平臺這些。一百年的企業(yè)在前沿領域大數(shù)據(jù)繼續(xù)展現(xiàn),同時IBM中國今年剛好成立30周年,我們與中國共同成長。
IBM到現(xiàn)在編程方式處理數(shù)據(jù),還有一個結構化的數(shù)據(jù)分析,數(shù)據(jù)分析報表是過去幾十年的發(fā)展,我們會發(fā)現(xiàn)這些發(fā)展遇到瓶頸,瓶頸來自于大數(shù)據(jù)的產生,當你要處理大量數(shù)據(jù)時,要有新的方式處理數(shù)據(jù)挖掘關聯(lián)等等,同時我們采用編程的方式寫程序分析SQL的語句,做編程開發(fā),往后隨著數(shù)據(jù)量大幅度增加,你編程都編不及,時間來不及,數(shù)據(jù)量應用太大了。因此看到Watson,大家對它感興的原因,除了第二次人機大戰(zhàn)贏了人以外,另外開創(chuàng)了感知計算年代,處理一些傳統(tǒng)的應用以外,我們還可以用一種具備自我學習的機制,你不需要告訴計算機你要學什么東西,自動挖掘保留信息給你,根據(jù)傳統(tǒng)數(shù)據(jù)具備更新能力的發(fā)展。
從編程年代到感知計算年代,傳統(tǒng)采用了搜尋的方式,未來主動挖掘的數(shù)據(jù),傳統(tǒng)找數(shù)據(jù),搜尋機器都是有確定性的字眼,未來提供幾率,提供有證據(jù)證明給你參考做決定。
未來除了非結構的數(shù)據(jù),物聯(lián)網(wǎng)、車聯(lián)網(wǎng)甚至可穿戴設備產生身體數(shù)據(jù)等等,可能都會為將來的分析提供更多的維度的數(shù)據(jù)供應,還有人類自然語言的分析等等。IBM在這方面的調研會繼續(xù)延續(xù)下去,只不過未來的發(fā)展是多方位的。
Watson的樣子是什么樣?Watson不是一臺機器,實際上是一個集群,是IBM Power的集群。我們做一百周年人機大戰(zhàn)的時候,結合了優(yōu)秀的工程師、研究院還有硬件軟件平臺結合一起,集中起來做了這個平臺。這個平臺里面包含了10個機柜,5個在前面5個后面,里面有16TB的內存。響應是需要在兩三秒鐘做一個響應,因此我們很多計算分析都是在內存里面操作,它跑的操作系統(tǒng)今天我們也看到很多大數(shù)據(jù)的工具包等等都是在開源的社區(qū)。因此我們跑的操作系統(tǒng)有一些開源工具放在里面。
IBM把自身研究的工具放在里面,IBM貢獻給業(yè)界很重要工具,自然語言分析,UMEA,我們采用高度并行化架構來提供支持。同時我們里邊也做了一些深度大數(shù)據(jù)的分析,工具,還有我們采用了集群的方式,優(yōu)化環(huán)境等等,這是大概它的平臺介紹。
從這個平臺我們看到,發(fā)展下去我們會有怎樣落地方式?如果今天我們說中國有客戶感興趣,做這些有關的分析,從前我們是透過Watson平臺基于power7的平臺,今天已經(jīng)發(fā)布了power8,從8個CPU到128個CPU,簡單性能Watson提高一倍,而且他們提供非常大的內存容量。Power7到Power8 4.35赫茲,最高組頻的芯片,這個芯片也能提供8線程的并發(fā)度,在大數(shù)據(jù)的世界里面我們要做很多的并行的操作,里邊吞吐量非常好。
內存采用了記憶內存,在大數(shù)據(jù)處理中,內存的速度非常重要,速度是今天英特爾平臺的4倍,處理內存操作過程里面。我打包一個直接寫到內存,有問題一起回答,透過硬件來實現(xiàn),通過編程方式實現(xiàn)操作。這里簡單講講硬件差異,大數(shù)據(jù)領域有一個標準測試terasort,Power8做出來的結果超過英特爾公布出來最快數(shù)據(jù)的兩倍,IBM為什么做Watson平臺,有平臺支撐我們高速率的分析。
我們今天需要新辦法解決大數(shù)據(jù)的難題,IBM在Power8公開了標準,可以讓板卡直接插在主板卡跟CPU相連,這是業(yè)界的創(chuàng)新,也是一個開放的標準,這種標準我們有一個客戶做關鍵字的查詢,大數(shù)據(jù)非常常見的使用場景。terasort是一個開源工具,做了24臺機器,將來擴展數(shù)據(jù)要不停加機器,今天可以透過閃存把內存拓展開,板卡讀到內存空間,我們在一臺Power8機器里面插一個卡,接到閃存機器里面提供40個TB閃存空間,做數(shù)據(jù)交互,我只需要傳統(tǒng)24臺機器,我們只用一臺機器,兩個U的機器加兩個的閃存替代了原來四個機柜的方案,節(jié)省了成本3倍。
剛才講了很多硬件上面的創(chuàng)新,這個還不止,今天早上第一個議題提到,未來發(fā)展方向是開放開源等等,IBMPower現(xiàn)在也開放了,我們開放聯(lián)盟叫open Power聯(lián)盟,全球65家企業(yè)參加,包括谷歌自己開發(fā)了Power8樣板機,將來用在谷歌里邊。其中有11家在大中華區(qū)的企業(yè),我們開放給全世界,同時中國政府也非常感興趣,在過去幾個月,我們得到很多中國政府支持,兩個月前我們在蘇州跟工信部的副部長楊學山宣布了中國的Power技術產業(yè)生態(tài)聯(lián)盟的成立,未來我們再看到Power的芯片可能是在中國生產,這是一個真正的開放的一個平臺。
剛才大概講了一些硬件,接下來我從軟件方面講講Watson軟件。作為一個軟件,你需要有一個基準,怎么叫好怎么叫不好。我們開發(fā)Watson參加了精準問答游戲的節(jié)目,大家不要以為問答很簡單,你問一個問題我給一個很明確的答案,它的答案里面隱藏了很多雙關語,當我們回答那個問題的時候,我們是需要了解到整個問題它在問什么?要很有信心,而且要很快速做回答,是非常難的一個事情。
因此我們在分析里邊,我要設計一臺Watson機器擊敗人類,我首先要知道人類表現(xiàn)是怎么樣,在這個圖里面我們列舉了危險邊緣節(jié)目參加比賽人的結果,紅色代表贏家,灰色代表參加但輸?shù)舻娜耍t色的點聚在一起我們叫勝利者區(qū)域,如果我要發(fā)明一臺機器能打贏人,我一定要把我機器的能力分析能力處理性能提升到紅色的那個區(qū)域里邊才能夠勝利,所以我們看到從2006年,我們研發(fā)這個系統(tǒng)的第一代叫QA系統(tǒng),發(fā)展到Watson機器四年期間慢慢一步步來的,一開始那個線離勝利者區(qū)域很遠,那個圖的維度說,X族回答問題的百分度,游戲節(jié)目里邊提供了十道題,10道就100%回答,精準度就是回答正確度,答準就是100分,如果看到人類問答比賽結果還是非常優(yōu)秀的。如果機器要達到那種水平我們要有很多的優(yōu)化要做。
Watson在軟件怎么實現(xiàn)分析問答比賽的技術?我們采用技術叫深度答問,分析問題本質,把它解拆到多臺機器里面,并行做分析做搜尋對比,綜合起來得出一個結果。一條問題會產生很多組成的語義組成部分,通過語義分析抓取重要字眼,我會把一道問題做成很多條信息作為下一步的分析,這個過程是數(shù)據(jù)產生更多的數(shù)據(jù),更多的數(shù)據(jù)產生更多的數(shù)據(jù),一條問題最后產生上十萬的數(shù)據(jù)都不奇怪。
難點在于我需要在兩到三秒以后搶回答,搶不到會被別人搶走。當時我做Watson開發(fā),曾經(jīng)做了比較,一道問題用兩個小時才能分析出來結果,到最后我們落地超過2888個Power7那個機器,實現(xiàn)了兩到六秒之間的回復。回答的流程,一道問題是這樣子的,我把它分析里邊的關鍵字眼,透過關鍵字眼我會做一些搜索,搜索之后我會找到最簡單的回復答案,就是可能的答案,透過可能答案我再分拆到機器里面做搜尋找證據(jù)看那些關聯(lián)性等等。透過關聯(lián)性我到最后會做一個打分,打分出來以后會給機器做應答,如果我的信心度很高我就會搶答這個問題,如果我沒有信心我就不回答,回答錯誤會扣分,這是基本流程。
這個技術,剛才提到了里邊采用其中一個核心部分加UEMA,我們也理解到用戶有廠家支持的產品,開源的技術分裝給客戶做內部大數(shù)據(jù)的分析,在UEMA的數(shù)據(jù),結合語音分析解析可以做很簡便圖像簡示給各位,打包在一起通過數(shù)據(jù)接入抓取,透過解析,解析完以后通過操作到最后結合結果再做分析,一連串的一條龍服務,我們可以結合在一起。
雖然剛才提到watson,實際上操作都在內存里邊做才夠快,但實際上你想想看,當我要教育那臺機器,機器也需要培訓才具備應答的問題,每天都有這么多的數(shù)據(jù)產生,我也需要把那些數(shù)據(jù)可以進入那個機器里面,我要怎么樣管理。我們看到客戶做大數(shù)據(jù)也會產生另外一個難題,我經(jīng)常遇到開源很好,買了一大堆機器回來放在里面跑,一年加一臺機器,第二年加一臺機器,第二年又有新機器出來,難道我要買新的機器。經(jīng)常會看到資源利用率不足的情況,我怎么樣把資源調動起來也是一個難題,IBM也看到這個難題,我們也提供另外多部的調度平臺,除了本身支持操作,可以支持開源工具,開源編程方式好像一種潮流,我那個平臺可以支持一些開源的工具打包分裝一起,調動有效資源,只要提交作業(yè),看背后系統(tǒng)里面哪一個資源比較空閑就給你調過去。因此這種多租戶的解決方案,可以幫客戶有效解決在大數(shù)據(jù)里面面對很多項目很多用戶,多租戶環(huán)境調動資源。
Watson提到了,大企業(yè)遇到的難題跟我們小企業(yè)遇到的一個信息生命周期管理信息安全是一模一樣的,當你數(shù)據(jù)量最大,你處理數(shù)據(jù)更重要。因此當我們在做大數(shù)據(jù)的同時我們也要考慮到怎么樣有效管理數(shù)據(jù),其中Watson,雖然剛才操作是在內存里面操作,數(shù)據(jù)也要定期備份,我需要有一個能具備管理性可管理性的文件系統(tǒng)。IBM有一個叫GPFS的文件系統(tǒng),高度并行的普遍性的使用的文件系統(tǒng),這個系統(tǒng)已經(jīng)有超過15年的歷史,IBM所有高性能計算系統(tǒng)都用GPFS。GPFS提供的好處是可以彈性增加減少數(shù)據(jù)節(jié)點,同時高度并行化的關系,增加吞吐量,底層可以做分級存儲管理,你有一些數(shù)據(jù)很重要,像關鍵詞你可以存在高速閃存的硬件里面,如果幾十年前的數(shù)據(jù)放在比較慢的存儲里面,可以有效分級管理存儲,同時我也可以把數(shù)據(jù)透過GPFS詞帶,自動遷移過去,幫你有效解決數(shù)據(jù)管理的難題,同時也能夠提供接口,一般的文件系統(tǒng),CD等等,可以全都操作起來,等于說所有的那些管理工具、腳本都可以用在這個GPFS里面,Watson采用的方式把很多數(shù)據(jù)放里面,啟動把一些關鍵數(shù)據(jù)上載到內存里面使用,同時我有一個遠程復制的機制來提供遠程同步復制或者是跨地域非同步復制技術,可以讓全局的環(huán)境里面提供本地的數(shù)據(jù)也可以遠程數(shù)據(jù),提供一個文件系統(tǒng)給各位,同時將來我們也會提供一個網(wǎng)關接到開源或公用云存儲平臺里面去,這是GPFS環(huán)境。
Watson未來的計劃,剛才就講了Watson是IBM一百周年做的第二次人機大戰(zhàn)的平臺,用了公司研究院的名字,不可以輸。我們第一次人機大戰(zhàn)是1997年,可能在座00后的人沒有聽過,97年第一次人機大戰(zhàn)采用深藍的平臺,深藍的平臺是下國際象棋的平臺,那個時候采用Power2的機器,32個節(jié)點,今天我們Watson是90個節(jié)點,Power7,2287個節(jié)點,我們下一個計劃要落地,落地先挑一個行業(yè),第一個行業(yè)是醫(yī)療行業(yè)。為什么?Watson深度分析技術需要跟行業(yè)有很緊密的結合,我們當時挑選醫(yī)療行業(yè),怎么樣治療癌癥,收集醫(yī)療信息等等幫助醫(yī)生治療癌癥,還有金融行業(yè),目前發(fā)展跨行業(yè),最新今年公布的一些服務,在網(wǎng)上提供免費服務。
先講講挑選癌癥,我們把很多病例數(shù)據(jù)掃描到資料里面,幾十萬個期刊掃進去,病人之前病例掃進去,當有一個新的病人進來的時候,根據(jù)最新醫(yī)療期刊的建議給一個醫(yī)生提供具有證據(jù)醫(yī)療建議,首先要強調這個不是替代人類去做醫(yī)療做醫(yī)生,給醫(yī)生幫助他來解決那個難題,我們看到醫(yī)生也是人,他沒辦法每年花大量時間學習各新領域的內容,我們看到一年醫(yī)生能花5到15個小時學習新醫(yī)療的技術已經(jīng)非常了不起。我們有生物科技,有埃博拉等等,這些病是從來沒有解決的,我們通過機器幫你解決。下一步計劃,剛才提到了把Watson通過服務方式提供出來,我們已經(jīng)開放了,目前免費開放8個服務可以提供,你把一篇文章告訴它,掃描之后知道你的文字是用哪幾種文字,能辨析20幾種語言,能知道語言可以做下一步分析可以找到一個最合適的工具分析,做語言之間的轉換,根據(jù)你的語言文章判斷你用戶是什么類型用戶,比方他是外向的用戶、知識型的用戶等等幫你做個性化的服務給客戶。這里面的工具,現(xiàn)在提供的服務可能都是比較基礎型的,可能是提供文字的分析類型的辨析等等,未來我們看到會陸陸續(xù)續(xù)會有更多更多服務提供。
最后,剛才一早第一個講者李院士也提到,希望我們大數(shù)據(jù)領域是跨界的,跨得越遠越好,IBM也希望在這個領域跟中國客戶做更多跨界服務,大數(shù)據(jù)是一個新一代的自然資源,這是IBM總裁的說話,我們在過去一年間已經(jīng)跟很多行業(yè)做了一些跨區(qū)的合作,這也是表達了大家對IBM大數(shù)據(jù)發(fā)展支持研發(fā)能力的體現(xiàn),像最近跟騰訊網(wǎng)今年6、7月份世界杯期間做了IBM的語音分析,做了一些給世界杯的觀眾實時分析大家網(wǎng)上的評論來看每一場球賽熱點,哪一個球星是受到表揚等等這是非常成功合作項目。
最后給大家一個很簡單的短片,看看IBM watson還可以跨界到什么領域。