決勝時刻已然來臨
IBM與甲骨文公司最近以來意見分歧明顯,雙方都在嘗試從不同角度出發拿出解決方案;但這兩家IT巨頭企業也不約而同地認為仍然會有一些客戶對通用型設備不感興趣,并因此在不斷對運行特定軟件堆棧以處理特定工作負載的機型進行調整。
IBM將此項目稱為“工作負載優化系統”,而甲骨文則將其命名為“工程化系統”。這些設備到底有著怎樣的廬山真面目,又真的會在市場上與客戶見面嗎?
甲骨文在為其Exadata以及Sparc SuperCluster設備的宣傳上可謂不遺余力;反觀IBM則比較低調,其Smart Analytics System、DB2 PureScale數據庫集群以及Netezza數據倉庫設備在推介方面都顯得波瀾不驚。
但是作為一家系統產品領域的晚學后進,甲骨文公司是從去年七月份斥資74億美元收購Sun后才進入角逐圈,因此宣傳攻勢較為主動也就可以理解了。這樣初來乍到的新人若羞于振臂高呼,實在很難引起客戶的關注。
Sun在x86服務器系統的競爭中敗下陣來,而甲骨文由此意識到自己必須采取與之不同的發展策略,以期與系統領域的霸主藍色巨人展開長久的周旋。
就在一年多之前Sun收購項目完成時,惠普-甲骨文數據庫設備針對名為Exadata的甲骨文數據庫系統做出了一次重要的存儲服務調整。這次調整奠定了如今Exadata數據庫集群、Exalogic應用程序服務集群及其基于Sparc超級集群系列的基礎。
最初的惠普-甲骨文設備擁有八個ProLiant服務器節點,并行運作著由甲骨文出品的11g數據庫;其整合工作由Real Application Cluster(簡稱RAC)集群軟件負責。這就使得數據庫的并行處理、容錯性以及可擴展性得到了堅實的保證。
Exadata存儲節點利用一種混合型分欄算法對數據庫文件進行壓縮,因此其占用空間較小且檢索過程也變得更快。它還會在將壓縮數據傳遞給各11g數據庫節點之前,通過甲骨文11g代碼對SQL查詢指令加以預處理。
惠普-甲骨文數據庫設備中的數據庫及存儲節點運行Linux系統,并通過20Gbps的無限帶寬網絡相互連通。
甲骨文公司看到勝利的曙光
甲骨文在收購Sun公司之后,旋即對硬件進行了一次大幅度修整。具體來說,他們為Sun的Constellation服務器添加了速度更快的無限帶寬網絡及內存加速服務器平臺,這一加持使得設備整體性能有了顯著飛躍。
而在其后的2009年9月,即宣布Sun收購項目及后者正式停止運營的期間內,甲骨文公司將正處于上升階段的系列設備整體放棄,并在其后把系統核心中的存儲服務機制命名為Exadata。此番變動使得系統在運行甲骨文數據庫工作負載時,其在線交易處理能力(簡稱OLTP)及數據倉庫處理能力有了大幅提升。
甲骨文公司迄今為止已經售出了超過一千臺此類Exadata設備,并宣稱將在2012年5月的年度財報收官之前再售出三千臺。
目前Exadata數據庫設備已經擁有兩個成員,而甲骨文公司很可能在其將于明年在舊金山舉辦的2012 OpenWorld客戶大會上公布另一款系列新產品。
初探Exadata
于去年九月份推出的Exadata X2-2以Sun公司名為Exadata V2的初代Exadata設備為基礎,在硬件上加以改良的換代產品。
在配置上,Exadata X2-2分為四分之一、二分之一及全機架三個檔次。其硬件基礎為使用英特爾至強5600處理器的雙插槽服務器節點;而同樣于去年九月份面世的Exadata X2-8則采用英特爾至強7500處理器。
Exadata X2-8數據庫節點擁有八個處理器插槽,而至強7500處理器則使得每個插槽具備了更多運算核心,同時主內存也更為龐大。這意味著該設備能夠運行更為繁重的工作負載實例且不必過分依賴于RAC提供的可擴展性。
甲骨文 Exadata X2-8 OLTP/BI 集群機箱
Exadata X2-2機架可以容納八臺Sun Fire X4170服務器,其中每一臺都擁有兩個六核心3.06GHz至強X5675處理器以及11g與RAC數據庫節點。各個節點具備的主內存高達96GB(最大可擴展為144GB)、四個300GB容量的萬轉SAS硬盤、兩個QDR無限帶寬端口以及四個千兆以太網端口。
機架中還部署了三個甲骨文自主研發的36端口QDR無限帶寬交換機,其作用是橫跨各個數據庫節點并將它們與Exadata存儲陣列相連接。Exadata每個單元都以Sun Fire X4275雙插槽至強服務器為基礎,同時擁有甲骨文自家的F20 FlashFire PCIe閃存模塊。各模塊的內存容量為96GB,通過PCI-Express 2.0接口接駁于設備之上。
這些X4275服務器預留的空間足以容納12塊硬盤,而甲骨文提供的硬盤選擇有兩種:一萬五千轉高性能600GB SAS硬盤以及七千二百轉高容量2TB SAS硬盤。
每個機架由十四個上述Exadata陣列構成,總核心數為168個,記憶體總量為5.3TB,用于處理即將傳遞至數據庫節點的數據。
Exadata數據庫節點能夠運行甲骨文的Linux或者Solaris 11 Express開發版本,而且不出意外的話也會支持家族新成員Solaris 11生產版本。Exadata存儲服務器則只采用Linux系統。
甲骨文公司宣稱在硬盤讀寫速度合格的前提下,Exadata X2-2擁有25GB每秒的硬盤帶寬;而內存驅動器帶寬則達到驚人的75GB每秒,也就是說11g數據庫在這種情況下將優先處理來自閃存的數據,硬盤則由于速度限制而不得不退居二線。
Exadata X2-2機架在數據讀取速率上能夠達到每小時12TB,而可用的非壓縮容量則達到45TB;同時其每秒硬盤讀/寫操作數量(簡稱IOPS)為五萬次,而每秒閃存讀/寫操作數量則為一百五十萬次。
高容量選項能夠提供三倍的可用數據庫容量,但硬盤IOPS則相應降低到原來的一半。無限帶寬交換機最多支持八臺Exadata X2-2機架互連,但目前還不清楚RAC在多集群交互方面的實際表現。
成本核算
無論客戶選擇高容量還是高性能方案,價格方面并沒有區別:每套機架110萬美元。Exadata存儲服務器中的每個硬盤要收取一萬美元的軟件授權費,也就是說每個存儲節點的開銷為12萬美元,而使用全部14個存儲節點將帶來168萬美元的開支。
甲骨文公司的數據庫軟件并不包含在設備支出或者RAC授權費當中。11g企業版數據庫的售價為每核心47500美元,乘以0.5的因數后為23750美元;而RAC的售價則為每核心23000美元,折后為11500美元。因此在Exadata X2-2整套機架96個核心的基礎上,軟件授權費折前為447萬美元。
Exadata X2-8使用的是八臺X2-2全機架配置所使用的雙插槽服務器,差別在于將雙插槽更換為擁有八個插槽的Sun Fire X4800服務器,該服務器于去年六月推出。全部數據庫節點都配備有英特爾至強X7560處理器,擁有八個主頻為2.27GHz的核心。
X4800服務器的標準配置為1TB主內存,這一容量比之X2-2數據庫節點的內存配備高出十倍有余。此外,X4800服務器還擁有八塊300GB的萬轉SAS硬盤以及八個QDR無限帶寬端口,用于將Exadata存儲節點中的交換機與其它集群中的節點將連。
甲骨文公司一向小心謹慎,因此不出意外地,這一次他們也沒有明確給出X2-2與X2-8之間的性能基準比照;但顯然二者在Exadata存儲系統的接納及處理速度上是相同的。X2-2擁有96個核心,而X2-8的核心數量則為128個,不過至強5600核心的運算速度又快過至強7500核心。
但我們也必須要考慮到使用RAC所帶來的額外支出。一套雙節點集群比起八節點集群來無疑能節省大量授權金,而在1TB龐大內存的支持下,我們也許可以將整套數據庫系統都運行于一個節點當中。無論具體怎樣選擇,大家都能夠將八套X2-8機架整合在一起,而甲骨文Linux及Solaris 11 Express的配備也能應用于數據庫服務器。
我們目前明確了解到的是,Exadata X2-8機架售價為165萬美元,這比X2-2設備貴出了一半。而128核心下的11g及RAC堆棧售價為226萬美元,這在軟件支出上也比X2-2設備貴了三分之一。Exadata存儲軟件的額外開銷也遵循此例。
總而言之,X2-8的折前價格為559萬美元多一點,高出全配置X2-2機架系統四分之一左右。
盡管甲骨文公司傾向于將Exadata設備描述成處理OLTP或是數據倉庫工作負載的最佳選擇,但客觀來講運行OLTP工作還是應該選擇數據庫節點較多的方案;因為這種結構與客戶們過去常用的SMP(即對稱多處理機)節點方案更為相似。
無論客戶想使用哪種節點搭配方案,甲骨文公司都已經放出售價并提供像兩臺數據庫服務器加三臺Exadata存儲服務器這樣的配置組合,以迎合小型企業的使用需求。
IBM采取的多樣化路線
與將Exadata設備作為業務處理及數據倉庫最佳解決方案的甲骨文不同,IBM公司為不同的業務需求準備了多樣化的設備選擇——而且他們很可能堅信自己的System Z與Power 795 SMP服務器在大多數OLTP任務的處理能力上優于甲骨文的Exadata集群。
IBM公司確實在AIX系統中的DB2數據庫方面擁有一套不錯的并行執行方案,該系統名為PureScale,并且自1994年公布以來已經售出了三十二套這類用于事務處理的Parallel Sysplex集群設備。此外,他們還打造了一套名為DB2 Multisystem的Parallel Sysplex集群技術,自1995年推出以來為其AS/400系統及DB2/400數據庫提供了相當大的支持。
而就在今年九月份,IBM公司將PureScale與經過大幅調整的WebSphere中間件相結合,創造出了另一套名為WebSphere業務集群設備的全新并行數據庫。該數據庫的目標在于應對任務密度較大的交易處理環境——例如預訂系統及財務處理系統——而這一領域此前是由IBM的Z及大型機業務處理設備環境負責的。
IBM公司在數據倉庫方面也留有后手。不僅有以x86為基礎、具備數量處理硬件加速(這一點與甲骨文Exadata頗為相似)的Netezza設備,Smart Analytics System(即智能分析系統)也是這方面的主力之一。后者針對x86、Power以及大型機服務器進行了分別調整,并包含了InfoSphere數據倉庫與Cognos分析軟件;各項功能不僅緊密契合,同時也通過調整得以與各類機型并行不悖。
DB2 PureScale是IBM數據庫領域的一大特色產品,但卻沒有像甲骨文那樣將其當作獨立的設備系列;目前其只能運行于安裝了AIX系統的Power System之上。
就在2009年10月PureScale公布之時,甲骨文公司正不遺余力地宣傳Exadata集群。因此出于推廣的需要,曾有種說法稱PureScale將被移植到Windows及Linux系統當中,但事實證明這一消息并未成真。IBM公司同樣不可能將DB2 PureScale集群產品交給HP-UX或是Solaris,盡管其中根本不涉及任何技術方面的難題。
與來自甲骨文公司的Exadata集群一樣,DB2 PureScale也采用了無限帶寬技術,用以將配備了AIX以及DB2的多個服務器節點連接起來。
PureScale設置了一個指定的數據庫接入節點,這種做法與并行超級計算機集群中的首節點頗為相似。PureScale管理著業務處理過程中的數據庫字段鎖定工作,而集群中各節點在作為OLTP流程中的一部分相互搜索信息時,其內存鎖定與解鎖工作也盡在監控之下。
在無限帶寬技術的遠程直接內存訪問功能的輔助下,各節點間的連接極為緊密,也就是說處理器被隔離于網絡堆棧之外,這與TCP/IP集群技術大不相同。中央緩存服務器還擁有一套鏡像體系,這樣單獨組件的故障就不會引發什么了不得的大麻煩。
IBM公司表示,PureScale方案減少了節點之間的通信阻礙,而這種阻礙正是并行數據庫在實施過程中的最大絆腳石。同時PureScale在Power處理器上使用的12X遠程讀/寫端口也切實提高了內部節點的通信速度。這種12X 讀/寫端口是一種經過IBM自主調整的無限帶寬技術的衍生物,用于通過磁盤控制器、硬盤或是固態硬盤以遠程方式滿足業務處理中的讀/寫需求。
Netezza的勝出機會
如果大家需要建立一套數據倉庫系統,那么Netezza絕對是值得考慮的好選擇,這家公司于去年九月份被IBM以17億美元的價碼收入囊中。Netezza是一家發展勢頭極為迅猛的數據倉庫設備制造商,其擁有多種定制型開源PostgreSQL數據庫,并研發出一套現場可編程門陣列(簡稱FPGA)的協處理器產品作為SQL預處理之用,這與甲骨文公司在Exadata集群中所使用的Exadata存儲服務器在原理上不謀而合。
不僅如此,該公司還在IBM的BladeCenter刀片服務器上鼓搗出了一套名為TwinFin的設備,并且與日本服務器制造商NEC私下里眉來眼去。IBM公司當然不可能坐視這一頗具潛力的后起之秀投入競爭對手的懷抱。按理來說,IBM公司從長遠角度必然會采用一些Netezza設備所擁有的技術,并將其應用到各類并行數據庫系統當中。
最初的Netezza設備以Power架構為基礎(這套架構并非直接取自IBM,而是來自IBM的某家原始設備制造商)。基于IBM刀片服務器的TwinFins設備于2009年8月推出,擁有一臺HS22雙插槽至強5500刀片服務器,并配備了一臺擁有八套FPGA系統的協處理服務器——每套系統具備一個x86核心。
這種組合被命名為S-Blade;FPGA系統使數據由存儲設備傳遞至PostgreSQL數據庫的過濾速度大大提高,同時也解決了由數據庫列表及壓縮管理所帶來的復雜的排序及連接工作。
IBM的高容量數據倉庫產品——Netezza C1000設備
在收購結束后,IBM公司將這臺并行數據庫設備命名為Netezza 1000。一臺單獨的Netezza 1000設備包含了12套S-Blade組合,擁有總計96個x86核心(這與Exadata X2-2相同)。該設備具有32TB的可用無壓縮數據空間,并提供了每小時3TB的載入速率及每小時4TB的備份速率。
HS22刀片服務器采用紅帽企業級Linux 5.3,IBM公司還為DB2、Informix、SQL Server、MySQL、甲骨文、Teradata、Sybase以及RedBrick數據庫準備了各類端口工具,旨在使以上各類數據庫與Netezza的PostgreSQL衍生產品相交互。
Netezza 1000設備最多可以在同一個鏡像中容納十套機架的內容,這比Exadata設備還要多出兩套。
今年六月,IBM公司推出了著力打造的Netezza設備新產品——C1000機型。這一新機型包含了四套S-Blade組合及十二個硬盤接口,這使得一臺機架的非壓縮數據庫空間達到了144TB(顯然這種配置使得用于數據預處理的運算核心大幅減少)。
該設備最大擴展能力為八機架,由此帶來的32套S-Blade組合提供了總計256個核心及FPGA系統,可用空間也達到1.15PB。Netezza在數據壓縮方面的表現為略低于4:1,這使用戶的可用容量進一步得到提升。
IBM公司給出的高容量型Netezza設備定價為每TB 2500美元,而標準設備的定價則為每TB 10000美元。顯然硬盤比CPU及FPGA經便宜得多。
來自IBM的其它機型
就在甲骨文忙于吞并Sun公司之時,IBM還沒有收購Netezza。在這一階段,IBM推出了并行數據倉庫系列產品以及名為Smart Analytics System的分析型設備。
原始機型以中端Power 550服務器集群為基礎,配備了雙核Power 6處理器、32GB內存,各節點間的連接則由Juniper網絡公司提供的千兆以太網交換機負責。由四個服務器節點共享的DS5300磁盤陣列通過光纖通道適配器相互連接。
在最初的Smart Analytics System中,其服務器節點運行的是AIX 6.1系統以及IBM的通用并行文件系統,各節點的自動管理則由Tivoli系統自動化負責。集群中的每個節點都配備有Cognos 8模塊,其中包括BI Server、Go Dashboard以及BI Sample。
其它三臺設備則共同瓜分剩余的十二個運行著IBM InfoSphere數據倉庫(由DB2 V9.5數據庫衍生得來)的邏輯分區,并提供總計12TB的用戶空間。這一設置最大可擴展為通過19個機架提供53個數據庫節點、支持約5000個命名用戶以及總計200TB的可用空間。
去年四月,IBM公司進一步擴大了Smart Analytics System的產品陣容,將以Power 7為基礎的系統集群引入其中。他們還為新成員添加了以System X x86服務器及System Z大型機為基礎的衍生產品,同時將底層數據庫系統升級為DB2 V9.7發布版,并提供了一套閃存存儲方案以迎合由于SQL處理任務較為繁重而帶來高I/O性能需求的客戶。
Smart Analytics System 5600以IBM的System x3650 M3服務器為基礎,這臺2U機架服務器擁有兩塊英特爾至強5600系列處理器。IBM不惜為其服務器節點砸下主頻高達3.33GHz的六核心至強X5670處理器,并提供了8GB、32GB以及64GB三種內存選擇。
該設備最多能夠支持288GB主內存,并擁有十六個普通硬盤或者固態硬盤接口。這些服務器節點配備了IBM DS3500磁盤陣列,具備24 x 2.5英寸的外設托架,能夠以附加外設的方式支持最多192個外接設備,并可以通過光纖通道或SAS適配器連接到服務器。
服務器節點運行SUSE Linux Enterprise Server 11。該軟件堆棧包含了與原始Smart Analytics System相同的InfoSphere數據倉庫擴展、DB2以及Cognos 8分析工具,而Fusion-io固態硬盤則作為提升每秒讀寫能力的備選方案存在。
IBM公司還拿出一套名為5710的系統,作為Smart Analytics System在x86設備上的衍生產品。這套系統以System x3630 M3服務器為基礎,其2U機架服務器擁有14 x 3.5英寸以及28 x 2.5英寸兩種磁盤尺寸配置。該設備采用3.06GHz主頻的至強x5667處理器,最大主內存容量為192GB。因此我們可以為這套5710節點配備更大的硬盤空間,但相應的內存容量相比5600節點則有所減少。
Smart Analytics System 7700于去年十月份發布,其對原始集群進行了一定程度的升級,并以于去年八月發布的IBM Power 740服務器為基礎。Power 740是一套雙插槽服務器,能夠配備四核心、六核心乃至八核心的Power 7處理器,主頻則在3.3GHz到3.7GHz之間。該設備原本的主內存容量上限為256GB,但只要IBM公司對單條16GB的DDR3內存提供支持,其內存上限將可達到256GB。
根據具體型號的不同,我們可以在每個單元中獲得六個或八個2.5英寸的600GB SAS硬盤接口。這套7700并行系統使用與DS3500同樣的外部磁盤陣列,并在AIX系統中采用InfoSphere數據倉庫及Cognos 8堆棧——有趣的是,此處采用的仍然是AIX 6.1版本,而非去年針對Power 7設備所發布的AIX 7.1。
IBM Smart Analytics System 7700 DW/BI集群
最后,出于IBM公司對大型機始終如一的偏愛,Smart Analytics System家族中的9600產品也就應運而生了;該設備采用來自System Z大型機的Z/OS分區作為數據庫服務器,而Cognos分析工具則運行于Z/Linux分區中。
在標準配置中,其硬件選擇主要以System z10 BC中端大型機為基礎(目前還沒有升級為今年六月發布的、處理引擎更強的System Z Enterprise 114)。
Smart Analytics System的大型機版本在一套BC級大型機中部署了兩個分區,一個運行z/OS以及DB2數據庫,而另一個則運行Linux以及Cognos工具。該設備能夠運行最大尺寸為100TB的數據庫,大家可以根據自己的實際需要利用Parallel Sysplex集群工具對容量進行擴展。IBM公司拋出DS8700外部存儲陣列作為數據保護機制,并聲稱9600設備能夠支持最多一萬名用戶。
Smart Analytics System 9600的具體售價信息尚未公布,但一臺5600級機架設備的售價為214萬美元,而7700級機架則售價449萬美元。如果大家想利用Fusion-io固態硬盤讓自己的5600級機架錦上添花,那么總售價則會飆升為368萬美元。
IBM公司還沒有為Smart Analytics System 7700設備提供固態硬盤選項,但當Power 7+處理器面世時客戶大概就能獲得這一新方案。
齊頭并進: SunCluster與Exalogic
說到這里,我們所提及的各種設備還只是甲骨文與IBM巨大產品儲備的一小部分。更多重量級的成員同樣不容忽視,而且無疑大多數還是來自Larry與藍色巨人旗下,當然二者的競爭對手們也準備了自己的殺手锏,作為迎合客戶特定集群需求的解決方案。
甲骨文陣營中最不應該忽略的就是Sparc/Solaris基礎,其只認Sparc平臺(連Linux系統都不認)、堅決運行甲骨文11g/RAC應用程序的硬派作風令人印象深刻。在今年九月末的OpenWorld大會之前,甲骨文公司搶先推出了一套Sparc SuperCluster配置,其上配備了Sparc T4-4四插槽服務器、Exadata存儲服務器以及通用型ZFS磁盤陣列。
甲骨文Sparc SuperCluster T4
具體來說,Sparc SuperCluster機架包含了四臺Sparc T4-4服務器,每臺服務器各采用四塊八核心主頻3GHz的Sparc T4處理器。總體看來,這四個用于運行甲骨文11g及應用程序代碼的節點具備4TB內存以及97TB至198TB不等的硬盤容量(視客戶選擇而定)。
這套機架擁有多個QDR無限帶寬交換機以及8.66TB的Exadata閃存存儲陣列,其每秒字符讀寫次數可達120萬次。甲骨文的ZFS 7320存儲陣列也包含于其中。這些數據庫節點能夠運行Solaris 10或是Solaris 11。到目前為止SuperCluster的售價尚未公布。
另一款頗具亮點的甲骨文工程化系統是Exalogic Elastic Cloud,這是一套經過專項調整用以運行甲骨文WebLogic應用程序服務器虛擬化實例的設備。在全機架配置中,Exalogic集群擁有30臺1U機架服務器,其運算核心數量高達386個,處理器采用主頻為2.93GHz的至強X5670。
每個節點具備96GB的主內存,這與Exadata X2-2節點的配置相同,同時機架外部硬盤容量為40TB。QDR無限帶寬技術被用于節點之間的互連,這使得各服務器之間得以并行運作;而千兆以太網交換機則用于將應用程序服務集群與外部世界相連通。
Exalogic集群中的秘密武器被稱為Cache Coherence(即高速緩存一致性)。顧名思義,這款網格軟件的作用是讓三十臺服務器成為一個巨大的應用服務器整體,進而為外部環境所調用。
Cache Coherence覆蓋著應用服務數據及工作負載的均衡、同步、存儲及劃分工作。
甲骨文使用自有的紅帽企業級Linux,其Xen管理程序及JRockit虛擬機中的資源交換文件用于運行WebLogic應用服務(JRockit以及WebLogic是如何劃歸甲骨文麾下的呢?沒錯,還是通過收購)。Exalogic集群應用服務器的售價同樣尚未公布。
有點頭痛腦熱?聽聽沃森大夫怎么說
IBM公司在其BlueGene大規模并行超級計算機上部署了一套原始版沃森問答機,但最終他們決定將主要精力放在以Power 7為基礎的Power 750高負載服務器上,旨在通過JeoPardy!問答節目發起一項機器向人類智力挑戰的空前壯舉。
盡管沃森的象征意義大于實際意義,但不可否認這是一項確確實實的科學成果;事實上在藍色巨人不遺余力地投資背后,該項目除了在紐約的IBM約克鎮高地研究機構中嗡嗡作響外并沒帶來什么切實的收益。
IBM的沃森問答系統
沃森設備的十個機架全部由Power 750服務器構成,Power 7核心數量總計達到2880個,主內存也高達16TB。
沃森憑借龐大的內存配備以及來自Juniper的高速千兆以太網交換機處理節點之間的交互,并利用DeepQA軟件堆棧的并行特性通過數據庫搜索迅速找尋關鍵字,最終給出回應。
該設備在競賽中向Ken Jennings發起沖擊,并順利終結了這位曾在節目中獲得74連勝的頂級選手;一同遭到淘汰的還有Brad Rutter,他在兩千年初曾在競賽中贏取到325萬美元的獎金。
在內存中創建出一套數據庫文本,創建過程以Apache Hadoop MapReduce算法及雅虎的HDFS文件系統為基礎,同時模仿了谷歌的搜索引擎業務處理方式。
該堆棧同時包含了一組名為非結構化自信管理架構(簡稱UIMA)的代碼,這是來自IBM公司的數據庫大師們于早在2005年就創立的一套框架,旨在幫助企業應對諸如文本、音頻及視頻流等類型的非結構化信息。UIMA代碼的執行使沃森具備了處理自然語言及分析文本信息的能力,并在幫助找出Jeopardy!節目中問題的線索方面表現卓越。
IBM公司正與哥倫比亞大學的教授與研究人員以及來自Nuance和Wellpoint保險公司的語音識別專家們一道,嘗試將沃森的能力引入商業化醫療專家系統。
就在沃森贏得Jeopardy!競賽節目的數周之后,我曾經親眼見證過這臺設備的測試流程。而且當它存儲了大量醫療期刊及百科全書的信息之后,確實在各類鑒別及診斷問題上交出了相當令人滿意的答卷(盡管其表達能力與豪斯醫生仍然存在差距)。