摘要:通過打造其沃森和SPSS預測分析,IBM的云機器學習服務能夠滿足開發人員、數據科學家和企業組織的相關需求。
早在2011年2月,IBM公司的沃森 AI人工智能系統在美國最受歡迎的智力競賽節目Jeopardy上,通過人機大戰成功打敗了兩位從Jeopardy節目中脫穎而出的參賽者,從而引起全世界的關注。而IBM公司也一直在致力于運用沃森系統解決更有趣的問題,而不僅僅只是回答一些智力競賽問答。IBM還將沃森相關功能進行了擴展,以便能夠服務于開發人員,數據科學家,甚至普通的商業用戶。除了IBM公司的SPSS預測分析軟件之外,沃森還形成了IBM公司在機器學習和高級先進分析方面的云服務產品的基礎。
IBM公司的沃森系統分為五個部分:機器學習、問題分析、自然語言處理、工程特征、本體分析。通過這五個組成部分,IBM公司已經建立起了一整套的云服務產品組合,您可以借助其來打造您自己的迷您沃森,從而幫助解決您的問題。(請注意,基于現成的答案編寫知識庫是很簡單的:在智力競賽節目Jeopardy上,95%的問題均可以通過搜索到的維基百科文章的標題來回答。)
與此同時,IBM公司正在通過合作開發,以便將沃森技術應用到企業水平的醫療衛生、地震防御與救災、教育和基因組學領域。雖然這些方面的努力無疑都是非常有趣的,尤其是從長遠方面來看的話,但為了撰寫本文,此次對其進行測評審查的目的,我則將會把重點專注于沃森和其他可用于IBM云服務的機器學習(ML)技術方面,包括Bluemix PaaS的使用。
其他的機器學習(ML)高科技都包括哪些?在IBM公司幅員遼闊的帝國的一個遙遠的角落,IBM SPSS為SPSS Modeler打包
提供Windows和云服務部署,此外還加上一項預測分析服務,其可以在BlueMix PaaS和周期性批量作業實時運行其模型預測,以更新模型。IBM SPSS Modeler能夠與微軟Azure機器學習和Databricks兼容,而且IBM沃森服務還能夠與微軟的牛津項目(Project Oxford)和Cortana分析,以及惠普企業公司推出的Haven OnDemand相兼容。
IBM SPSS Modeler和預測分析
讓我們從IBM SPSS Modeler和預測分析開始吧。我下載了SPSS Modeler產品的Windows 30天免費試用版本,并按照說明步驟進行了安裝。免費版本在其試用期內有一項個性化的編輯功能,包括:數據訪問和導出、自動數據準備、數據信息處理(data wrangling)和ETL、基于機器學習算法和自動化建模、R可擴展性(R extensibility)和Python腳本。其不包括通過IBM SPSS分析服務器進行Hadoop/Spark的大數據訪問,也不包括champion/challenger功能、A/B測試、文本和實體分析、社會網絡分析。這些功能特點在更昂貴的SKU中均有提供。
在SPSS Modeler中的ML算法能夠與您在Azure機器學習和spark.ml找到的相兼容,因為其擁有功能特征的選擇和支持的格式的選擇。即使是與自動化建模(automodeling)相比較,也毫不遜色,雖然在SPSS Modeler中的關于如何使用的介紹比在其他產品中的更明顯。
IBM SPSS Modeler的Windows版本有超過30款的ML模型,包括自動建模。擁有一個點擊式界面,而考慮到其復雜性,可以說其很容易使用。
而在SPSS Modeler中所包含的您無法在Azure機器學習中找到的功能特點是Jupyter Notebooks或Databricks的筆記本,其具有一個點擊式界面。曾經有一段時間(很久以前),我也曾滔滔不絕地談論過SPSS使得其統計分析應用程序能夠通過添加Windows鼠標和菜單界面而變得易于使用的這一功能是多么強大。現如今,我再也不在乎這一點了。事實上,我現在更喜歡筆記本的方法,主要是因為一個有注解的筆記本(我想第一次看到是在Mathcad的DOS)便于另一位分析師跟蹤您所做的工作,并能夠檢查或擴展您的工作。
總體來說,我認為IBM SPSS Modeler是功能非常強大和易于使用的,具有良好的性能,但其售價是非常昂貴的。其“呼吁定價”標志告訴我,IBM云服務的SPSS Modeler Gold版本和SPSS分析服務器的售價可能更昂貴。
一旦您創建了之后,您將會如何處理您的SPSS model呢,您會做什么呢?將其上傳到BlueMix。IBM BlueMix主機預測分析的Web服務,適用于SPSS模型能夠揭示API的得分,您可以從您的應用程序調用。IBM還在GitHub上發布了兩款示例應用程序;這些都是基于SPSS Modeler提供的樣本數據集,他們作為Web服務部署,能夠被Node.js或Angular.js應用程序調用。兩者看起來比較簡單。
在IBM Bluemix上運行的該預測分析服務,可以采用SPSS模型,并將其部署為Web服務,將為您的應用程序進行預測評分。
除了Web服務,預測分析支持批處理作業,以再培訓和額外數據模型的重新評估。或者,一個批處理作業可以通過再培訓模式更新已部署的模型;這解決了當數據發生更改時,預測模型失效的通病問題。目前,預測分析批處理作業只作為API調用公開;我還沒有發現用戶界面。
Bluemix中的沃森
您會發現,在沃森列表下列出了18項BlueMix服務,如下圖所示。每款服務都公開了一個REST API。此外,您也可以下載SDK,以為您的應用程序使用API 。例如,Alchem yAPI有可用于Java、C / C ++、C#、Perl、PHP、Python、Ruby、JavaScript和Android操作系統的SDK和示例。您需要一個API密鑰以運行樣本,并成功地調用API。一般而言,一旦您在Bluemix中配置了一個沃森服務,您將被鏈接到可以運行的在線樣本,相關的文檔介紹也將為您呈現。
目前,在IBM Bluemix中提供18項可用的沃森服務,其中有15項來自IBM。
AlchemyAPI提供了一組包括三項服務在內的服務(Alchem yLanguage,Alchem yVision和Alchem yData),使企業組織和開發人員能夠建立認知應用程序,以理解文本和圖像所處的內容和環境。 AlchemyLanguage處理文本,以便為情緒、情感(測試版)、關鍵字、實體和高層次的概念評分。AlchemyVision處理圖像以識別圖像、場景和對象。AlchemyData提供可搜索的新聞和博客內容,豐富了自然語言處理。AlchemyAPI似乎從其他幾款沃森服務獲得了繪制能力,并合并到一項單一的服務,包括成為網頁的組合。
下一步是概念擴展,其能夠基于背景環境和對于概念的見解,分析文本和學習類似的單詞或短語,并為您提供了基于維基百科主題的一個預先存在的圖形概念的文件鏈接。(還記得我前面在上文中所提到的Jeopardy智力競賽所涉及的維基百科標題嗎?)在文檔中的注釋介紹說,沃森的概念擴展服務已2016年3月6日從BlueMix目錄刪除。然而,到了3月18日,其仍然有一個預定義的數據集和域作為一項測試服務,使得我能夠配置服務和運行樣本
該對話框服務允許您設計應用程序與一名用戶使用自然語言和用戶配置信息通過對話界面進行交互交互的方式。文檔轉換服務將一個單一的HTML、PDF,或微軟Word文檔轉換成規范化的HTML、純文本,或一組的JSON格式的答案單位,可被其他沃森服務利用。
語言翻譯包括了幾個知識域和語言的配對。在新聞和會話領域,包括了英語和巴西葡萄牙語,法語,現代標準阿拉伯語,或西班牙語的互相翻譯。在專利中,包括英語和巴西葡萄牙語,中文,韓語,或西班牙語。翻譯服務可以識別以62種不同語言被寫入的純文本。
在您進了一組類別和短語訓練之后,自然語言分類服務適用于認知計算技術,并為句子、問題或短語返回最匹配的類別。您可以看到這個功能在Jeopardy智力競賽游戲中是如何充分發揮作用的。
個性化的見解來自交易和社交媒體數據(至少要包括由一個單一的個體所寫的1000個單詞)來識別心理特質,其將以樹的特點返回一個JSON格式。通過語境分析關系抽取分析句子的成分和檢測組件之間的關系(語音和部分功能)。個性化見解的API被記錄用于Curl、Node節點和java;API的demo演示分析了奧普拉、Lady Gaga和國王詹姆斯的推文,以及幾篇文章。
檢索和排名是Apache Solr實現搜索結果的機器學習訓練的相關性改進。Solr是建立在Apache Lucene的全文索引基礎上的分類感知搜索服務器。
語音到文本處理的服務將人類語音轉換為以英語,日語,阿拉伯語(MSA),漢語普通話,葡萄牙語(巴西),西班牙編寫的文字。除了文本,服務將返回元數據,包括每個單詞或短語的開始/結束時間和可替代的最佳短語。
文本到語音的服務,能夠處理文本和自然語言,以生成合成的音頻,輸出完全適當的說話節奏和語調。語音包括了美式和英式的英語,法語,德語,意大利語,西班牙語,北美西班牙語,巴西葡萄牙語和日語。根據該文件顯示,其中三種美國英語的聲音之一被用在了Jeopardy智力競賽游戲中作為沃森的聲音,但當我在運行demo演示時,并沒有語音。
語氣分析儀,目前仍處于測試階段,能夠從文本中識別情感、社會傾向、寫作風格。權衡分析使用帕累托過濾技術,以跨多個標準確定最佳的替代方案,然后使用各種分析和視覺方法,以幫助決策者進行探索和權衡,進而從備選方案中確定最佳的替代品,進行取舍。
最后,視覺識別服務,使您能夠分析JPEG圖像(或視頻幀)的外觀,來了解其是在一個怎樣的場景下發生的。使用預培訓的機器學習技術,語義分類識別許多常見的可視化實體,如設置,對象和事件,返回標簽和可能性得分。
在Bluemix中的三款非IBM沃森服務還是封閉測試版。
沃森分析
沃森分析使用IBM公司自己的自然語言處理,使機器學習更容易為企業組織的業務分析師和其他非數據科學家方面的職位角色所使用。這是一個很明顯使用了IBM的許多服務的Web應用程序,
包括了Bluemix的沃森部分。我嘗試使用了免費試用版本,并用它來作為分析其所提供的自行車租賃服務數據集的一個樣本。
IBM沃森分析運行在其自己的網站上,而不是在Bluemix上。如上圖所示,其可以讓您通過五個過程分析數據。重點是使數據科學可訪問。
我能設想得到,這種方法對于那些只需要獲得機器學習的結果,而無需編程,或者甚至根本對于該方法都沒有很好的了解的人們而言,會是相當有用的。然而,我發現,自然語言界面和所有有用的診斷大多都是以我的方式所呈現的。這讓我感到驚訝,因為商業智能產品的用戶界面,如Tableau和Qlik Sense,就實現了沃森分析試圖完成的一個子集,但以我的方式是絕對無法獲得的。
沃森為自行車租賃數據集的分析想出了一個決策樹模型,設置了48%的預測強度。該工作表還沒有將工作日和非工作日的租客分開。
我一直試圖在一次單一的產品測評審查中覆蓋IBM公司的三款ML產品(或更多產品,這取決于您怎么算)。我承認,這是不容易的。因為我本來希望對自己所測評的每一件產品做泛泛的評估,最終沒能實現,但我還是總結出了一些一般性結論。
IBM SPSS Modeler在Windows或在線UI提供了常規ML培訓和評分。這固然是非常好的,但其價格昂貴。Bluemix預測分析可以運行SPSS模型作為Web服務和返回預測。也可以運行批處理作業,以更新模型。
沃森服務在Bluemix中為專業的ML應用程序提供云服務和API。其提供了15項IBM沃森服務,可以被摻入到您自己的應用程序。雖然他們都是不同的,他們的功能似乎是不錯的,而且價格合理。沃森分析是一款Web應用程序,用于借助機器學習和相關的工具進行數據分析,包括數據的探索。沃森分析盡量做到能夠很容易的使用,但這讓我感到無所適從,讓我想撕掉的UI和代碼。我能夠想象得到沃森分析對于那些沒有受過數據科學訓練的商業人士的價值,但我本人并不是特別喜歡。
實際的數據科學家們也許會想跳過沃森分析,偏向于使用SPSS Modeler和在Bluemix中的沃森服務。業務分析師可能會使用沃森分析,但對于他們的探索性的數據分析,可能使用Tableau會更好,然后與數據科學家合作,以開發預測模型。
本文作者馬丁海勒是InfoWorld網站的特約編輯和審稿人。以前曾是一名Web和Windows應用程序設計顧問,從1986年到2010年他曾在位于馬薩諸塞州安杜佛的辦公室開發過數據庫,軟件和網站。最近,他曾擔任過阿爾法軟件公司的技術和教育副總裁,以及Tubifi公司的董事長兼首席執行官。