如果要從三大公有云供應(yīng)商的發(fā)展規(guī)劃當(dāng)中汲取一點(diǎn)經(jīng)驗(yàn)之談,那么毫無疑問,軟件工程的廣度與深度已經(jīng)成為無可取代的絕對(duì)競(jìng)爭(zhēng)優(yōu)勢(shì)。而頗具諷刺意味的是,每當(dāng)一家供應(yīng)商推出一種能夠切實(shí)簡(jiǎn)化IT運(yùn)維任務(wù)的新型服務(wù),整個(gè)市場(chǎng)就會(huì)高度依賴于這些服務(wù),而且不再自行尋求同類解決方案。換言之,客戶開始變得更加傻瓜,同時(shí)也更具依賴性。
這是一種非常成功的商業(yè)模式,而且值得大家認(rèn)真加以考量。就目前來講,三大主流公有云方案——包括Amazon Web Services、微軟Azure以及谷歌Cloud Platform——都擁有自己的機(jī)器學(xué)習(xí)服務(wù)。這些方案結(jié)合了三位技術(shù)巨頭自身多年以來在產(chǎn)品營(yíng)銷與廣告宣傳方面積累得到的豐富經(jīng)驗(yàn),而且使用成本相當(dāng)?shù)土N覀兩踔梁茈y想象數(shù)以百萬計(jì)的、規(guī)模各異的企業(yè)客戶能夠抵抗這些由機(jī)器學(xué)習(xí)服務(wù)帶來的強(qiáng)大吸引力與競(jìng)爭(zhēng)優(yōu)勢(shì)。很明顯,直接選擇這些服務(wù)在難度上要遠(yuǎn)遠(yuǎn)低于自行編寫代碼并找到利用GPU及FPGA實(shí)現(xiàn)運(yùn)行加速的實(shí)現(xiàn)途徑。
我們很難在機(jī)器學(xué)習(xí)與預(yù)測(cè)性分析之間找到一條明確的劃分界線,不過這類服務(wù)在精簡(jiǎn)程度方面往往更接近于預(yù)測(cè)性分析,而非專門用于從圖片或者視頻當(dāng)中識(shí)別出對(duì)象以及個(gè)人、對(duì)其內(nèi)容加以描述,或者像蘋果及微軟推出的Siri及Cortana等個(gè)人助手服務(wù),甚至能夠控制自動(dòng)駕駛車輛的高強(qiáng)度性機(jī)器學(xué)習(xí)機(jī)制。機(jī)器學(xué)習(xí)聽起來要比預(yù)測(cè)性分析酷炫得多,至少對(duì)于大多數(shù)普通用戶而言是如此,因此這一術(shù)語也因此變得非常熱門。不過無論大家選擇哪一種稱謂,由 Amazon、谷歌以及微軟所提供的新型機(jī)器學(xué)習(xí)服務(wù)確實(shí)能夠?yàn)镾AS研究所、IBM以及甲骨文等預(yù)測(cè)性分析方案供應(yīng)者帶來沉重的競(jìng)爭(zhēng)壓力。歷史總是驚人地相似,如今以數(shù)據(jù)及計(jì)算時(shí)間成本為基礎(chǔ)的服務(wù)方案再次憑借著出色的易用性將經(jīng)過實(shí)踐驗(yàn)證、功效顯著且擁有數(shù)十年發(fā)展演變歷史的分析軟件產(chǎn)品擊倒在地。
Amazon公司最近剛剛在本周于舊金山召開的AWS峰會(huì)上推出了其機(jī)器學(xué)習(xí)服務(wù)。其Amazon機(jī)器學(xué)習(xí)(即Amazon Machine Learning,簡(jiǎn)稱AML)甚至該公司多年來在預(yù)測(cè)性分析領(lǐng)域積累下的豐富經(jīng)驗(yàn)——作為早在互聯(lián)網(wǎng)建立早期就涉足在線零售行業(yè)的企業(yè),Amazon在這方面顯然極具發(fā)言權(quán)。在建立供應(yīng)鏈管理機(jī)制、欺詐檢測(cè)系統(tǒng)以及點(diǎn)擊預(yù)測(cè)方案方面投入大量研發(fā)資源之后,Amazon作為一家在線零售商正逐步將其數(shù)據(jù)虛擬化、機(jī)器學(xué)習(xí)建模以及預(yù)測(cè)性分析工具通過AWS云推廣到整個(gè)世界。(Amazon公司利用機(jī)器學(xué)習(xí)機(jī)制來指導(dǎo)員工如何將物流車輛停在最理想的位置,從而保證貨物能夠以最順暢的方式被搬入倉(cāng)庫(kù)或是裝上車輛進(jìn)而交付至客戶手中。)而Amazon公司的所有內(nèi)部開發(fā)人員也都會(huì)訪問該機(jī)器學(xué)習(xí)堆棧,并將其嵌入至自己的應(yīng)用程序當(dāng)中。
即使把AML看作是一種贈(zèng)品(類似于在線零售商隨主要商品附贈(zèng)的糖果之類),可以肯定的是,AWS所提供的機(jī)器學(xué)習(xí)算法也絕對(duì)是一種值得珍之重之的定期——這位零售業(yè)巨頭在管理超大規(guī)模業(yè)務(wù)事務(wù)時(shí),依靠的正是這樣一套解決方案。
發(fā)布Amazon機(jī)器學(xué)習(xí)服務(wù)
一套面向開發(fā)人員的完整托管機(jī)器學(xué)習(xí)服務(wù)
輕松創(chuàng)建機(jī)器學(xué)習(xí)模型
多種直觀化與優(yōu)化模型
只需數(shù)秒即可將模型納入生產(chǎn)流程
久經(jīng)考驗(yàn)的技術(shù)成果
當(dāng)然,AML以數(shù)據(jù)為起點(diǎn),且設(shè)計(jì)目的在于進(jìn)行針對(duì)性培訓(xùn)并對(duì)100 GB以下的數(shù)據(jù)集合進(jìn)行預(yù)測(cè)性分析。充分分析對(duì)象的數(shù)據(jù)可以保存在以MySQL為后端的關(guān)系數(shù)據(jù)服務(wù)(即Relational Data Service)當(dāng)中、S3存儲(chǔ)桶內(nèi)或者來自Redshift數(shù)據(jù)倉(cāng)庫(kù)服務(wù)。后面兩種能夠在用戶需要時(shí)提供高達(dá)PB級(jí)別的存儲(chǔ)容量,正是出于這個(gè)理由,才有眾多客戶積極選擇Amazon機(jī)器學(xué)習(xí)服務(wù)并嘗試?yán)么笮蛿?shù)據(jù)集構(gòu)建更理想的分析模型——畢竟數(shù)據(jù)量越大、分析結(jié)果的準(zhǔn)確性就越高,這種作法明顯優(yōu)于調(diào)整算法以構(gòu)建良好的數(shù)據(jù)模型——這也正是AWS將數(shù)據(jù)集規(guī)模上限設(shè)定為100 GB的原因。AWS方面指出,這項(xiàng)服務(wù)并不會(huì)真正將數(shù)據(jù)從MySQL或者Redshift當(dāng)中提取出來,而是使用查詢結(jié)果來執(zhí)行相關(guān)處理工作。客戶可能需要在模型中使用的任何其它數(shù)據(jù)都能夠被保存為CSV文件并交由S3負(fù)責(zé)承載。AWS還擁有大量數(shù)據(jù)可視化工具,旨在幫助客戶查看數(shù)據(jù)集中有哪些數(shù)據(jù)內(nèi)容出現(xiàn)了缺失。如果數(shù)據(jù)集內(nèi)的記錄缺失比例達(dá)到10%,那么機(jī)器學(xué)習(xí)服務(wù)會(huì)直接中止運(yùn)行模型——這是因?yàn)樵谶@種情況下,預(yù)測(cè)性分析得出的結(jié)論根本不可能擁有理想的準(zhǔn)確度水平。
機(jī)器學(xué)習(xí)服務(wù)會(huì)對(duì)數(shù)據(jù)進(jìn)行全面解析并構(gòu)建機(jī)器學(xué)習(xí)模型,用戶亦能夠立足于更多或者質(zhì)量更高的數(shù)據(jù)來源對(duì)其加以調(diào)整,包括采用多種數(shù)據(jù)梳理機(jī)制或者采用不同級(jí)別的數(shù)據(jù)標(biāo)準(zhǔn)化處理。(確切地講,這類調(diào)整工作往往有點(diǎn)可意會(huì)卻不可言傳的意味,而且目的不同、具體實(shí)施方式也會(huì)有所區(qū)別。)總而言之,其主要思路在于調(diào)整數(shù)據(jù)集并利用它以新的流入數(shù)據(jù)為基礎(chǔ)進(jìn)行預(yù)測(cè)分析。為了能夠讓AML一次性解析整個(gè)數(shù)據(jù)集并同時(shí)實(shí)現(xiàn)預(yù)測(cè)分析,AWS還提供一項(xiàng)批量API—— 當(dāng)然,大家也可以使用實(shí)時(shí)API根據(jù)實(shí)際需求對(duì)數(shù)據(jù)中的特定部分進(jìn)行指定預(yù)測(cè)分析。AML能夠在約100毫秒內(nèi)返回一項(xiàng)預(yù)測(cè)請(qǐng)求,AWS方面稱這樣的速度水平完全能夠適應(yīng)Web、移動(dòng)以及桌面應(yīng)用程序的需求;另外,AWS服務(wù)模型所使用的IP地址每秒能夠完成約200項(xiàng)事務(wù)的結(jié)果傳輸。Amazon指出,客戶可以利用AML服務(wù)在一天之內(nèi)以實(shí)時(shí)方式實(shí)現(xiàn)數(shù)十億次預(yù)測(cè)性分析。之所以敢于如此言之鑿鑿,是因?yàn)锳mazon零售業(yè)務(wù)本身就利用該項(xiàng)服務(wù)以每周超過 500億次預(yù)測(cè)分析的頻率處理內(nèi)部零售事務(wù)(包括產(chǎn)品推薦等等)。
最后需要強(qiáng)調(diào)的是,AML擁有平臺(tái)粘性。也就是說,大家無法將自己的機(jī)器學(xué)習(xí)模型從AML服務(wù)導(dǎo)出至外部,同時(shí)也無法將在別處構(gòu)建的機(jī)器學(xué)習(xí)模型導(dǎo)入至AML服務(wù)當(dāng)中。
AML的目標(biāo)場(chǎng)景正如大家所能想見,包括欺詐檢測(cè)、需求預(yù)測(cè)、預(yù)測(cè)性客戶支持以及Web點(diǎn)擊預(yù)測(cè)等等。客戶服務(wù)則屬于另一類使用場(chǎng)景,而且AML能夠被用于對(duì)來自電子郵件、論壇內(nèi)容以及電話支持評(píng)價(jià)的客戶反饋信息進(jìn)行分析,從而對(duì)產(chǎn)品工程技術(shù)以及服務(wù)團(tuán)隊(duì)提供合理化建議,并將面臨類似問題的新客戶引導(dǎo)至合適的、了解相關(guān)情況并擁有問題解決能力的支持技術(shù)人員處。
而在定價(jià)方面,AML服務(wù)的收費(fèi)機(jī)制非常直觀。大家需要為保存在S3、RDS(也就是Redshift)之上的數(shù)據(jù)支付本地存儲(chǔ)費(fèi)用。而如果要對(duì)此類數(shù)據(jù)進(jìn)行分析處理以及建模,則需要以每小時(shí)42美分的價(jià)格支付AML服務(wù)使用費(fèi);很明顯,采取的分析方式越多,我們需要支付的成本就越高。不過大家可以將自己的使用量加以匯總并借此享受價(jià)格折扣,其中每1000次預(yù)測(cè)分析處理的批量使用成本為10美分(最小計(jì)量單位為1000次),而實(shí)時(shí)預(yù)測(cè)分析成本為每次萬分之一美分,同時(shí)機(jī)器學(xué)習(xí)模型運(yùn)行中每占用10 MB內(nèi)存則加收千分之一美分。按照這樣的計(jì)費(fèi)標(biāo)準(zhǔn),如果我們需要利用一套模型 運(yùn)行約100萬次預(yù)測(cè)分析,那么該模型的運(yùn)行時(shí)長(zhǎng)約為20個(gè)小時(shí),而成本則略高于100美元。
谷歌率先有所行動(dòng)
谷歌公司為其Prediction API服務(wù)設(shè)定的預(yù)期目標(biāo)與AML以及Azure機(jī)器學(xué)習(xí)基本一致,不過前者的特色在于其早在2011年秋季就已經(jīng)作為App Engine平臺(tái)云的組成部分向廣大用戶開發(fā)。
該P(yáng)rediction API的分析數(shù)據(jù)處理規(guī)模上限為2.5 GB,而且相關(guān)文件會(huì)被載入至谷歌Storage服務(wù)當(dāng)中。谷歌方面指出,一般數(shù)據(jù)集的梳理過程大約需要幾分鐘到數(shù)小時(shí)。而一旦首批數(shù)據(jù)整理完畢,接下來即可接受新的數(shù)據(jù)內(nèi)容,而后續(xù)預(yù)測(cè)分析周期將縮短為200毫秒左右。
谷歌公司的免費(fèi)服務(wù)版本允許數(shù)據(jù)科學(xué)家每天進(jìn)行100次預(yù)測(cè)分析操作,且每天數(shù)據(jù)處理總量不可超過5 MB;另外,免費(fèi)服務(wù)設(shè)有總計(jì)2萬次預(yù)測(cè)性分析上限。而在Predictive API服務(wù)的付費(fèi)版本當(dāng)中,谷歌公司要求用戶每月支付最低10美元,這一起步價(jià)位提升最高1萬次預(yù)測(cè)分析配額,且后續(xù)處理成本為每1000次50美分。數(shù)據(jù)集首次處理的成本為每MB五分之一美分,用戶同時(shí)還需要對(duì)相應(yīng)數(shù)據(jù)集的后續(xù)內(nèi)容更新支付同樣的費(fèi)用。付費(fèi)服務(wù)每日預(yù)測(cè)分析次數(shù)上限為200萬次,谷歌公司還強(qiáng)調(diào)稱,數(shù)據(jù)科學(xué)家若每日預(yù)測(cè)分析次數(shù)超過4萬次、則必須提前發(fā)出通知。另外,以上服務(wù)費(fèi)用并不包括谷歌Storage對(duì)活動(dòng)數(shù)據(jù)集進(jìn)行存儲(chǔ)所帶來的成本。
微軟Azure雇傭來自Amazon的機(jī)器學(xué)習(xí)專家
微軟當(dāng)初的目標(biāo)非常明確,即構(gòu)建自己的機(jī)器學(xué)習(xí)堆棧并將其作為自身Azure云之上的服務(wù)項(xiàng)目,而具體實(shí)現(xiàn)方式則是于2013年7月直接將技術(shù)大師Joseph Sirosh從Amazon旗下挖了過來。(對(duì)他本人來講,工作內(nèi)容其實(shí)并沒有出現(xiàn)什么變化。)
微軟公司的Azure機(jī)器學(xué)習(xí)服務(wù)于去年六月正式進(jìn)入beta測(cè)試階段,而且其中囊括了大量該公司原本用于運(yùn)行必應(yīng)搜索引擎以及Xbox游戲站點(diǎn)的機(jī)器學(xué)習(xí)算法。微軟公司還允許我們利用開源R統(tǒng)計(jì)語言以及Python來編寫相關(guān)算法,并將其納入Azure機(jī)器學(xué)習(xí)堆棧,另外開發(fā)人員也可以自行構(gòu)建免費(fèi)的機(jī)器學(xué)習(xí)算法或者在市場(chǎng)上購(gòu)買其它現(xiàn)成的付費(fèi)方案。微軟最近剛剛收購(gòu)了Revolution Analytics公司,后者擁有一套能夠顯著提高R統(tǒng)計(jì)引擎性能表現(xiàn)的技術(shù)方案,這無疑將幫助加快Azure機(jī)器學(xué)習(xí)服務(wù)的運(yùn)行速度。
作為微軟主要客戶之一,卡內(nèi)基梅隆大學(xué)目前正利用Azure機(jī)器學(xué)習(xí)服務(wù)對(duì)其自身設(shè)施進(jìn)行預(yù)測(cè)性維護(hù),而蒂森克虜伯這家全球知名電梯制造商則利用該服務(wù)預(yù)測(cè)世界范圍內(nèi)各高層建筑中的電梯設(shè)備安全水平。Pier 1公司同樣在使用Auzre機(jī)器學(xué)習(xí)服務(wù),旨在利用這套技術(shù)方案對(duì)客戶采購(gòu)活動(dòng)進(jìn)行預(yù)測(cè)。
微軟公司目前還公在其美國(guó)中南部區(qū)域內(nèi)上線了Azure機(jī)器學(xué)習(xí)服務(wù)。該服務(wù)提供免費(fèi)試用版本,每次實(shí)驗(yàn)性使用的最高模型使用數(shù)量為100套。(所謂一套模型,是指一種算法、一種數(shù)據(jù)來源或者一次數(shù)據(jù)轉(zhuǎn)換處理,Azure機(jī)器學(xué)習(xí)官方解釋稱。)而Machine Learning Studio工具則作為該服務(wù)的組成部分,負(fù)責(zé)對(duì)體積在10 GB及以下的數(shù)據(jù)集進(jìn)行首次處理;不過在此之后,預(yù)測(cè)性分析工作則面向托管于HDInsight Haddop服務(wù)當(dāng)中的Hive數(shù)據(jù)倉(cāng)庫(kù)層或者來自Azure SQL數(shù)據(jù)庫(kù)服務(wù)的各項(xiàng)查詢。如果大家需要處理的數(shù)據(jù)集超過10 GB,則可以對(duì)其進(jìn)行拆分,而后以分散方式運(yùn)行首次整理會(huì)話并最終將結(jié)合加以合并。Azure機(jī)器學(xué)習(xí)服務(wù)的免費(fèi)版本為數(shù)據(jù)集首次整理設(shè)定了最多1小時(shí)的時(shí)長(zhǎng)上限(微軟方面將其稱為實(shí)驗(yàn)性方案),存儲(chǔ)容量上限則為10 GB;其運(yùn)行在單一節(jié)點(diǎn)之上,并采用速度受限的分段API。
需要付費(fèi)使用的標(biāo)準(zhǔn)版Azure機(jī)器學(xué)習(xí)服務(wù)則不限定模型使用數(shù)量、能夠運(yùn)行在多個(gè)節(jié)點(diǎn)之上且不會(huì)利用API刻意限制處理速度。面向數(shù)據(jù)科學(xué)家們的 Azure機(jī)器學(xué)習(xí)服務(wù)每月每人收費(fèi)為9.99美元,此外首次模型構(gòu)建費(fèi)用為每小時(shí)1美元,面向應(yīng)用程序API的結(jié)果傳輸過程為每小時(shí)2美元,此外還要另外支付每1000次API事務(wù)50美分的使用費(fèi)。當(dāng)然,大家也可以付費(fèi)選擇更為可觀的數(shù)據(jù)集存儲(chǔ)容量,這一點(diǎn)與Amazon機(jī)器學(xué)習(xí)服務(wù)非常相似。
IBM SoftLayer與Cognos/SPSS則是另外兩套潛在解決方案。SAS研究所已經(jīng)擁有了自己的SaaS分析機(jī)制,不過其很可能會(huì)選擇與其它大型公有云供應(yīng)商、甚至是像Rackspace Hosting這類規(guī)模較小的企業(yè)進(jìn)行廣泛合作。但話說回來,Rackspace公司似乎在開放軟件的道路上越走越遠(yuǎn),因此同SAS建立合作關(guān)系似乎缺乏實(shí)際意義——然而從另一個(gè)角度出發(fā),借此將開源R工具、Apache Mahout或者Spark MLlib for Hadoop等技術(shù)成果納入自身,并進(jìn)一步創(chuàng)建出屬于自己的機(jī)器學(xué)習(xí)服務(wù)也并非沒有可能。