沒錯,雖然大型機(jī)向來更擅長處理指定的事務(wù)型任務(wù),但其同樣可以支撐大數(shù)據(jù)與機(jī)器學(xué)習(xí)等負(fù)載類型。事實上,將二者加以結(jié)合能夠帶來相當(dāng)積極的實際意義。
紐約市的眾多歷史、商業(yè)乃至人文建筑過去幾年來可謂飽受摧殘。最新的受害者之一正是歷史悠久的華爾道夫酒店,其在重新裝修后不到一周即告停業(yè),且可能未來三年都不會重新開放。報道稱,其中將保留300到500個客房,但建筑本身的大部分面積都將轉(zhuǎn)換為豪華公寓。難道我們沒有辦法在進(jìn)行公寓建設(shè)的同時,繼續(xù)保留華爾道夫的傳統(tǒng)酒店功能?
答案是肯定的,至少從數(shù)據(jù)與分析角度來看完全可行。就在上周華爾道夫酒店宣布倒閉的同時,IBM公司恰好在那里舉辦了一項活動——諷刺的是,藍(lán)色巨人的宣傳結(jié)論正是新舊工作負(fù)載能夠有效共存。
正如很多現(xiàn)代客戶仍然喜歡下榻華爾道夫酒店,不少企業(yè)也在繼續(xù)將關(guān)鍵性工作負(fù)載運行在大型機(jī)之上。這主要是考慮到對這些系統(tǒng)進(jìn)行遷移將帶來企業(yè)無法承擔(dān)的風(fēng)險性與業(yè)務(wù)中斷后果。然而隨著新型工作負(fù)載的重要性不斷提升,大型機(jī)供應(yīng)商應(yīng)如何解決此類難題?IBM公司給出了自己的解決方案:宣布在Z系列大型機(jī)上支持機(jī)器學(xué)習(xí)型工作負(fù)載。
Spark入駐大型機(jī)
這一舉措的意義無需贅言,特別是對于IBM這樣一家仍然能夠從大型機(jī)的銷售出陣維護(hù)中獲得可觀營收的企業(yè)。不過藍(lán)色巨人提出的觀點也同樣具有說服力:既然大型機(jī)仍然處理著如此眾多的事務(wù),那么以此為基礎(chǔ)建立數(shù)據(jù)預(yù)測模型無疑將成為任何數(shù)字化或者數(shù)字化業(yè)務(wù)轉(zhuǎn)型的必要條件。雖然可以將其中的數(shù)據(jù)導(dǎo)出至其它更為現(xiàn)代的系統(tǒng)中以進(jìn)行特征工程、模型構(gòu)建、測試以及評分,但可以肯定的是數(shù)據(jù)移動會帶來高昂的資金與時間成本,且很有可能與數(shù)據(jù)安全策略相沖突。
有鑒于此,IBM公司給出了一套混合型方案。首先,其建立一套Linux集群以對來自外部源的數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換、通道性處理并負(fù)責(zé)支持Jupyter記要工具。在此之后,向其中添加IBM Machine Learning——一套基于大型機(jī)的高針對性聯(lián)合平臺,專門用于實現(xiàn)機(jī)器學(xué)習(xí)功能且無需進(jìn)行數(shù)據(jù)移動。其采用大型機(jī)的zIIP(即System z集成化信息處理器)以實現(xiàn)大型機(jī)平臺上的商務(wù)智能與分析工作負(fù)載處理,且不會產(chǎn)生任何MIPS費用。
全部執(zhí)行操作皆由大型機(jī)負(fù)責(zé)進(jìn)行,以避免將數(shù)據(jù)引入其它流程。為了實現(xiàn)這一目標(biāo),IBM公司基本上將Apache Spark 1.6移植到了其Z系列平臺之上,具體包括Spark MLLib、Spark SQL、Spark Streaming以及GraphX。IBM后續(xù)還將引入更多機(jī)器學(xué)習(xí)庫,并計劃引入TensorFlow等來自開源社區(qū)的更多模型與框架。
數(shù)據(jù)集規(guī)模不足
不過需要注意的是,大型機(jī)上的數(shù)據(jù)量往往為GB級別而非TB或者PB級別,這意味著其可能不足以訓(xùn)練出足夠精確的分析模型。不過考慮到機(jī)器學(xué)習(xí)技術(shù)正快速發(fā)展成熟,這應(yīng)該并不是什么致命的問題——特別是考慮到“數(shù)據(jù)挖掘”技術(shù)原本就是面向較小數(shù)據(jù)量而設(shè)計產(chǎn)生。
事實上,目前我們常用的模型往往采用來自物聯(lián)網(wǎng)設(shè)備的大規(guī)模實時活動或者事件驅(qū)動型數(shù)據(jù)作為支持。這些模型擁有相當(dāng)理想的精度表現(xiàn),且目前的數(shù)據(jù)流技術(shù)已經(jīng)能夠?qū)⑵鋵崿F(xiàn)。相比之下,大型機(jī)機(jī)器學(xué)習(xí)的思路在于立足事務(wù)數(shù)據(jù)建立模型,而事務(wù)本身天然存在規(guī)模較小這一屬性,意味著相關(guān)事件由底層活動數(shù)據(jù)負(fù)責(zé)支持。客戶需要的正是這種基于事務(wù)的數(shù)據(jù)構(gòu)建模型,因此IBM公司完全有可能讓大型機(jī)機(jī)器學(xué)習(xí)方案成為現(xiàn)實。另外,由于不需要對數(shù)據(jù)的粒度細(xì)化水平提出過高要求,因此建模、測試與評分等相關(guān)流程的計算需求也將有所下降。這意味著此類計算將能夠在同一主機(jī)上以更短、復(fù)雜度更低的方式更輕松地得到實現(xiàn)。
調(diào)整、結(jié)果與工作強(qiáng)度
當(dāng)然,IBM公司在數(shù)據(jù)轉(zhuǎn)換功能方面還需要做出具體調(diào)整,從而確保更合理地處理大型機(jī)當(dāng)中密度較低的數(shù)據(jù)排布狀況。另外,Jupyter亦支持R與Python等除Scala之外的語言。數(shù)據(jù)轉(zhuǎn)換能力將由Rocket Software負(fù)責(zé)提供,這樣的處理方式應(yīng)該要比IBM全球服務(wù)團(tuán)隊自行構(gòu)建更為科學(xué)。隨著記事編碼支持能力的提升,相信未來藍(lán)色巨人將為用戶提供更多可用編程語言選項。
是的,這正是新舊負(fù)載的和諧共存之道。對于IBM這樣的巨頭級供應(yīng)商,其涵蓋市場跨越了多個技術(shù)世代,而此次提出的新舊融合無疑極具現(xiàn)實意義。既然微軟能夠?qū)語言引入SQL Server,那么IBM公司同樣能夠?qū)park引入大型機(jī)。