嫩草成人国产精品,精品国精品国产自在久国产应用 ,亚洲三级视频在线观看

IBM機(jī)器學(xué)習(xí)方案將Spark引入大型機(jī)平臺

責(zé)任編輯：editor007

作者：孫斌

2017-02-27 21:04:06

摘自：ZD至頂網(wǎng)

沒錯，雖然大型機(jī)向來更擅長處理指定的事務(wù)型任務(wù)，但其同樣可以支撐大數(shù)據(jù)與機(jī)器學(xué)習(xí)等負(fù)載類型。正如很多現(xiàn)代客戶仍然喜歡下榻華爾道夫酒店，不少企業(yè)也在繼續(xù)將關(guān)鍵性工作負(fù)載運行在大型機(jī)之上。

沒錯，雖然大型機(jī)向來更擅長處理指定的事務(wù)型任務(wù)，但其同樣可以支撐大數(shù)據(jù)與機(jī)器學(xué)習(xí)等負(fù)載類型。事實上，將二者加以結(jié)合能夠帶來相當(dāng)積極的實際意義。

紐約市的眾多歷史、商業(yè)乃至人文建筑過去幾年來可謂飽受摧殘。最新的受害者之一正是歷史悠久的華爾道夫酒店，其在重新裝修后不到一周即告停業(yè)，且可能未來三年都不會重新開放。報道稱，其中將保留300到500個客房，但建筑本身的大部分面積都將轉(zhuǎn)換為豪華公寓。難道我們沒有辦法在進(jìn)行公寓建設(shè)的同時，繼續(xù)保留華爾道夫的傳統(tǒng)酒店功能?

答案是肯定的，至少從數(shù)據(jù)與分析角度來看完全可行。就在上周華爾道夫酒店宣布倒閉的同時，IBM公司恰好在那里舉辦了一項活動——諷刺的是，藍(lán)色巨人的宣傳結(jié)論正是新舊工作負(fù)載能夠有效共存。

正如很多現(xiàn)代客戶仍然喜歡下榻華爾道夫酒店，不少企業(yè)也在繼續(xù)將關(guān)鍵性工作負(fù)載運行在大型機(jī)之上。這主要是考慮到對這些系統(tǒng)進(jìn)行遷移將帶來企業(yè)無法承擔(dān)的風(fēng)險性與業(yè)務(wù)中斷后果。然而隨著新型工作負(fù)載的重要性不斷提升，大型機(jī)供應(yīng)商應(yīng)如何解決此類難題?IBM公司給出了自己的解決方案：宣布在Z系列大型機(jī)上支持機(jī)器學(xué)習(xí)型工作負(fù)載。

Spark入駐大型機(jī)

這一舉措的意義無需贅言，特別是對于IBM這樣一家仍然能夠從大型機(jī)的銷售出陣維護(hù)中獲得可觀營收的企業(yè)。不過藍(lán)色巨人提出的觀點也同樣具有說服力：既然大型機(jī)仍然處理著如此眾多的事務(wù)，那么以此為基礎(chǔ)建立數(shù)據(jù)預(yù)測模型無疑將成為任何數(shù)字化或者數(shù)字化業(yè)務(wù)轉(zhuǎn)型的必要條件。雖然可以將其中的數(shù)據(jù)導(dǎo)出至其它更為現(xiàn)代的系統(tǒng)中以進(jìn)行特征工程、模型構(gòu)建、測試以及評分，但可以肯定的是數(shù)據(jù)移動會帶來高昂的資金與時間成本，且很有可能與數(shù)據(jù)安全策略相沖突。

有鑒于此，IBM公司給出了一套混合型方案。首先，其建立一套Linux集群以對來自外部源的數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換、通道性處理并負(fù)責(zé)支持Jupyter記要工具。在此之后，向其中添加IBM Machine Learning——一套基于大型機(jī)的高針對性聯(lián)合平臺，專門用于實現(xiàn)機(jī)器學(xué)習(xí)功能且無需進(jìn)行數(shù)據(jù)移動。其采用大型機(jī)的zIIP(即System z集成化信息處理器)以實現(xiàn)大型機(jī)平臺上的商務(wù)智能與分析工作負(fù)載處理，且不會產(chǎn)生任何MIPS費用。

全部執(zhí)行操作皆由大型機(jī)負(fù)責(zé)進(jìn)行，以避免將數(shù)據(jù)引入其它流程。為了實現(xiàn)這一目標(biāo)，IBM公司基本上將Apache Spark 1.6移植到了其Z系列平臺之上，具體包括Spark MLLib、Spark SQL、Spark Streaming以及GraphX。IBM后續(xù)還將引入更多機(jī)器學(xué)習(xí)庫，并計劃引入TensorFlow等來自開源社區(qū)的更多模型與框架。

數(shù)據(jù)集規(guī)模不足

不過需要注意的是，大型機(jī)上的數(shù)據(jù)量往往為GB級別而非TB或者PB級別，這意味著其可能不足以訓(xùn)練出足夠精確的分析模型。不過考慮到機(jī)器學(xué)習(xí)技術(shù)正快速發(fā)展成熟，這應(yīng)該并不是什么致命的問題——特別是考慮到“數(shù)據(jù)挖掘”技術(shù)原本就是面向較小數(shù)據(jù)量而設(shè)計產(chǎn)生。

事實上，目前我們常用的模型往往采用來自物聯(lián)網(wǎng)設(shè)備的大規(guī)模實時活動或者事件驅(qū)動型數(shù)據(jù)作為支持。這些模型擁有相當(dāng)理想的精度表現(xiàn)，且目前的數(shù)據(jù)流技術(shù)已經(jīng)能夠?qū)⑵鋵崿F(xiàn)。相比之下，大型機(jī)機(jī)器學(xué)習(xí)的思路在于立足事務(wù)數(shù)據(jù)建立模型，而事務(wù)本身天然存在規(guī)模較小這一屬性，意味著相關(guān)事件由底層活動數(shù)據(jù)負(fù)責(zé)支持。客戶需要的正是這種基于事務(wù)的數(shù)據(jù)構(gòu)建模型，因此IBM公司完全有可能讓大型機(jī)機(jī)器學(xué)習(xí)方案成為現(xiàn)實。另外，由于不需要對數(shù)據(jù)的粒度細(xì)化水平提出過高要求，因此建模、測試與評分等相關(guān)流程的計算需求也將有所下降。這意味著此類計算將能夠在同一主機(jī)上以更短、復(fù)雜度更低的方式更輕松地得到實現(xiàn)。

調(diào)整、結(jié)果與工作強(qiáng)度

當(dāng)然，IBM公司在數(shù)據(jù)轉(zhuǎn)換功能方面還需要做出具體調(diào)整，從而確保更合理地處理大型機(jī)當(dāng)中密度較低的數(shù)據(jù)排布狀況。另外，Jupyter亦支持R與Python等除Scala之外的語言。數(shù)據(jù)轉(zhuǎn)換能力將由Rocket Software負(fù)責(zé)提供，這樣的處理方式應(yīng)該要比IBM全球服務(wù)團(tuán)隊自行構(gòu)建更為科學(xué)。隨著記事編碼支持能力的提升，相信未來藍(lán)色巨人將為用戶提供更多可用編程語言選項。

是的，這正是新舊負(fù)載的和諧共存之道。對于IBM這樣的巨頭級供應(yīng)商，其涵蓋市場跨越了多個技術(shù)世代，而此次提出的新舊融合無疑極具現(xiàn)實意義。既然微軟能夠?qū)語言引入SQL Server，那么IBM公司同樣能夠?qū)park引入大型機(jī)。

大型機(jī) IBM公司