自打微軟喊出開源口號的那一天,就一改往日的傲嬌,除了自己參與開源還收購了一些開源公司,最有趣的當屬收購Revolution Analytics,Revolution Analytics是R語言的開發公司,Revolution Analytics能夠提供企業級基于R語言的數據解決方案,可以覆蓋大量的數據庫和Hadoop系統,同時Revolution Analytics也持續在ParallelR, RHadoop等方面支持R語言開源社區。
被微軟收購之后,重新上路的R Server已經成為內部部署和云數據之間的橋梁。微軟公司還宣布了一系列R語言工具的更新。R語言已經成為其數據戰略的重要組成部分,在Azure和SQL Server中均提供了支持(這就是要搞仕途啊!)。更重要的是,在Azure機器學習服務中,在數據提交到機器學習管道之前,R語言用于預處理數據。可見,R儼然成為微軟關鍵的跨平臺產品之一。
R在微軟的生態系統中無處不在
開源的R已經成為數據科學的關鍵工具(根據IEEE,它目前在所有語言中排名第五),這其中統計學專家對R格外青睞有加,因為Comprehensive R Archive Network(CRAN,一個R語言應用程序的公共庫)現在有超過9,000個統計模塊和算法可以使用。
微軟對R的愿景是打破臺式機,本地服務器和云之間的界限。在本地,有一個免費的R語言客戶端,以及微軟(付費)旗艦版Visual Studio開發環境中的R支持。在內部,R Server可以在Windows和Linux上同時運行。在SQL Server內部,可以訪問統計分析工具以及數據,同時支持基于Hadoop和Spark的本地大數據服務。在Azure上,可以和Microsoft的HDInsight服務一起運行R Server。
R是數據科學家的工具。雖然R語言相對簡單,但需要對統計分析有深入的了解才能從中獲得最大利益。因為許多基本概念需要對復雜統計函數進行研究層面的理解。問題不在于能否編寫R代碼,而在于它是否能理解你的思想。
所有使用大數據的企業面臨的最大問題是:如何獲取所需的技能并生成正確的分析結果。更重要的是,可以對分析結果有一個直觀的解釋,R語言內置的圖形工具是可視化分析的關鍵工具。
Microsoft R Server出道
Microsoft R Server是一款基于R的企業級大數據分析平臺,支持各種大數據統計分析,預測性建模和機器學習功能。它是一個十分有用的工具,可以快速嘗試新的分析算法和探索使用數據回答問題。這種方法適合作為整個分析生命周期的一部分,從數據準備開始,然后是模型開發,最后將模型轉換為可構建到業務應用程序中的工具。
機器學習同樣有R
R也是基于GPU的機器學習工具。R可用于幫助訓練模型,Microsoft將自己的機器學習算法與最新的R Server版本捆綁在一起,因此你可以在模型上傳到本地大數據實例或云之前進行測試。在最近的一次新聞發布會上,Microsoft在天文圖像上演示了這種方法,在具有星系庫的本地服務器上訓練基于機器學習的分類器,然后在云托管的GPU上運行結果模型。
R是一種非常便攜的語言,可設計用于處理離散的數據樣本。這使它可擴展和解決數據并行問題。相同的R模型可以在多個服務器上運行,可以快速處理大量數據。你需要做的就是適當分割數據,然后將其傳遞到各種R服務器實例。類似地,相同的代碼可以以不同的實現方式運行,因此針對本地數據源構建和測試的模型可以部署在SQL Server數據庫內并針對Hadoop數據湖運行。
R使數據模型操作更容易
R非常容易實現,數據科學團隊構建需要的模型,開發人員編寫應用程序并構建可利用其代碼的基礎架構就可以了。一旦準備就緒,該模型可以快速部署,應用過程中也可以及時更換模型,而不影響應用程序的其余部分。總之,R允許你以相同的方式,相同的模型在不同的應用中使用相同的數據。
通用模型可以對數據主動響應,例如,當模型預測到航班延遲時,可向航空公司乘客提供延遲和重新預訂信息。該模型在獲得更多數據之后可以進行細化,從而降低風險。
將R支持構建到SQL Server中有很大意義。隨著Microsoft的數據庫平臺成為內部部署和云數據以及大數據工具系統之間的橋梁,在數據庫中使用細粒度的分析工具是一個明智的決定。數據庫開發人員可以與數據分析團隊一起實施這些模型,而不需要學習任何新技能來將其構建到應用程序中。
微軟意識到,不是每個企業都需要或有預算來雇傭數據科學家。如果你正在處理常見的分析問題,例如嘗試預測客戶流失或檢測在線商店中的欺詐行為,你可以選擇包含即用模型的SQL Server R服務中的一系列預定義模板。從Microsoft的MSDN可以獲得,它們可以在任何R兼容的IDE中自定義,并且可以使用PowerShell腳本部署。