新版本的Microsoft R Server增加了新的機器學習增強功能并與HDInsight集成。
微軟在收購R語言之后,一直在開發基于統計分析語言的一系列產品。新版本增加了微軟的幾項高級機器學習算法,以及預測訓練的神經網絡模型,用于情緒分析和圖像特征化。還增加了對SparklyR,SparkETL和SparkSQL的支持,以及用于深層神經網絡的GPU。
對于開發人員來說,可以使用Visual Studio的R工具編寫可與Microsoft R Server一起使用的應用程序,還有一個Azure Microsoft R Server VM映像,可用于在云上配置服務器。
新版本的另一項改進是使用MicrosoftML for Spark和Hadoop的能力。MicrosoftML已添加到Microsoft R Server 9.0,增加了機器學習算法和數據轉換功能。這些設備可運行在Linux,Windows以及流行的Hadoop發行版中,特別是Cloudera,Hortonworks和MapR。R Server 9.0在十二月發布時,就增加了Spark支持。
現在可以用于Spark和Hadoop的算法是:
1、極速線性學習,支持L1和L2正則化。
2、快速提升決策樹。
3、快速隨機森林。
4、邏輯回歸,支持L1和L2正則化。
5、GPU加速深層神經網絡(DNN)與卷積。
6、使用支持向量積的二進制分類。
還增加了一個新功能,以便在數據集的分區上執行“令人愉快的并行”R計算。這意味著用戶可對一個或多個屬性分組的分區進行大規模并行計算。rxExecBy函數允許用戶將任何R函數應用于數據集的特定分區并執行并行計算,而無需手動分區或分割數據。
情緒評分和圖像特征功能的增加是由微軟研究所訓練深層神經網絡模型的結果。這些功能意味著現在可以計算出情緒評分,結果從“非常積極”到“非常負面”。圖像特征可用來拍攝圖像,并將其表示為基于ResNet識別器的數字變量集合。這些值可以用作預測模型的基礎。
新版本的另一個重要改進是Microsoft R Server和sparklyr之間的互操作。R Studio的sparklyr是Apache Spark的R接口,允許用戶使用Spark作為數據操作包dplyr的后端。Sparklyr還提供了一種使用SQL查詢Spark中數據的方法。現在可以在單個Spark會話中使用Microsoft R Server和sparklyr。
還有一個Microsoft R Client的更新版本,具有與本地使用相同的分析選項,現在可用于Linux以及Windows。
除了R Server支持Hadoop之外,Microsoft已經宣布,從SQL Server 2017開始,開發人員將能夠使用Python代碼進行數據庫內分析和機器學習。所謂的R Server將被重命名為機器學習服務,而R和Python是此功能下的兩個選項。