微軟最近發(fā)布了兩個(gè)新的數(shù)據(jù)科學(xué)工具,用于交互式數(shù)據(jù)探索:建模和報(bào)告。這些數(shù)據(jù)科學(xué)工具被稱(chēng)為交互式數(shù)據(jù)探索、分析和報(bào)告(Interactive Data Exploration, Analysis and Reporting,IDEAR)和自動(dòng)建模和報(bào)告(Automated Modeling and Reporting,AMAR)。數(shù)據(jù)科學(xué)團(tuán)隊(duì)可以通過(guò)這些數(shù)據(jù)科學(xué)工具在他們的項(xiàng)目中完成一些具體任務(wù)。
數(shù)據(jù)科學(xué)團(tuán)隊(duì)花了大量的時(shí)間寫(xiě)代碼來(lái)回答數(shù)據(jù)相關(guān)的問(wèn)題,如數(shù)據(jù)模式、丟失的數(shù)據(jù)元素、個(gè)體變量的分布和變換、在數(shù)據(jù)中特定的聚類(lèi)模式以及機(jī)器學(xué)習(xí)(Machine Learning,ML)模型的性能等。這兩個(gè)工具可以用來(lái)在數(shù)據(jù)科學(xué)的生命周期中將這些常見(jiàn)的任務(wù)自動(dòng)化。其目標(biāo)是在組織內(nèi)的不同項(xiàng)目之間保持?jǐn)?shù)據(jù)科學(xué)的一致性和完整性。
交互式數(shù)據(jù)探索:
IDEAR工具可以用來(lái)探索、可視化和分析數(shù)據(jù),并提供數(shù)據(jù)洞察。基于R Studio的Shiny庫(kù),IDEAR包含了數(shù)據(jù)導(dǎo)出和報(bào)告生成功能。數(shù)據(jù)導(dǎo)出功能可以保存相關(guān)的R腳本,生成可視化數(shù)據(jù)并保存到R日志文件中。用戶(hù)可以運(yùn)行R日志文件來(lái)自動(dòng)生成數(shù)據(jù)報(bào)告。
IDEAR的其他功能包括自動(dòng)變量類(lèi)型檢測(cè)、變量排名和目標(biāo)泄漏識(shí)別、可視化高維數(shù)據(jù)等。
自動(dòng)建模和報(bào)告:
AMAR用超參數(shù)掃描來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,比較模型的準(zhǔn)確性并評(píng)估變量的重要性。在一個(gè)參數(shù)輸入文件中我們指定ML模型去運(yùn)行,指定把哪些數(shù)據(jù)用于訓(xùn)練和測(cè)試,指定參數(shù)范圍去掃描并且指定選擇最佳參數(shù)的策略。
由AMAR工具生成的模型報(bào)告包含模型信息、模型評(píng)價(jià)和比較以及特征排名。
IDEAR和AMAR工具在CRAN-R中運(yùn)行,并能夠在GitHub網(wǎng)站上找到。這個(gè)庫(kù)是團(tuán)隊(duì)數(shù)據(jù)科學(xué)過(guò)程(Team Data Science Process,TDSP)的一部分,上個(gè)月在微軟的機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)峰會(huì)上被推出。
如果你有興趣學(xué)習(xí)更多關(guān)于這些數(shù)據(jù)科學(xué)工具的內(nèi)容,請(qǐng)查看微軟Technet博客中的文章,或GitHub網(wǎng)站上的AzureTDSP Utilities。
查看英文原文:Microsoft Releases Data Science Tools for Interactive Data Exploration and Modeling