機器學習的民主化進程正在加速,標志之一就是AutoML最近成了熱門詞匯,所謂AutoML就是給機器學習算法增加了一個自動化的meta層。過去,機器學習算法的復雜之處在于需要進行大量選項和參數設置來“微調”,而數據科學家們的精力80-99%都花在這上面。AutoML能夠自動測試并調優大量參數,不但大大降低算法使用門檻,也加快了算法調優過程。
AutoML是云計算的天作之合,因為在云端AutoML可以調用足夠的機器算力來并行處理并返回結果,同時,AutoML也非常適合機器學習的新手循序漸進自行探索機器學習應用。
6種工具讓機器學習不再難
以下介紹的六種機器學習工具為那些使用數字、電子表格和數據的人們打開了通向機器學習世界的大門,而且不需要他們成為編程和數據科學方面的專家。
1. Splunk的
Splunk最初是作為一種搜索工具,對Web應用程序創建的大量日志文件進行搜索(或“窺探”)。如今它已經發展成為能夠分析所有形式數據的工具,特別是時間序列和其他按順序生成的數據。Splunk能夠將將數據分析結果顯示在一個復雜的可視化儀表板中。
最新的Splunk版本包括將數據源與TensorFlow等機器學習工具和一些優秀Python開源工具集成的應用程序。它們提供快速解決方案,用于檢測異常值,標記異常并生成對未來值的預測。它們經過優化,可以在非常大的數據集中海底撈針。
2. DataRobot
DataRobot內部的堆棧是一些用R、Python或其他幾個平臺編寫的好用的開源機器庫的集合。DataRobot有一個Web界面,顯示用于設置管道的類似流程圖的工具。DataRobot連接到所有主要數據源,包括本地數據庫,云數據存儲和下載的文件或電子表格。您構建的管道可以清理數據,填充缺失值,然后生成標記異常值并預測未來值的模型。
DataRobot還可以嘗試提供關于為什么進行某些預測的“人性化解釋”,這是了解AI如何工作的有用功能。
它可以部署在云和本地解決方案的混合方案中。云端實施可以通過共享資源提供最大的并行性和吞吐量,而本地安裝提供更多的隱私和控制。
3. H2O
H2O對自己的定位是“無人駕駛AI”,這個自動化堆棧可以用來探索各種機器學習解決方案。它將數據源(數據庫,Hadoop,Spark等)連接在一起,并將它們提供給具有各種參數的各種算法。您可以控制分配給特定任務的時間量和計算資源,并在預算內測試各種參數組合。你也可以通過儀表板或Jupyter筆記本來探索和審核結果。
H2O的核心機器學習算法以及與Spark等工具的集成是開源的,但所謂的“無人駕駛”選項是銷售給企業客戶的專有軟件包之一,提供技術支持。
4. RapidMiner
RapidMiner生態系統的核心是一個基于可視圖標進行數據分析的工作室軟件。用戶只需拖放圖標來生成一個管道,進行數據清理,然后通過各種統計算法運行它。如果您想使用機器學習而不是更傳統的數據科學,自動模型將從多種分類算法中進行選擇,并搜索各種參數,直到找到最佳擬合。該工具的目標是生成數百個模型,然后確定最佳模型。
創建模型后,該工具可以部署它們,同時測試它們的成功率并解釋模型如何做出決策。可以使用可視化工作流編輯器測試和調整對不同數據字段的敏感度。
最近的增強功能包括更好的文本分析,用于構建可視化儀表板的更多種類的圖表以及用于分析時間序列數據的更復雜的算法。
5. BigML
BigML儀表板提供了數據科學的常用基本工具用于識別數據相關性,這是更復雜的機器學習工作的基礎。例如,他們的Deepnets提供了用于測試和優化更精細的神經網絡的復雜機制。可以將模型的質量與其他算法進行比較,并使用標準化的比較框架,幫助您在經典數據科學和更復雜的機器學習之間進行選擇。
BigML的儀表板在瀏覽器中運行,其分析可以在BigML云中運行,也可以在服務器機房中運行。云版本的價格設置較低,以鼓勵早期測試; 甚至還有一個免費圖層。成本主要取決于數據集大小的限制以及可以調用的計算資源量。免費套餐將使用不超過兩個并行運行的進程分析最多16MB的數據。較小的付費賬戶的定價非常合理,每月只需30美元,但隨著資源需求的增加,成本會上升。
6. R Studio
R對于非程序員用戶來說并不友好,但它仍然是復雜統計分析最重要的工具之一,因為它非常受核心數據科學家的歡迎。R Studio是一個工具,為用戶提供一組菜單和點擊選項,使其更容易與內部運行的R層交互。
通過R Studio,那些能夠處理電子表格的高級管理人員可以使用最簡單的選項來運行基本分析,甚至是一些復雜的分析。雖然R Studio的有些部分依然讓普通用戶感到困惑,但R Studio正處于開放的邊緣,每個愿意投入一些時間的人都可以訪問使用,對于想要探索尖端工具的人來說,R Studio值得一試。