“機器學習”這個術語賦予了神奇的光環。普通人通常不會采用機器學習,而數據科學家才是高度專業化的煉金術士,他們在研究部門和實驗室中將數據轉化為“黃金”,而只是簡單地說機器學習是一門科學,在此之外幾乎沒有提供解釋。
當然,這可能是一個鮮為人知的事實,但多年來機器學習工具已經發展到這樣一個地步:幾乎任何人都可以按下按鈕,并啟動一些機器來學習有價值的東西。這并不是一件容易的事,但將數據整合并將其轉化為可操作見解的工作已經實現自動化,很多具有這種動機的組織可以做到這一點。
這種緩慢的復興是由商業世界中許多非程序員已經相當精通數據的現實所推動的。加載數字的電子表格是各級業務決策者的通用語言,機器學習算法也像表格中數據清晰定義的行和列一樣。機器學習的新工具基本上只是另一組策略和選項,用于將表格數據轉換為有用的答案。這些工具的優勢在于能夠處理收集數據、添加結構,并保持一致性,然后開始繁重的計算工作。它們簡化了數據收集過程,簡化了將信息保存在行和列中的工作。
這些工具還不夠智能,無法為用戶完成所有這些學習。用戶必須提出正確的問題并找到合適的地方。但是這些工具加速了對答案的搜索,因此可以覆蓋更多的范圍,并在進行更多的搜索。
AutoML:機器學習的民主化
最近,新的流行術語“AutoML”開始出現,表示機器學習算法附帶了一個額外的自動化元層。標準算法一直被設計用于自行查找模式和規則,但傳統算法帶有許多選項和參數。數據科學家經常花費80%到99%的時間致力于找到最具預測性的規則。
AutoML通過嘗試一系列選項,測試它們然后嘗試更多來自動化這個階段。它不是采用機器學習算法運行一次,而是運行N次,進行一些調整,再次運行N次,如此反復,直到用戶的預算、時間、耐心耗盡。
AutoML工具非常適合云計算,因為它們在云中可以啟動足夠的機器并行運行,然后在完成后將它們返回池中。用戶只需在峰值計算時間支付費用。
一般來說,AutoML算法是人們開始自己探索機器學習的一個良好選擇。自動化通過處理一些設置參數和選項的基本工作來簡化工作,然后再為用戶測試結果。隨著用戶變得更加復雜,并開始理解結果,他們可以承擔更多這些工作,并自行設置價值。
最新的系統還可以讓用戶更輕松地了解機器的學習方式。如果經典編程將規則和數據轉化為答案,那么機器學習算法將會反向工作,并將答案和數據轉換為規則。這些規則可能會告訴用戶業務發生的事情。這些簡化工具的開發人員還創建了解釋算法發現的規則的接口,更重要的是如何復制結果。他們想打開黑盒以促進理解。
使機器學習更容易的6種工具
所有這些功能都為那些使用數字、電子表格和數據的人們開啟了機器學習的世界,消除了對編程和數據科學的巨大需求。下面的六個選項簡化了用戶使用機器學習算法在數字海洋中找到答案。
1.Splunk
Splunk的原始版本最初是作為一種工具,通過現代Web應用程序創建的大量日志文件進行搜索或“窺探”。它已經發展成為可以分析所有形式的數據,特別是時間序列和其他按順序生成的數據。該工具將結果顯示在具有復雜可視化例程的儀表板中。
最新版本包括將數據源與TensorFlow等機器學習工具和一些最佳Python開源工具集成的應用程序。它們提供快速解決方案,用于檢測異常值、標記異常,并生成對未來值的預測。它們經過優化,可以在非常大的數據集中搜索文件。
2.DataRobot
DataRobot內部的堆棧是一些用R、Python或其他幾個平臺編寫的開源機器庫的集合。用戶將只處理一個Web界面,該界面顯示用于設置管道的類似流程圖的工具。DataRobot連接到主要數據源,其中包括本地數據庫、云數據存儲和下載的文件或電子表格。用戶構建的管道可以清理數據,填充缺失值,然后生成標記異常值,并預測未來值的模型。
DataRobot還可以嘗試提供關于為什么進行某些預測的“人性化解釋”, 這對于理解人工智能的應用非常有用。
它可以部署在云端和內部部署解決方案的混合體中。云計算可以通過共享資源提供最大的并行性和吞吐量,而本地安裝可以提供更多的隱私和控制能力。
3.H2O
H2O喜歡用“無驅動的人工智能”來描述其探索各種機器學習解決方案的自動化堆棧。它將數據源(數據庫、Hadoop、Spark等)聯系在一起,并將它們輸入到具有廣泛參數的各種算法中。用戶可以控制用于該問題的時間和計算資源,并測試各種參數組合,直到完成預算。其結果可以通過儀表板或Jupyter筆記本進行瀏覽和審核。
H2O的核心機器學習算法以及與Spark等工具的集成是開源的,但所謂的“無驅動” 選項是銷售給企業客戶的專有包之一。
4.RapidMiner
RapidMiner生態系統的核心是一個用于從可視圖標創建數據分析的工作室。它將清理用戶的數據,然后通過各種統計算法運行它。如果用戶想使用機器學習而不是更傳統的數據科學,自動模型將從多種分類算法中進行選擇,并搜索各種參數,直到找到最佳匹配。該工具的目標是生成數百個模型,然后確定最佳模型。
創建模型后,該工具可以部署它們,同時測試它們的成功率,并解釋模型如何做出決策。可以使用可視化工作流編輯器測試和調整對不同數據字段的敏感度。
最近的改進包括更好的文本分析、用于構建可視化儀表板的各種圖表以及用于分析時間序列數據的更復雜算法。
5.BigML
BigML儀表板提供了數據科學的基本工具,用于識別可以構成機器學習更復雜工作基礎的相關性。例如,他們的深度網絡提供了用于測試和優化更精細的神經網絡的復雜機制。可以將模型的質量與其他算法進行比較,并使用標準化的比較框架,幫助用戶在經典數據科學和更復雜的機器學習之間進行選擇。
BigML的儀表板在瀏覽器中運行,其分析可以在BigML云平臺中運行,也可以在服務器機房中運行。其云計算版本的價格較低,以鼓勵早期應用,甚至還有一個免費套餐。其成本主要取決于數據集大小的限制以及可以調用的計算資源量。免費套餐將使用不超過兩個并行運行的進程分析最多16MB的數據。規模較小的付費賬戶的定價非常合理,每月賬單只需30美元,但隨著資源需求的增加,其價格會上升。
6.R Studio
對于非程序員來說,R并不是一種容易使用的語言,但它仍然是進行復雜統計分析的最基本工具之一,因為它深受核心數據科學家的歡迎。R Studio是一個工具,為用戶提供一組菜單和點擊選項,使其更容易與深入內部運行的R層進行交互。
能夠處理電子表格的高級管理人員可以使用最簡單的選項來運行基本分析,甚至是一些復雜的分析。但有些部分會讓一些用戶感到困惑,但它正處于開放的邊緣,每個對其感興趣的人員都可以訪問。雖然仍然會有一些困惑,但對于想要探索前沿工具的人來說,這是值得的。