精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

自動化數據科學與機器學習:Auto-sklearn開發團隊訪談

責任編輯:editor004

作者:Matthew Mayo

2017-04-19 11:23:13

摘自:INFOQ

KDnuggets最近舉辦了一場自動數據科學和機器學習博客比賽,獲得了眾多參賽者的作品提交,涌現了許多獲獎作品以及一系列的榮譽稱號。Aaron Klein:我也是Frank集團的二年級博士生,研究方向是超參數優化和自動化機器學習。

本文中文版已獲原文作者Mattew Mayo授權。

在最近由Kdnuggets舉辦的自動化數據科學與機器學習博客大賽中,Auto-sklearn開發團隊勇奪了冠軍。Matthew Mayo采訪了Auto-sklearn開發團隊,了解了Auto-sklearn項目的基本情況,以及開發人員的背景和自動化數據科學的動態。

KDnuggets最近舉辦了一場自動數據科學和機器學習博客比賽,獲得了眾多參賽者的作品提交,涌現了許多獲獎作品以及一系列的榮譽稱號。

來自弗萊堡大學的Matthias Feurer、Aaron Klein和Frank Hutten撰寫的題為“Contest Winner: Winning the AutoML Challenge with Auto-sklearn”的獲獎作品,概要介紹了Auto-sklearn,一個可以自動確定有效的機器學習管道進行分類和回歸數據集的開源Python工具。這個項目圍繞成功的scikit-learn庫而構建,并贏得了不久前的AutoML挑戰。

鑒于這篇文章如此受歡迎,我們詢問了作者是否有興趣談談關于自己和項目的軼事,以及自動化數據科學的一些后續問題。以下是訪談記錄。

Mattew Mayo:首先祝賀你們的Auto-sklearn項目在KDnuggest自動化數據科學和機器學習博客大賽獲勝!你們能為讀者介紹一下團隊成員,并講述你們每個人的背景情況嗎?

Matthias Feurer:我是Frank集團的二年級博士生,致力于超參數優化和自動化機器學習。大多時間,我對預定義機器學習管道的優化感興趣。在我碩士研究生期間,就開始為Frank工作,在我的大部分學習項目中,經常為超參數的調整而感到困擾。

Aaron Klein:我也是Frank集團的二年級博士生,研究方向是超參數優化和自動化機器學習。像Matthias一樣,在加入Frank集團之前,我是弗賴堡大學的碩士生。

Frank Hutter:我是弗萊堡大學計算機科學系的助理教授,主要從事人工智能、機器學習和自動化算法設計。在來到弗賴堡大學之前,我在加拿大溫哥華不列顛哥倫比亞大學工作了九年。

所有:除了我們三個人(撰寫了KDnuggets博客大賽的博文),我們的團隊還包括來自弗賴堡大學的博士生和博士后:Katharina Eggensperger、Jost Tobias Springenberg、Hector Mendoza、Manuel Blum、Stefan Falkner和Marius Lindauer。

這篇文章非常翔實,很好地描述了Auto-sklearn。您希望我們的讀者在了解Auto-sklearn或自發布以來的任何進展有什么需要額外注意的嗎?對于它的未來發展計劃,有什么可以分享給讀者嗎?

我們的短期目標是回歸,以便我們可以做更多的工作。而我們的長期目標,是希望Auto-sklearn能夠成為scikit-learn靈活的擴展,能夠幫助用戶優化機器學習管道。我們還要沿著Auto-Net的方向進行更多的工作,通過考慮跨數據集、跨數據子集和基于時間的任意時間算法(anytime algorithms)來顯著地加速優化過程。

那么,你認為機器學習和數據科學在多大程度上可以自動化?所謂的全自動化系統需要何種程度的人機交互?

盡管有一些方法可以用來調試機器學習管道的超參數,但是目前為止,很少有工作能發現新管道。Auto-sklearn以固定的順序使用一系列的預定義的預處理器和分類器。加入一個方法對于找到新管道很有效,那么這個方法將會很有用處。當然,人們可以繼續這種思路,并嘗試自動尋找新的算法。最近,已經有幾篇論文這樣做了。比如 Learning to learn by gradient descent by gradient descent。當機器學習模型進行訓練過于費時費錢時,人們可以調整超參數,比自動化方法做得更好,例如最先進的用于大型數據集的深層神經網絡。我們正在努力將專家的啟發式方法轉換為完全形式化的算法,比如我們的Fabolas方法先從較小數據子集上開始優化神經網絡的超參數,從而加快了解全部數據集的最佳超參數。

考慮到先前的問題,短期之內數據科學家是否會失業?或者,如果讓腦洞大開,目前被媒體大肆炒作的數據科學家,將來會不會被自動化壓制?如果是這樣的話,會有什么樣的程度?

當然不是,我們發展自動化機器學習方法是為了向數據科學家提供幫助,而不是代替他們。這些方法使數據科學家擺脫了討厭復雜的任務(比如說超參數優化),機器可以很好地解決這些任務。然而數據分析與結論獲取仍然需要人類專家來完成,尤其是通曉應用領域的數據科學家仍然非常重要。然而我們相信,自動化將會提高數據科學家的工作效率,因此,這有可能確實會影響到數據科學家需要做的工作量。

數據科學家能夠做什么來避免被淘汰的命運?當然,提出這個問題并非搗亂,而是為了增加本次采訪的價值。

分析和解釋統計分析的結果,總得由數據科學家來完成,因此,對于開始數據科學工作的年輕畢業生來說,掌握這個技能可能比其他技能更為永不過時(例如,手動調整超參數以充分利用神經網絡)。

您過去一直積極參與機器學習比賽,您有什么有趣的技巧、訣竅或見解與讀者分享嗎?

自動化和仔細的重采樣策略。由于自動化允許進行大量實驗,為防出現過擬合(overfitting),因此需要像仔細的交叉驗證那樣的重采樣策略。進一步開放思想也是非常重要的,只需讓數據來說明哪種方法對數據集效果最好。

最后一個問題,你認為在五年內,機器學習技術將會到達什么樣的水平?

未來會怎么樣,這很難預測,這點在機器學習領域尤為如此。要知道在五年前,并沒有人預見到深度學習的興起。但是我們相信,機器學習將會越來越普遍,在大家都使用的商業工具中將會見到機器學習的身影。

非常感謝您百忙之中抽出這一點寶貴的時間接受我的采訪。

相關資料

Contest Winner: Winning the AutoML Challenge with Auto-sklearnContest 2nd Place: Automated Data Science and Machine Learning in Digital AdvertisingContest 2nd Place: Automating Data Science

原文鏈接:

Automated Data Science & Machine Learning: An Interview with the Auto-sklearn Team

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 文登市| 萝北县| 沛县| 呼图壁县| 定边县| 卢龙县| 宣武区| 久治县| 贞丰县| 桂东县| 龙南县| 阿克| 水富县| 雷州市| 五常市| 香河县| 威远县| 嘉善县| 威远县| 彝良县| 盐津县| 基隆市| 磴口县| 定陶县| 池州市| 邛崃市| 武陟县| 建德市| 辽源市| 大城县| 额敏县| 独山县| 玉环县| 延长县| 景德镇市| 额济纳旗| 通江县| 西城区| 阿鲁科尔沁旗| 观塘区| 高阳县|