精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

大數據環境中的數據科學自動化

責任編輯:cres 作者:Linda Gimmeson 譯者:HERO |來源:企業網D1Net  2017-04-24 10:09:11 原創文章 企業網D1Net

在大數據分析過程中,哪些步驟可以實現自動化以節省時間和金錢?
 
如今,一切似乎都能實現自動化,從無人駕駛汽車到BLS在線更新,但自動化可能影響人們最具變革性的方法之一是通過大數據科學數字的自動化。
 
數據科學日益重要,許多組織正在努力通過自動化簡化流程。技術的發展既是一種詛咒又是一種祝福:與大數據和物聯網相結合,數據科學隨著新的數據集和條件而不斷變化,導致分析師每次定期維護和重新創建模型。這個過程可以是乏味和耗時的,但它可以很容易地被自動化替代。自動化系統具有解決問題的能力,無論輸入什么樣的數據,都可以創建潛在問題的所有可能的解決方案,為工作人員節省寶貴的時間和精力。
 
然而,在大數據環境中自動化數據科學可能是一個復雜的挑戰,特別是因為仍然有一些領域需要來自數據科學家或軟件開發人員的努力。專家建議將數據科學自動化作為一個兩個層次的過程,其中(1)將獨立的數據科學組件自動化,然后(2)將每個單獨的自動化零件組合在一起,以形成一個連貫的系統。
 
有四個主要領域可以單獨自動創建一個完全自動化的系統:數據準備,機器學習,生成洞察和結果解釋。這些任務可以在三個主要領域創建自動化模型:
 
1.數據準備
 
數據科學的第一步是提取,清理和轉換數據的重復性操作。其任務包括輸入空值和為每個特定算法變換數據。許多自動化這個過程的組織對任務使用基于規則的邏輯,考慮到數據科學的目的,替換基于規則的系統,這可能不是最佳的選擇。最好的自動化系統將是通過機器學習自動化的自動化數據預處理,這意味著人們給機器更多的權力來決定應用于數據集的什么功能。
 
數據準備還可以通過特征工程自動化,其將原始數據轉換為預測,從而提高機器學習系統的準確性。特征工程仍處于算法開發的早期階段。隨著過程的鞏固,它可能在未來的數據科學中發揮重要作用。
 
2.機器學習
 
在工作人員的世界中,這個過程由統計學家觀察數據來確定要使用的最佳算法,然后將信息放入模型中。在自動化世界中,機器為數據選擇最佳算法,并簡化數學復雜性,使方程和結果易于理解。該過程涉及更高級的自動化,因為機器必須識別輸入模式和自優化以設定方程的邊界。更先進的自動化系統使用基于云計算的服務器和元學習等自動理解和計算大量數據。
 
3.生成洞察
 
數據科學的最終結果不是一組新的數據,它是以適用于組織的方式解釋數據。程序員或統計學家可以理解數據的輸出及其如何相關,但是直到數據可以被沒有統計知識的人理解為止,該過程才會完成。這意味著將這些數據變成一個全面和透明的故事。
 
自動化此步驟稍微有些復雜,因為它需要從原始數字結果自動創建用戶友好的文本。這種類型的自動化的領先框架是自然語言生成(NLG),其最好將機器語言轉換為自然的人類語言。
 
數據科學的自動化處于早期階段,并將隨著進一步的技術的開發和應用而不斷發展。在創建單個模塊后,下一步是創建更多通用平臺,可以自動集成數據科學系統的所有方面。這個過程可能很漫長,但結果可能在整個商業世界是強大的。

關鍵字:大數據

原創文章 企業網D1Net

x 大數據環境中的數據科學自動化 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

大數據環境中的數據科學自動化

責任編輯:cres 作者:Linda Gimmeson 譯者:HERO |來源:企業網D1Net  2017-04-24 10:09:11 原創文章 企業網D1Net

在大數據分析過程中,哪些步驟可以實現自動化以節省時間和金錢?
 
如今,一切似乎都能實現自動化,從無人駕駛汽車到BLS在線更新,但自動化可能影響人們最具變革性的方法之一是通過大數據科學數字的自動化。
 
數據科學日益重要,許多組織正在努力通過自動化簡化流程。技術的發展既是一種詛咒又是一種祝福:與大數據和物聯網相結合,數據科學隨著新的數據集和條件而不斷變化,導致分析師每次定期維護和重新創建模型。這個過程可以是乏味和耗時的,但它可以很容易地被自動化替代。自動化系統具有解決問題的能力,無論輸入什么樣的數據,都可以創建潛在問題的所有可能的解決方案,為工作人員節省寶貴的時間和精力。
 
然而,在大數據環境中自動化數據科學可能是一個復雜的挑戰,特別是因為仍然有一些領域需要來自數據科學家或軟件開發人員的努力。專家建議將數據科學自動化作為一個兩個層次的過程,其中(1)將獨立的數據科學組件自動化,然后(2)將每個單獨的自動化零件組合在一起,以形成一個連貫的系統。
 
有四個主要領域可以單獨自動創建一個完全自動化的系統:數據準備,機器學習,生成洞察和結果解釋。這些任務可以在三個主要領域創建自動化模型:
 
1.數據準備
 
數據科學的第一步是提取,清理和轉換數據的重復性操作。其任務包括輸入空值和為每個特定算法變換數據。許多自動化這個過程的組織對任務使用基于規則的邏輯,考慮到數據科學的目的,替換基于規則的系統,這可能不是最佳的選擇。最好的自動化系統將是通過機器學習自動化的自動化數據預處理,這意味著人們給機器更多的權力來決定應用于數據集的什么功能。
 
數據準備還可以通過特征工程自動化,其將原始數據轉換為預測,從而提高機器學習系統的準確性。特征工程仍處于算法開發的早期階段。隨著過程的鞏固,它可能在未來的數據科學中發揮重要作用。
 
2.機器學習
 
在工作人員的世界中,這個過程由統計學家觀察數據來確定要使用的最佳算法,然后將信息放入模型中。在自動化世界中,機器為數據選擇最佳算法,并簡化數學復雜性,使方程和結果易于理解。該過程涉及更高級的自動化,因為機器必須識別輸入模式和自優化以設定方程的邊界。更先進的自動化系統使用基于云計算的服務器和元學習等自動理解和計算大量數據。
 
3.生成洞察
 
數據科學的最終結果不是一組新的數據,它是以適用于組織的方式解釋數據。程序員或統計學家可以理解數據的輸出及其如何相關,但是直到數據可以被沒有統計知識的人理解為止,該過程才會完成。這意味著將這些數據變成一個全面和透明的故事。
 
自動化此步驟稍微有些復雜,因為它需要從原始數字結果自動創建用戶友好的文本。這種類型的自動化的領先框架是自然語言生成(NLG),其最好將機器語言轉換為自然的人類語言。
 
數據科學的自動化處于早期階段,并將隨著進一步的技術的開發和應用而不斷發展。在創建單個模塊后,下一步是創建更多通用平臺,可以自動集成數據科學系統的所有方面。這個過程可能很漫長,但結果可能在整個商業世界是強大的。

關鍵字:大數據

原創文章 企業網D1Net

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 曲靖市| 越西县| 叙永县| 宝兴县| 兴仁县| 新余市| 宾阳县| 紫云| 仲巴县| 祥云县| 环江| 谷城县| 宁国市| 新巴尔虎右旗| 彰化县| 安宁市| 镇江市| 山阳县| 定南县| 会理县| 霍城县| 五大连池市| 冀州市| 奉新县| 东莞市| 横山县| 文山县| 长岭县| 海城市| 宁陵县| 平南县| 辰溪县| 南阳市| 长宁区| 门头沟区| 个旧市| 南京市| 罗甸县| 闻喜县| 大悟县| 仁化县|