深度學習是機器學習的一個子集,都是人工智能的子集。機器學習與深度學習不完全屬于一個拳擊淘汰賽中,深度學習是機器學習的一個子集,而它們都是人工智能(AI)的子集。但是,在機器學習和深度學習的定義和用例方面,市場上存在很多混淆,現在讓我們來澄清一下混淆。
·人工智能(AI)是模擬和模仿計算機系統和機器中的智能人類行為的研究。
·機器學習是AI的一個子領域,它使用算法將AI概念應用到計算系統中。計算機識別并根據數據模式采取行動,隨著時間的推移學習提高其準確性,無需明確的編程機器學習背后的分析,如預測編碼、集群和視覺熱圖。
·深度學習是機器學習的一個子領域,是人工神經網絡的另一個名稱。深度學習計算機網絡模擬人類大腦感知、組織和從數據輸入的方式。撇開天網,深度學習今天依然是存在的。
機器學習與深度學習
通常人們對于機器學習與深度學習的想法可能會忽略一點,如前所述,深度學習是機器學習的一個子集。在這一點上,你更有可能在應用程序中使用機器學習,而不是深度學習,但它仍然是一個發展中的技術,而且部署起來很昂貴。現在有些產品已經上市了,隨著時間的推移,人們會發現深度學習將變得更加普遍。
我們來看兩者之間的區別和使用情況。
機器學習
作為人工智能的一個子集,機器學習使用算法來解析數據,從結果中學習,并運用學習來做出決定或預測。示例包括聚類、貝葉斯網絡和可視化數據映射。例如,在電子檔案資料查詢和合規性調查中,熱圖和視覺集群可以將圖形搜索結果呈現給人類,他們可以使用結果深入到其他模糊的數據中。
機器學習技術分為兩類:監督機器學習和無監督機器學習。監督式學習取決于人為生成的種子集合,教導軟件如何定義數據。預測編碼就是一個很好的例子。該軟件指的是將數據模式匹配到相關度百分比的種子集。隨著時間的推移,預測編碼工具從持續進行的審閱反饋中學習。
無監督機器學習取決于識別數據中包含的模式并將其與其他數據或搜索查詢進行比較。機器學習算法隨著數據集的增長和更多模式的出現而隨時間學習。無監督機器學習包括集群、概念搜索和接近重復數據刪除。
例如,聚類匹配文檔之間相似的文本和元數據,并將數據呈現在可視化集群中。概念搜索通過識別和匹配概念來擴展基于文本的查詢。近似重復數據刪除比較類似的數據,并根據相似程度排除文檔,而電子郵件線程將孤立的電子郵件鏈接到相應的線程。這些分析中的每一個都從其行動中學習,以提高性能和準確性。
機器學習基礎設施差異很大,單個系統可以實現有限的集群或網絡流量報告,而大型系統則包含數十臺服務器和大規模并行處理(MPP)架構,用于跨多個數據源的海量數據。
深度學習
深度學習(也稱為人工神經網絡)基于所有機器學習算法。但是,它不使用數據分類等任務特定的算法。相反,它通過識別來自非結構化輸入的代表性數據,并輸出準確的行動和決定來模擬人類的大腦結構和功能。
學習可以被監督或不受監督,這意味著大的神經網絡可以接受標記的輸入,但不需要它。學習程序教會神經網絡如何構建不同的處理層,當網絡處理輸入時,他們根據數據輸入和輸出創建自己的層。這種深度學習的水平允許神經網絡自動從原始數據中提取特征而無需額外的人力輸入。
神經網絡由多個簡單連接的處理器(稱為神經元)組成,這些神經元是為模仿人腦中的神經元而創建的數學函數。這些人造神經元組成了神經網絡的單元。
簡單地說,每個神經元接收兩個或更多的輸入,處理它們,并輸出一個結果。一些神經元接收來自外部傳感器的輸入,而另一些神經元則被來自其他活動神經元的輸入激活。神經元可能激活額外的神經元,或者可能通過觸發動作影響外部環境。所有活動都是在自創的隱藏層中進行的,每個連續的圖層都會輸入前一層的輸出。
實際上,神經網絡攝取非結構化數據:聲音、文本、視頻和圖像。網絡將數據分成數據塊并發送給單獨的神經元和層進行處理。一旦這個離散的處理完成,網絡產生最后的輸出層。
大規模的可擴展性是神經網絡的關鍵。神經網絡的性能取決于它可以攝取、訓練和處理多少數據;數據越多意味著效果越好。這是另一個區別于更基本的機器學習,其算法通常在一定水平上平穩。深度學習只是通過其計算資源來限制其性能。因此,神經網絡的“深層”部分:計算資源越多,層次越深,產出越廣泛。盡管深度學習不是那么快捷和容易,但更低的計算處理能力使研發工作發生了革命性的變化。
機器學習和深度學習的常用用例
重要的是要記住機器學習的用例已經在市場上了。深度學習的用例主要是現階段的發展目標,商業化程度有限。一些用例是相似的:區別在于神經網絡可以增長到接近無限的學習和輸出規模。機器學習更受約束,適合具體的實際計算任務。另外請記住,它們兩個不是相互排斥的。
展望機器學習和深度學習的未來
你不會在每個街角都找到深度學習/人工神經網絡的身影。他們普遍需要大量的標記數據進行監督學習,或大量的非結構化數據進行無監督學習。深度學習技術開發人員需要花費大量的時間標記和向神經網絡輸入數據,或者需要輸入數以百萬計的非結構化對象來實現無監督學習。
在今天的數據密集型世界中,擁有足夠的數據不是問題。標記足夠的數據,或將足夠的未標記數據引入神經網絡是一個挑戰。盡管處理能力不斷增加,價格也有所下降,但密集計算仍然需要對系統和支持進行大量的投資。
盡管如此,深度學習在許多不同的業務垂直領域都有很好的用例。像谷歌和Facebook這樣的公司正在投入深度學習來開發這些實際的應用程序,而其他開發者也在跟風。