深度學習的概念于2006年提出,是機器學習研究中的一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像、聲音和文本,已被應用于許多領域,如人臉識別、語音識別等。深度學習已成為人工智能領域研究的熱點。
隨著人工智能的迅速發展,通過深度學習,用計算機來模擬人的思考、推理、規劃等思維過程和智能行為取得了長足進步。人工智能的重要特征就是擁有學習的能力,也就是說系統的能力會隨著經驗數據的積累不斷演化和提升。近年來,正是得益于深度學習為大數據處理開辟了有效途徑,人工智能得到了空前發展。
(一)
機器學習來源于早期的人工智能領域,是計算機科學和統計學的交叉學科。它使用算法來解析數據、從中學習,然后對真實世界中的事件進行決策和預測。傳統人工智能的機器學習是通過標記數據進行有監督學習,隨著時間推移其多樣性、復雜性和進化力也隨之增長,呈現加速度特點,對于這種傳統算法數據量越大負擔越重,很容易達到極限或產生錯誤結果。
深度學習有明顯長處,首先它是一套豐富的建模語言,或者說是建模框架,可以用來表達數據內在的豐富關系和結構,比如圖像中的2D空間結構,自然語言的時序結構;其次,它幾乎是唯一的端到端(end-to-end)的機器學習系統,它的目標是直接作用于原始數據,自動逐層做數據特征變換,整個學習過程直接優化某個問題相關的目標函數,而傳統的機器學習往往被分解為幾個不連貫的步驟,并非一致優化某個整體的目標。
(二)
大數據給人工智能的發展提供了前所未有的機遇。隨著各個行業信息化程度的普及,數據積累地越來越多。大數據資產化和規模化具有很大的潛在價值,當沒有足夠高效的處理工具時,即使這些數據樣本再大,也難以提取出任何有價值的東西。數據的數量和效率之間存在矛盾,收集更多的數據有助于提高最終結果的準確性,但數據量越大,處理起來就越費時費力。面對海量數據,如何低成本且高效率地存儲和處理大數據任重道遠。
數據挖掘是個很寬泛的概念,其常用方法大多來自于機器學習這門學科。深度學習可以更好地通過增加數據集的規模來改善學習結果,它取得成功的條件是,大規模訓練數據集的支撐、先進的硬件平臺支持、新的優化技術的創新。
從統計和計算的角度來說,深度學習是在海量數據中尋找復雜規律的算法工具。由于以深度學習分析和處理大數據效果不錯,它自然而然就成了大數據挖掘開發應用的有力工具。如果把深度學習比作火箭的發動機,大數據就是燃料,深度學習可以利用大數據這種燃料將人工智能推到一個新高度。面對萬物互聯時代所產生的數據暴增,深度學習大有可為。
(三)
深度學習算法可以做到傳統人工智能算法無法做到的事情,而且輸出結果會隨著數據處理量的增大而更加準確。這將大幅度提高計算機處理信息的效率,從而吸引更多的資源向它聚合,使其發展更為迅速。深度學習使得機器學習能夠實現眾多的應用,并可拓展人工智能的領域范圍。
以深度學習挖掘無標簽的數據是大數據時代的一個熱點。僅以醫學領域為例,經過深度學習訓練的圖像識別,從辨別血液中癌癥的早期成分,到識別核磁共振成像中的腫瘤,在許多情況下甚至可以做得比人更好。今后醫療就變成了一個數據處理的過程,利用深度學習可以在基因未能被勘測的區域發現自閉癥和癌癥的突變跡象,通過構建虛擬現實可以治療毒癮、酗酒、自閉癥等疾病。同時,由于機器在處理病情時可以做到完全按照數據處理結果進行客觀診斷,所以不會像人類一樣因為情感方面的原因作出錯誤判斷。
深度學習帶來更好的信息處理能力,不僅體現在人工智能領域,還體現在信息化醫療、經濟社會、軍事科技和資源環境等眾多領域,從而產生廣泛和深遠的影響。有了深度學習,人工智能就會在語音識別、計算機視覺、自然語言理解、機器人、自動駕駛等領域取得突破性進展,甚至可以像科幻小說所描述的一樣,使得所有的機器輔助功能都變為可能。
總之,大數據已經變成各個行業的基礎架構,而真正能幫助這些行業處理好數據,并最終實現具體應用的還是深度學習。深度學習既可以從眾多領域的大數據中淘出“金子”,又可以利用這些大數據為人工智能的發展插上翅膀。