第一部分,機器學習是什么
第二部分,機器學習能做什么
第三部分,企業機器學習應用趨勢
機器學習是什么
一個方面來介紹機器學習,就是從機器學習的目標或者業務要做什么來介紹。機器學習最大的是計算機科學,其中有一個很重要的分支是人工智能。人工智能里面有兩種實現人工智能的方法,這兩種方法分別對應于人類智能的兩種思考模式,一種思考模式叫做演繹法,就是我從已知的規則和事實推導新的規則和事實。這個系統是之前60-80年代用的比較多的系統,叫專家系統。而第二種在人類思考叫做歸納法,通過對事實觀察歸納來歸納總結出來新的規律、新的事物的本質,然后再把它應用到新的事物里面去。把這個是現在計算之中就叫做機器學習。當然最近幾年非常熱的機器學習的方法叫做深度學習,它是機器學習里面的一個領域。 從一九四幾年開始發展出來計算機科學,它在做什么?本質就是嘗試對業務進行自動化處理。剛出來的時候完全是針對數字計算,大規模的計算,如果要靠人來做這個事情是很困難的,需要花費大量的精力和時間。那么能否讓機器像做成流水線計算呢?這就是最早的計算。我們不斷的去探究,不單單數據計算自動化了,普通企業各個行業的企業里面的流程以及業務也在被信息化、自動化。這是關于數據庫出現之后包括訂單的轉移、ERP財務等等都被自動化。隨著計算機越來越火,可以自動化越來越多的東西,互聯網自動化很多東西,比如對資料的檢索等。當我們進一步拓展可以自動化的范圍時我們發現了一些困難,舉個例子,比如說自動駕駛一輛汽車,這件事情就非常困難。因為計算機本質上它是一個程序,需要得到明確的指令,第一步做什么、第二步做什么,它才能做。而自動駕駛汽車,這個無法用一個明確的指令描述,因為這個過程非常復雜。 還有一個非常一經典問題就是有一只小貓,連一個三歲的孩子都可以非常容易辨別出來,但是寫一段程序讓計算機系統認知就很復雜?! ?br />
所以就提出來第二個分支:人工智能,就是想對非常復雜的問題或業務進行智能的自動化。為什么叫智能的自動化?因為很難用一個確定的公式或算法來一步步的做出來。我們需要這個系統可以去觀察世界,可以像人一樣思考來智能、理性做決策,最大化目標。比如我要駕駛汽車,在最短時間內到達那個地方同時又不出任何事故,這就是人工智能。人工智能就是把原本機器學習里面簡單程序、無法自動化的東西,用一種像人一樣智能的把它做出來。
人工智能在業界使用的方法有兩個,一個是演繹法,這種方法的核心概念就是有一個專家會把已知的知識和里面的推理規則放到這里面,當出現新的狀況時,系統會根據已知的知道推演出新的規則。比如說大樓里都有防火器,其實它就是一個特別簡單的專家系統,它只知道一個事實,溫度達到一定高度時、有煙霧的時候就會啟動。這種系統有一個好處就是只需要專家的支持,而不需要那么多數據的支持。而業務系統,就是我們說得機器學習?! ?br />
歸納法。這時候沒有專家告訴他推理的規則,而是給他一大堆數據,這就是對世界的描述,然后會有個算法,無論是神經網絡算法還是其他,這個算法本身是觀察數據、探索數據,它會自動的根據統計學規則從數據中總結出來一些規則和事實。當一份新的數據過來,就可以應用到其中,機器學習本身還是把復雜的業務系統自動化。 而深度學習是機器學習的一個分支,我們可以做點擊率預估,這個是互聯網購盈利的兩大核心之一。當一個用戶來了,我應該給他出什么樣的廣告,這個用戶才最可能點這個廣告讓我盈利。深度學習解決的是,對這個世界做一種更抽象的解讀。比如說傳統的是無法形成多級的抽象,深度學習不一樣,深度學習是給他一個圖片就行。深度學習主要是基于神經網絡,神經網絡的前幾層是在學習這張圖片里面或者學習人臉的邊邊角角的特征,這是不是有一個弧線或者陰影,比如說一些特征組合出來眼睛這個概念,一些特征組合出來鼻子這個概念。再往上這個神經網絡就會形成一個非常高級的抽象,這是一個人臉。這種高級的概念對我們而言是非常自然的,但是對于計算機而言,你想把它描述準確極其困難。 比如說“馬”這個概念,我們可以看到有各種各樣的馬,白色的馬、黑色的馬或者有的馬少一條腿甚至是一個玩具的馬、木馬,當把這個東西方在你面前,任何一個人都明確知道這是馬。但是你想給一個機器去描述的時候,什么樣的東西是馬,這個概念極其復雜。你很難描述出來。兩個耳朵、四條腿、能跑的就是馬?不對。深度學習要解決的就是這個問題。希望通過深度學習讓計算機認識之前只有人才認識的高級概念?! ?br />
深度學習這兩年做的非?;?,但其實這個概念很早就有了。70年代的時候銀行就開始使用了,目前演進為“深度學習”,銀行就做個人信用得分的預測。比如說收入、年齡、消費組成、職業,預測輸出如期還款概率或者延期還款概率等等。
機器學習在今天越來越重要,為什么?因為這些年信息化程度非常之高,存儲成本又非常便宜,廣泛的互聯網化讓大量數據出現在我們的存儲、出現在計算機世界當中。這樣就有機會用更加復雜的機器學習的算法,因為它有大量事實、數據可以學習。它是歸納法,本身就依賴于這個條件。所以這兩年發展非??焖佟! ?br />
機器學習能做什么?
算法交易、欺詐檢測、信用評估...這是非常經典的應用,都是預測的東西。我把前的兩個提出來,前兩個就是去年到今天為止整個互聯網行業盈利最大的兩個算法,一個是在線廣告,在線廣告貫穿了整個PC端。打開任何一個網頁,都會發現這些廣告。有些是廣告主直接跟網站簽訂投放協議,但更多的是通過京東、淘寶這樣的中介去投放。當你投放廣告時,只有用戶點擊了,廣告主才會付賬。所以廣告出現在這個頁面時,你一定要把他最可能點的廣告放在上面。這里面就涉及到非常復雜的東西。這里面涉及到方方面面,包括你要對用戶建立畫像,你要了解你的用戶,性別、年齡、住在什么地區什么小區。第二是個性化推薦,相信大家對這個非常熟悉。在互聯網上我們每個人都在享受定制化的服務,你在聽音樂,它會把你感興趣的音樂推給你,你看今日頭條,他也會把你感興趣的新聞推給你。當然還有算法交易、欺詐檢測、信用評估等等,比如說我們的員工,實時檢測一個人,他是真的人還是機器人。另外,現在機器人特別高級,他們自己都會相互聊天。 那么新興應用呢?機器學習其實能做很多事情,我挑了幾個非常震驚的例子,比如說實時翻譯,一個路牌,你把攝像頭對準它,它就會給你實時翻譯成你認識的語言。又比如微軟的一個軟件,是同聲傳譯的東西,他只要說英語就行,他說出來的話就被實時的翻譯成中文,你說出來的話在他聽到的時候已經被實時翻譯成英文。這件事情讓我極其震驚。因為我大學有一個同學就是學同聲傳譯的,當時他學的時候非常辛苦,但是現在機器就可以做到了。自動駕駛,一兩年前還是在實驗階段,但今天已經開始上路。第一個真正路上跑的。包括特斯拉、Google、百度。相信自動駕駛將來會成為一個中高端車的標配。為什么今天可以做到這點?很簡單,因為特斯拉有數億英里的駕駛數據?! ?br />
從剛才幾個例子來看,我們想象一下機器學習可以深入到生活的方方面面。金融、制造業、機器人工廠、醫療、教育、服務等方方面面。為什么?因為機器學習或者說基于機器學習的人工智能,它最本質的目標就是在某一個任務上做到像人一樣有智能、像人一樣可以對這個問題進行分析并做出快速的預測。在我看來機器學習會在其他方面成為核心?! ?br />
企業機器學習應用趨勢 我們來看Google公司的一個數據,在2002年的時候Google公司全部署了機器學習模型,大幾十個,或者一百出頭的樣子。但是到2016年年初的時候,他們部署的機器學習的模型已經接近3000個。在他的每一個業務里都有Gmail、讀書、翻譯等都部署了機器學習。其實很多公司,尤其是比較早的互聯網公司都是這樣的趨勢。在我看來可能幾年之后幾乎所有大規模的業務都將用機器學習自動處理,幾乎所有的。我加了“幾乎”只是為了嚴謹,因為很有可能是“所有”。
首先,隨著業務廣泛的數字化、互聯網化,無論是工業4.0還是互聯網+都是把人的衣食住行各個方面的業務數字化、互聯網化。這會導致什么?會導致我們有非常大量的數據產生。包括打車的數據、吃飯的數據、穿衣服的數據、醫療數據等等都會出現。同時,存儲和計算成本在不斷降低。幾年之后,每個企業都將成為數據企業,都將積攢自己的核心數據,這些數據是非常寶貴的財富。因為這些數據提供了機器學習、人工智能的基石。
第二,這些數據不能僅僅出些報表而已,每一個企業都將大規模部署機器學習,去把自己企業里面盡可能多的大規模業務自動化。能用機器學習代替的東西,為什么不呢,所以每個企業都會在自己的核心業務上部署機器學習。當然機器學習還是個挺麻煩的事情,對于有實力的大企業可以建設自己的專家團隊、機器學習團隊來進行定制化服務,但是這件事情是富人游戲,一般的企業并不適用。現在無論是亞馬遜、微軟、阿里都在集成標準學習模塊,以及共享行業的信息模塊。在我看來,中小型的企業也會部署機器學習模型,只不過他們的不是定制化的,而是一種基于云的機器學習。它就像App標準服務一樣被使用。第三,每個企業提供的每個應用服務都是智能化的,它不再是說我要定制一個服務需要昂貴的成本。每一個客戶都在享受定制化服務、享受定制應用。這是之后兩三年企業機器學習應用的趨勢分析。當然了,三年搞不定可能會是五年?! ?br />
我的介紹就到這里,謝謝大家! 數美是一家由一線互聯網頂尖大數據專家團隊創建,頂級互聯網大佬領投的大數據企業依托積累的海量數據、核心技術,提供領先的大數據風控產品與服務目前已服務數百家客戶,覆蓋直播、金融、支付、社交、電商、游戲、O2O等行業。