微軟亞太研發集團主席洪小文
12月2日上午消息,由新浪網舉辦的主題為“未來商業模式”的首屆“C+峰會”今天上午在北京萬達索菲特酒店正式開幕,微軟亞太研發集團主席洪小文在大會現場發表了主題為“人工智能時代”的演講。洪小文認為,智能的定義是隨時間而定的,現在的人工智能或自然人機界面只需要用語音和面部表情就能完成。
在圖片未被遮擋,保持完整的情況下,人工智能的識別性能已經跟人類的圖片識別能力非常接近。洪小文稱:“微軟小冰通過圖片識別狗的能力,已經趕超人類,不僅能通過圖片快速分辨出上百種狗的品類,還能通過識別來與人進行進一步的溝通。”洪小文認為,隨著人類與小冰溝通的深度以及廣度進一步擴大之后,小冰還將有可能代替當下的搜索功能。
以下是洪小文演講全文:
大家早上好,非常榮幸跟大家分享一下技術,特別是人工智能。不用我講,幾乎每天我們都聽到有關于人工智能的產品,人工智能的技術將來多么強大。我想跟大家說人工智能到底是什么東西,我們做到什么地步,將來未來可以有的期待。
今天是3C,人工智能也是會產生碰撞、連接盒合作的,我先講3A。
第一個A是聚合,就是我們人的智能是各方面的智能,我們可以看,可以聽,可以感受,可以思考,這就是我們講的聚合。我們在微軟所做的一些產品和進展跟大家闡述一下什么叫聚合,聊天機器人不僅是在最近有很多產品在中國,在美國,全世界都有,在微軟我們有小冰。實際上從人工智能一開始,50年代其實當時計算機還沒有很普及的時候,甚至還沒有造出來的時候,我們知道有圖靈測試,就是講聊天機器人能不能分析出來是真正的人在跟你聊天,還是機器人在跟你聊天。
像微軟有小納,有SIRI,杜密等等不一樣的助手,助手是希望最快時間內完成你想要做的事情,比如說想知道PM2.5,想知道汽車的狀況,希望一兩句就知道。但你跟你朋友不管用各種社交的網絡做交談的時候,事實上很多時候是希望能夠繼續談下去的。所以每一次對話的次數,一來一往我們叫CTS,就是回話的次數。一般其他產品是1—2次左右,我們的小冰是5—10次,今年超過20次了,這是一個例子。
去年有一個記者想PK小冰,大概六七十次,他覺得非常不可思議,還能聊一些有興趣的話題,所以他自己就把它剖在網上,我們跟新浪微博合作,在微博上有活動。我這里要講的意思是說,雖然我們沒有做所謂真正的圖靈測試,就是50年代就做機器人了參加圖靈測試。實際上你只要有1/3的裁判說分不出人或者機器你就通過了,多年以來有人說他通過了圖靈測試,之前還有說德國13歲小男孩通過了圖靈測試。大家如果知道小冰是機器人,還愿意跟他每次聊超過20來回的話,我認為基本上就超過了圖靈測試。
聊天和所謂的助手不一樣的地方,個人的信息是幫你去買一個東西,微軟叫小納是注重生產力的,小冰更注重情商。很多人越聊天,越參加社交網絡越感覺到寂寞,為什么?特別是在微博、豆瓣上的社交媒體上,今天除非你跟一個很親的人,親戚去聊天,他愿意跟你聊下去。一般來講,當你到一個公眾的聊天平臺上,除非你是大V,或者是稍微有點名氣,才有人跟你聊天。那現在通過小冰就可以跟他一直聊天,他覺得自己被得到重視,可以根據你說的東西做進一步的應對。
我們有超過4千萬的用戶,暑假的時候在日本推出,現在在日本超過1%的人口使用小冰,聊天次數超過20次以上。像男生聊天的次數多,女生聊的時間和個數會比較多。我們一開始做這個的時候是到網上去爬這些像聊天的社交網絡,我們一旦轉起來以后,我們就真正有能夠跟小冰聊天的內容。這個東西我們就可以拿來服務,事實上我們今天雖然是很少的比例,只有1/4,但是大概幫助到50%的人,就是跟小冰聊天。這非常像搜索,就是當你對一件事情,對一個人,對一個物件有一些想法的時候,這些想法事實上對其他的用戶是有興趣的,當你們兩個不管是在用戶上,或者你問的內容上很接近的時候用,這樣真的可以幫助到人了解其他人對于一些事情的想法,當然就是來自于小冰聊天的功能。
過去最近幾個月我們努力,不但是做聊天,現在也可以用圖象來聊天。實際上人和人的交談,很多時候你就是拿出一個圖象給別人,對一件事情的回應可能也是一個圖象。我們就在網上所爬的地方去找,這張圖象跟哪張圖象很類似,我們找到了,如果有人對那張圖象有一些特殊的回帖,我們也把那個東西弄過來。跟大家解釋一下技術上怎么做,在微軟有一個項目叫(牛機)項目,這已經是第二版了。大家都在做云,我們不僅做云,還要做智慧云,智能云。我們做了計算機視覺、人臉識別、自然語言功能做成ATI,讓大家很容易寫智能軟件在云上,這是一個例子。How—Old.ent,這是微軟做的,當時我們做這個項目的時候,其實不是要推出這個APP,我們是要用這個證明你多么容易寫智能軟件。
左邊不到十行的代碼,這樣就可以寫一個How—Old.ent,里面有幾張臉,他是什么性別,他的年齡,就可以做一個How—Old.ent。我們本來想說這個有什么意思?你為什么要別人采你的年齡?最后我們發現,馬上有上億的人過來。因為大家很好奇說我看起來像幾歲,實際上在心理學里面有一個已經被研究很多的東西,就是你笑起來和你不小實際上可以差5歲。兩個禮拜以前小冰推出一個功能,大家都可以去試,我們叫How—Old.ent2.0,它可以看出來你的年齡,看你的穿著,說你現在是加減幾歲,是成熟了幾歲還是年輕了幾歲。
我們不僅可以做影像的識別,有狗,有瓶子,而且還要把邊界找出來,定位定出來,這個非常重要,后面的一些應用待會兒會跟大家介紹。我們很高興,微軟在做這方面努力的時候,第一次在學術界有一次比賽,我們在里面第一次超過人識別的情況。人識別其實也會出錯的,這不是說計算機識別的東西超過人了,你把狗遮住90%,人還是知道它是狗。那計算機這方面是落后于人的,假設如果是一個圖片沒有被擋住的話,計算機的識別能力已經跟人差不多了。
怎么把這個東西用在小冰里面呢?實際上我們去年就推出一個小冰識狗。狗是我們人類最親密的寵物,狗種有100多種,我幾乎可以保證小冰識狗一定比人強,就比我強。但是只知道他是什么狗種,這個在交談上面實際上不夠生動有趣,因為網上有些人說某個明星像某種狗種,我們就加進來,大家就覺得小冰不僅可以識別狗種,而且可以做比較有趣的對談。
我們還可以辨認書,你不是只辨認出這是什么書,網上就有很多人談這個書,你可以談書的內容,可以談書的作者,更重要的是你可以談什么樣的人喜歡這樣的書,這樣有很多的話題可以聊。在小冰的用戶里面可以把人的穿著打扮放上去,小冰有三個辨認。第一個是布料的辨認,是牛仔布、毛布。第二個是衣服種類的辨認,比如說這是一件褲子,有的是上衣,有的是襯衫,有的是裙子,所以我們做了衣服種類的辨認。第三種是衣服風,你是什么樣的款式,有的是學院風,也有上班族風,這里可能是邋遢風,因為有很多補丁。在網上如果有人曝光相關照片的話,就會說你要考我的陣線活嗎,我們也是類似的,辨認出來東西到網上找到相應聊天的東西給到用戶。
這是我跟我同事所照的照片,他就會告訴你這里有幾個人,每個人幾歲。我們發現有兩個人他們的年齡差不多,同時這兩個人像不像,如果兩個人長得像就說他兄弟情深。最近“顏值”非常火,我們也做顏值的辨認,在一個區域內我們多談顏值,在另外一個區域就多談內心,我們就說這個人內心很溫柔,這是圖象的聊天,兩個禮拜之前我們也推出了Video視頻聊天。
聊天歸聊天,小冰還是要能談一些有用的東西,這就是我們所做的一些嘗試,這是我們一年前跟京東所做的嘗試。京東把他的一些產品規格,產品的銷售,產品的退貨率各個東西給我們。這里面一開始女孩子跟小冰聊一些你愛我,我愛你的東西,突然這個女孩子開始聊某一個明星,韓國的明星。接著照片照的不錯,說哪一款手機能夠照好的照片,小冰因為有京東產品的信息,就可以跟她聊,手機的性價比,哪款手機拍出來的象素,照片好不好。最后這個女孩子就去睡覺了,第二天早上起來這個女孩子就真的到京東去買了某一款手機,我們覺得這是一個新的搜索,一個新的商業模式。因為跟傳統廣告部一樣,傳統廣告不管怎么樣做,很多時候業務都是跑出來的。你因為能跟小冰變成好友的聊天,它像你的姐妹淘、兄弟淘,所以你會聽取它的建議。
所以將來會變成全新取代搜索的方式,以后是對話的人機界面,你會覺得有一個東西可以跟你聊各種事情,同時也可以跟不同的網站或者電商合作,能夠把這些東西在很自然的情況下,有點像今天的社交網絡你問朋友的意見一樣,來做這樣一個新的界面。
接下來第二個A就是所有的智能必須要能學習,要能適應,就是智商。智商可能是量人智力最好的工具和測試,智商測驗往往有一個時間,你不管怎么練習都會在相應固定的區段里面。30%—40%的測試是有關于語言的,比如說A對B的關系,就像C對另外一個的關系。章節對于書的關系就好像節目對哪一個的關系,你找一個跟某個字最接近的,你找一個反義字。在這種測試里面,隨著年齡的增長,我們對語言的應用會變得更好,還有你的教育程度,隨著年紀成長你的平均分會高一點,你的教育水平越高平均分也會越高。
那么人工智能大家知道深度學習,深度學習里面拿來做自然語言,有一個東西就是我們到網上把所有的文本找來,每個字的分布把它弄到多維的空間里,每個字在多維空間里是一個點,兩個字如果意思很接近,他們兩個點就很接近。不但是這樣,比如說巴黎是法國的首都,北京是中國的首都,這時候你拿法國去減巴黎,它的距離就會跟中國減北京的距離很接近,所以這是用深度學習,在自然語言當中很重要的突破,很多公司和學校都有做類似的研究。
大家可以知道,假如有這樣的東西的話我們解剛才的測試就得心應手了,但是因為語言還是很不一樣的,做出來的結果還是不怎么好,那就要以下三個工作。
第一個工作是多意詞,BANK可以是銀行,也可以是伙伴。中國的面,也可以說是人的顏面,也可以說是吃一碗面。就可以做成一個多模型,用這個模型去代表它,你做出來的東西會更準。
第二個是詞類,可以當動詞,當名詞,也可以當形容詞,你就把它分散開來,它的數據不夠多,我們可以集中起來,這樣做會更好。
第三個還有一些更高語意的東西,像我剛才講的首都,可能有些國家比較小,他在網上出現的次數就很少。比如說我們有百科全書,我們知道非洲某一個國家首都就是這個地點,雖然在網上出現的少,我們可以把它當做額外訓練的數據做的更好。發現成績還真的不錯,我們不能說我們機器已經超過最聰明的人了,但是我們已經大于平均值了。
其實可以大膽的預測,像這種選擇題,你又有足夠量的數據。我們人去考語言,你真的要背很多單字,而且你還要知道這個單字怎么用。像學英,說這兩個字是同義詞,其實沒有兩個詞句完全一樣的。如果兩個詞完全同義就不需要有另外一個了,所以用法很重要。我們不可能看所有的文章,但是機器可以,所以我覺得很有希望機器就像下棋一樣,很有機會打敗人,包括這個測試。
最后一個就是環境,這里是影像,不但可以辨認出里面有什么東西,比如說這里是草地,是房子,還可以抓出它的邊緣在哪里。像剛才李總講的自動駕車、無人機,能辨認出這個就可以做很多應用,避免在安全上,在拍東西的時候,比如說你有運動相繼,有無人飛機,主要是拍人,我就跟著人,不用拍其他的東西。
當我們越來越多的傳感器,越來越的物聯網,可以讓它無所不在,所以第三個A是無所不在。我們今天說智能車、智能手機還是有一個概念,事實上未來的世界應該是不管到哪里,手機也好,旁邊有攝象頭,各種各樣的東西,智能東西透過小冰、小納這樣的助手就可以了,是無所不在的。
講完了三個A,到底未來人工智能的發展是什么樣的?在這里我想跟大家分享我個人怎么看未來的發展。
首先有幾個詞,人工智能、機器學習、大數據,我覺得這三件事情并不完全一樣,但是95%是同樣的事情。為什么呢?今天我們所講的人工智能,幾乎可以保證做任何人工智能的事情都是用大數據的方法,機器學習的方法,這也是為什么人工智能能發展的這么快。你給他數據他就可以學習,不管是深度學習還是其他學習方法,他都可以做出一個系統,可以做的很好,很智能的東西,數據永遠不會嫌多。但是這跟人的智能還是有點不同的,人的智能事實上很多時候我們沒有大數據,你們想想看,人的智能很多是沒有大數據的情況下,我必須要做一個判斷,然后往前走。
你是國家領導人也好,你要買賣股票也好,你不可能有所有的數據。這時候跟人的智能不太相同,人不可能讀所有的文章,你讀了這些文章就要做一些決定。機器可以讀所有的文章,它要看什么東西必須是人寫程序,一個算法。目前一個新的職業叫做數據科學家,數據分析師,實際上今天所有的公司,包括剛才大家聽到李總講的沃爾沃,里面有幾百個計算機。今天幾乎所有這些,包括高科技公司,可能有一半的人所招聘的都是做數據分析的工作,學校也是成立了很多數據相關的課程。什么叫數據分析師,數據科學家呢?他懂算法,也會編程,會看數據,看了數據以后從數據里面找到關鍵點,然后怎么用最好的算法來解決問題。
事實上你如果看全人類文明的發展,其實就是一個反饋回路。什么叫反饋回路?今天我有一個想法,我有一個算法,我有一個工具,我有一個假設,我就去做實驗,我就收集實際的數據,從數據里面來洞察、理解,來知道它的關鍵點,來想下一個實驗做什么,下一個產品是什么。不管你是做傳統產業還是什么,每個東西都是這樣的反饋回路。今天所謂的大數據,所謂的機器學習,所謂的人工智能,都是能夠幫你,能夠更多的把這些數據傳起來,你每一次回路,你的東西應該能進步一些。以前我們可能要花數十年,百年,才能把一個回路給轉起來,今天我們可以很快的轉這個回路。以前做一個回路的時間我們可以做一百次回路,那我們的進步是不得了的。
回過頭來,我們到底應不應該擔心機器呢?機器這么聰明,機器這么快,又不會累。那什么叫智能?我覺得智能起碼有下面四種定義。
第一個定義是功能,功能是毫無疑問的,今天這輛車多少匹馬力,多少氣缸,能跑多快,0—60公里能夠跑3秒或者6秒,這叫功能。計算機有多少內存,能算多快,功能大家都沒有爭議。
智能是隨時間而定的,我記得70年代那時候的智能是什么?當電視第一次有搖控器的時候,那個時候就叫智能電視。因為你不用到前面去就可以轉臺了,實際上搖控器改變了我們的形態。以前你要到前面轉臺,轉臺的幾率一定沒有那么多,更沒有“沙發土豆”,當年的智能電視是這個定義,今天的智能電視不用我講你也知道了,我相信20年后的智能電視又有改變。那計算機、算盤,當時我很羨慕會打算盤的人,包括開根號,誰能開的很快,小時候還有這樣的算術比賽,今天已經沒有這樣的算術比賽了。這跟下棋一樣,今天人已經下不過機器了在象棋方面,所以象棋也是一樣,相當于看誰能下的比較深,有點跟開根號一樣,所以智能隨時間而改變。
智力又更高一層了,就是創造力,人最寶貴的東西就是創造力。剛才講的那些所謂智能,都是人想好的算法叫機器去做,人都不知道我們下一個創造力來自什么。我給你個選擇題有五個答案,我說都不是這個,是另外的東西,這才是創造力,創造力絕對不是選擇題。
智慧,大師級的,歷史上有這么多有智慧的人講的東西,能啟發我們,能激勵我們的,這個我覺得是更高一層的,計算機遠遠沒有達到這種程度。
那計算機到底是什么?圖靈很了不起的就是把計算機的理論奠定了,而且還沒有把計算機做出來以前,他就說所有的有算法的東西都可以拿到計算機來執行。計算機相當于我們的左腦,做重復性的計算。比如說開根號,下棋,我想下這一步你就會下哪幾步,把算法算好。包括深度學習,都是我們人想出一個算法叫計算執行,今天我沒有看到任何一個情形出來,你做一個算法他可以想出另外一個新的算法解決問題,因為人都不知道下一個問題怎么解,你怎么可能讓計算機去做呢?
即使是這樣,計算機+大數據是非常非常有能量的,原因很簡單。到底信息是不是智能?我覺得有兩個觀點。我們說一個人博學多文是一個例子,還有一個反例就是內線交易。內線交易是違法的,誰不想賺錢呢?你要投資股票,今天有一個人,張三有內線的資料,他不應該用的時候用了,這樣的人是要吃法律官司的,我們不會認為這個人比較聰明。但的確他有這個信息我沒有,他一定會做出更好的判斷,所以信息到底是不是更好的智能?這是可以辯論的。
剛才提到了很多問題,其實人的算法加上計算機,我們不能看全世界所有的文章,我們可以讓計算機去看。但是計算機去看不是掃過弄進來而已,沒有意義,我們必須要有一個算法,叫計算機看文章的時候去針對什么東西。比如說今天很多人做投資,他可以寫一個程序,他說我去看文章的時候看哪些東西,讓計算機去看,把全世界所有的文章,針對每個公司的文章看一遍,看完之后得到一些分析,根據這個分析我做一個決定該怎么買賣股票。但是別忘了,那個算法還是來自我們,所以我們跟計算機的關系有點像左腦和大腦的關系,計算機是最好的左腦。那我們的右腦是什么?我們的想象力、算法,左腦和有腦搭配,就可以有更多的小心求證和創新。
最后人工智能危不危險?有很多人說人工智能非常危險,比核子武器還要危險,甚至有人說臨界特點。我認為這些擔憂完全沒有必要,因為計算機其實就是一個工具,它是最好的左腦。我們把算法交給它,它不會喊累,就一直算,根號算到13700位都可以算,計算機就是這么一個東西。要說意識,人有意識,我知道我為什么講這些東西,我也知道你怎么看我做這件事情,就是笛卡爾說的我思故我在,計算機是沒有意識的。小冰在做一些有意識的東西,但是這都是我們寫好的,故意不告訴你答案,吊吊你,這是我們做好的程序。
如果有人把計算機做一些壞的意識,那你要怪后面的那個人,大家不會認為飛機是不好的東西,但是也有人拿飛機做壞事,但是你怪的是用飛機做壞事的人,不是怪飛機。所以計算機不可能有意識要消滅人類的,如果有那一天,一定是有一個人把計算機設置成那個樣子。拿無人車做一個例子,今天做無人車的都是想怎么能避免怎么不撞到人,那你同樣會問,如果我做一個車看到人就撞,一定不會比避免希望撞人更難,那為什么沒有人做這樣的事情?因為良知嘛。如果有一輛車看到人就撞,我們怪的一定是做車的人,而不是怪汽車。
所有的機器我們希望都是可控的,沒有人希望造一個不可控的機器人。那么計算到底有沒有危險呢?唯一一個我覺得是將來我們可能要避免的危險,就是大、蟲。所有的計算機里面都會有蟲,蟲會產生一些我們無法預期的后果。如果蟲遇到人就傷害,這幾乎是零,BUG會產生不好的解決,但是我們可以避免。1950年代計算機還沒開始的時候,《時代》雜志就說,人們不怕做出大卡車這樣的東西,但是我們怕做出一個比我們聰明的人,到現在60年過去了,我們還在擔心這個問題,我覺得沒有必要。人的良知可以讓世界很和諧,人類加機器一定會幫我們做出人類本身自己不能做的很多事情的,像飛機一樣。所以我認為人類+機器是超人的關系,用英文來講就是增強智能。
A.I讓我們加上機器,做出我們做不到的事情,是超人的關系,謝謝大家!