視覺,指的是圖片識別。在應用層面,主要圍繞的是對圖片中的物體進行分類和物體檢測。語音,指的是翻譯和與人工智能的對話。從論壇中的演講來看,微軟對圖片識別技術的發展,使得圖片中的細節更多的被識別;語音識別則使得我們可以從與Bot的對話中獲得更多信息,并且通過語音翻譯不用學外語,也可出游各國,與外國友人對話無障礙。
論壇中,微軟在大中華區的研究員們分別闡述了圖片識別在企業工作環境及員工安全的維護、視頻網站的運營和車損鑒定方面的應用,還有語音識別在人工智能對話,以及語音翻譯兩個領域的具體運用。
一、圖像識別,解讀圖片中的各種細節
視覺方面,微軟大中華區創新合作事業部的技術顧問分享了基于機器學習和深度學習的計算機視覺在行業中的應用經驗。
微軟在視覺方面的研究并不是近兩年才開始的,早在2010年,他們就開展了圖片識別的工作。工作主要從兩方面展開:一是圖片的分類;二是物體檢測。基于這個層面,再開始研究物體和圖像該如何進行分割。
目前為止,他們研發出的圖片識別的應用模式有六種,分別為:Computer Vision API;Face API;Bing Visual Search;Content Moderator;Customer Vision Service;Video Indexer。
他們詳細介紹了其中兩種應用模式的落地場景:在Computer Vision Service模式中,可以對圖片進行多種語言的更詳細的描述。通過這個服務,對海量的圖片進行標簽和分類,并且為每張圖片自動取名字,也可以對視頻進行分類。視頻網站也能使用這個技術,自動對視頻進行解讀,生成彈幕,作為推廣視頻的一種方式,增強視頻的熱度,促發觀眾們也加入評論中,增加觀眾的粘度。
在Custom Vision Service模式中,他們提升了對物體的檢測功能,現在能夠對圖片中更豐富的物體種類進行識別。
在展示的Demo中,他們在自己的網站中進行示范。在這個網站中上傳圖片,內嵌的圖片識別程序便可以馬上識別出圖中的物體。當鼠標移動到物體上時,會出現自動識別分類好的標簽。之后上傳的圖片中如果還有相同標簽的物體,程序會自動將它們進行對比,并檢測。這款應用可以在建筑工地或者車間里應用,在這些場景里安上攝像頭,并在攝像頭中內嵌這套程序,可以通過攝像頭拍照后開始圖片識別,發現有哪些員工的安全帽沒有帶好,立馬去提醒他們帶好安全帽,保障工作的安全。
這個方面的應用相較而言,十分廣泛。工作人員基于九十張車禍后受損的汽車的圖片,就訓練出一款能夠從圖片中自動檢測車損的程序。通過圖片識別,圖片中車輛的受損部件的名稱和受損程度自動呈現出來。
日本的一個停車場還將這個程序用于檢測停車場中的異常情況,比如零件生銹、電開關未關及保險是否安全等,以便及時進行維護;通過The Vision AI deverloper Kit,他們還把訓練好的模型安裝到智能家居上進行應用。
二、語音識別,使交流不再變得無奈
在語音識別方面,應用分為Bot Service和語音翻譯。Bot Service中有兩個典型的應用軟件,一個是Dynamics365,另一個是Office 365。
Dynaimic365主要應用在商務領域中,比如在客服對話中,通過機器學習,訓練出固定模型的對話,可以讓智能化的客服與客戶進行對話的場景中。
Office365中的應用則偏于個人層面,使用者可以通過在微信、Skype等社交平臺中插入這種程序,便能實現與Bot的對話。比如,當你在企業微信中運行這款程序,當問到Bot你今天的工作任務時,它便會自動分析你的企業微信中的所有聊天記錄,將你今天的工作任務進行匯總并發送給你;當把它加入到群聊中,當你所設定的語言與群里其他人的語言不同時,Bot會自動將語言翻譯為對方的語言模式。
語音翻譯的應用場景則更為廣泛,目前,已經在八個領域內落地發展。分別為:社交與游戲;客服;實時遠程對話;電子商務;商業數據分析;跨國多語言交流;閱讀;同聲翻譯。
至今為止,微軟的語音翻譯可以支持62種語言的語音到書面的轉化,11種語言的從語音到語音的翻譯,以及22種神經網絡翻譯語言。雖然同真人的人工翻譯相比,仍有不足,但是對于日常的工作生活而言,在許多場景中確確實實能給人帶來便捷的服務。因而,還是有發展的可能及必要性。
結語:圖片識別與語音識別多領域落地發展
微軟在圖片識別和語音方面已經邁出了很大的步伐,也能看出他們很努力的在不斷的開拓新的應用領域。從目前的成果看來,他們已經打開了許多新的大門,會為企業的運作和個人的生活及工作都帶來更豐富的體驗與高效的運轉。