深度學(xué)習(xí)是去年Google NEXT云大會的核心主題,Google提出了成為現(xiàn)代人工智能中心的宏偉藍圖。昨天,Google正式發(fā)布了這一藍圖的下個篇章——Cloud AutoML Vision,讓任何人都可以通過上傳一組示例并單擊幾個按鈕來構(gòu)建自己的深度學(xué)習(xí)計算機視覺模型。在一個點擊式深度學(xué)習(xí)的世界中,AI的未來可能會是什么樣的?
僅僅在過去的兩年中,Google每年的深度學(xué)習(xí)研究都突出了人工智能正在以不可思議的各種方式滲透到Google的各個角落,同時DeepMind也持續(xù)在深度學(xué)習(xí)方法基本能力方面實現(xiàn)突破。總的來看,像Google這樣的公司正在轉(zhuǎn)向利用深度學(xué)習(xí)的方法來自動化、加速和徹底重新思考一切事情,從服務(wù)用戶的方式到如何運行基礎(chǔ)設(shè)施。
簡而言之,深度學(xué)習(xí)方法正在構(gòu)建或者改善數(shù)字世界不斷增加的算法。神經(jīng)網(wǎng)絡(luò)還遠未完善,要看到智能AI系統(tǒng)在各種日常任務(wù)中超越人類,還需要一段時日。如今的人工智能系統(tǒng)是專門為特定的應(yīng)用而建立的,還有大量的人才和洞察力用來打造這些系統(tǒng)。
事實上,也許今天阻礙AI徹底變革商業(yè)世界的最大限制因素,就是極度稀缺的高度熟練和經(jīng)驗豐富的深度學(xué)習(xí)程序員。目前,建立一個對未知數(shù)據(jù)有高度準(zhǔn)確的、強大的、具有足夠性能擴展到生產(chǎn)工作流中的生產(chǎn)級神經(jīng)應(yīng)用,還遠未達到點擊式的體驗。創(chuàng)建最先進的神經(jīng)網(wǎng)絡(luò),或者推進這個領(lǐng)域本身的發(fā)展?fàn)顟B(tài),都依賴于非常稀缺的研究人員,并且這中人才在硅谷之外很難找到。
十年前,大規(guī)模容錯虛擬化集群基礎(chǔ)設(shè)施也面臨同樣情況,現(xiàn)在它已經(jīng)成為云計算的代名詞。像亞馬遜、Google和微軟這樣的公司把云帶到大眾面前,構(gòu)建了專門的硬件,并且打包了大量專業(yè)技術(shù),既推動了底層技術(shù)的發(fā)展,又通過與客戶合作實現(xiàn)超越自身的能力。在這樣做的過程中,主要的技術(shù)公司把自己所需要的基礎(chǔ)設(shè)施和專業(yè)知識,并將其出租給其他方,讓他們從他們開創(chuàng)的技術(shù)中受益。
今天,幾乎每個大公司對于如何利用深度學(xué)習(xí)是感興趣的,但缺乏可用的深度學(xué)習(xí)人才和建立一個深度學(xué)習(xí)團隊進行大規(guī)模深度學(xué)習(xí)項目的啟動成本。即使是那些已經(jīng)開始深度學(xué)習(xí)的公司,也很少能夠達到像Google系統(tǒng)那樣的精確度或速度,而且Google也吸引了很多世界頂尖的AI人才。
Google在“AI for all”領(lǐng)域展開的努力,首先是圍繞著針對常見認知任務(wù)設(shè)計的預(yù)定義模型上構(gòu)建的API,例如識別照片、OCR、依賴樹解析、翻譯等大約10000個預(yù)定義的對象。這些工作開展得很好,許多公司都有很高的特定領(lǐng)域的定制識別需求,可以完美利用Google神經(jīng)識別基礎(chǔ)設(shè)施,特別是利用轉(zhuǎn)移學(xué)習(xí)將培新新模型所需的示例數(shù)量減到最少。
Cloud AutoML Vision代表著Google在這個點擊式神經(jīng)網(wǎng)絡(luò)嶄新世界中邁出的第一步。企業(yè)不再需要自己內(nèi)部的人工智能人員來利用深度學(xué)習(xí):只需通過Web界面上傳幾十個示例圖像,點擊一個按鈕即可獲得一個訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò),可以立即部署其具有生產(chǎn)準(zhǔn)確性和生產(chǎn)規(guī)模,在神經(jīng)準(zhǔn)確度水平上每秒處理數(shù)百萬個請求。Google甚至提供自己的注釋人員來標(biāo)記上傳的圖像,并與客戶合作??優(yōu)化他們的訓(xùn)練數(shù)據(jù)。
將圖像目錄拖放到一個文件夾中,點擊一下按鈕,獲得一個“正常工作”的神經(jīng)網(wǎng)絡(luò),就是“AI for everyone”的核心。正如全球各地的企業(yè)利用云來運行服務(wù)器而不了解其巨大復(fù)雜性一樣,Cloud AutoML Vision提供了一個世界的預(yù)覽,在這個世界中,每個人都能夠在不了解底層的情況下構(gòu)建神經(jīng)網(wǎng)絡(luò)。
事實上,Google將其稱肩負著“讓人工智能民主化的使命......降低準(zhǔn)入門檻,并使AI可用于最大可能的開發(fā)者、研究人員和企業(yè)社區(qū)”。企業(yè)將技術(shù)技能構(gòu)建現(xiàn)金神經(jīng)網(wǎng)絡(luò)所需的經(jīng)驗外包給Google,這為企業(yè)充分利用深度學(xué)習(xí)這場變革打開了一扇大門。
然而,Google在聲明中強調(diào),Cloud AutoML利用了轉(zhuǎn)移學(xué)習(xí),意味著企業(yè)不僅要將編程技術(shù)外包給Google,而且還要利用Google龐大的數(shù)據(jù)檔案和公司和該企業(yè)構(gòu)建自己生產(chǎn)模式為Google提供支撐的資源。建立一個新的計算機視覺分類器來識別特定類型的云?只需要轉(zhuǎn)移學(xué)習(xí)所需的幾十個例子就可以實現(xiàn),因為基礎(chǔ)模型的構(gòu)建需要大量數(shù)據(jù)和調(diào)優(yōu),這已經(jīng)由Google根據(jù)自己的需要完成了。
當(dāng)然,說到運行最先進的模型時,巨大的計算需求(通常將最大規(guī)模的專用定制芯片結(jié)合在一起)阻礙了大多數(shù)公司將注意力集中在模型的最大精度和規(guī)模上。Google在2016年關(guān)于其神經(jīng)轉(zhuǎn)換架構(gòu)的一篇論文指出,Google用了6天時間用96個NVIDIA K80 GPU來訓(xùn)練模型,又用了3天細化處理。解碼是在44個物理核心的Haswell機器(88個虛擬內(nèi)核)上進行的,使用這些CPU的處理速度可達到每秒4.5個語句,使用K80 GPU的處理速度可達到每秒1.9個語句,使用TPU處理器的處理速度可最高達到每秒15.6個語句。換句話說,如果沒有定制的TPU芯片,Google模型在44物理內(nèi)核的機器上每秒只能轉(zhuǎn)換大約100個字。如無專門的TPU來協(xié)助,翻譯1000到2000字的新聞文章可以輕松消耗掉數(shù)百個處理器的資源。去年微軟的一篇論文概述了神經(jīng)模型在生產(chǎn)中的成本是有多么貴。
Google再一次將自己定位為終極的人工智能計算設(shè)備,讓AutoML生成的模型通過其Cloud Vision或Cloud ML基礎(chǔ)設(shè)施能力立即運行,并充分利用其龐大的硬件投資。模型可立即擴展到生產(chǎn)流量水平,利用相同的硬件為Google自己的云提供動力。
所有這些,Google首次發(fā)布的Cloud AutoML產(chǎn)品代表著我們在思考深度學(xué)習(xí)的方式上有了深刻的轉(zhuǎn)變。迄今為止,即使有云廠商提供了神經(jīng)模型托管服務(wù),但企業(yè)仍然必須建立自己的人工智能實驗室,并聘請深度學(xué)習(xí)研究人員來建立其模型。高端人工智能研究人員的缺乏,以及訓(xùn)練數(shù)據(jù)的缺乏,意味著很少有公司具有像Google這樣開發(fā)系統(tǒng)的質(zhì)量和速度。今天,全球任何企業(yè)都可以將其所有的深度學(xué)習(xí)需求外包給Google,上傳幾十個示例,并讓Google處理注釋、模型構(gòu)建和調(diào)優(yōu)。不僅如此,由此產(chǎn)生的轉(zhuǎn)移學(xué)習(xí)訓(xùn)練模型還利用了像Google這樣的大公司的龐大的基礎(chǔ)訓(xùn)練數(shù)據(jù)。再點擊一下鼠標(biāo),最終模型可以立即部署到生產(chǎn)中,處理“Google規(guī)模”的流量。簡而言之,Google全新的Cloud AutoML平臺最終呈現(xiàn)了“點擊一下,為所有人實現(xiàn)AI”的夢想。