李飛飛在婦女節這天完成了她加入谷歌云后的首秀——在谷歌 Cloud Next 17上發表主旨演講。她在會上發布了谷歌云面向機器學習和人工智能的一系列新API 以及收購機器學習競賽平臺Kaggle的消息。主旨演講中,她提到了自己加入谷歌云的初衷,強調了“AI 民主化”概念。新智元帶來獨家文字實錄和PPT。
美國當地時間3月8日,谷歌 Cloud Next 17 大會舉行。去年年底加入谷歌云的李飛飛教授首次亮相,以谷歌云負責人的身份,發布了谷歌云的一系列新API以及收購機器學習競賽平臺Kaggle的消息。主旨演講中,提到了自己加入谷歌云的初衷,強調了“AI 民主化”的概念。
谷歌 Cloud Next 云技術大會于是繼去年3月份谷歌召開首屆Cloud Next大會后的第二屆會議。本次會議將 Google高管、客戶、合作伙伴、開發人員、IT決策者、Google工程師等聚集在一起,共同探討和構建云技術的未來。幾位重要的演講嘉賓除李飛飛外,還有Google 首席執行官 Sundar Pichai、Google 母公司 Alphabet 執行主席 Eric Schmidt以及谷歌大腦負責人Jeff Dean 。
本場大會的關鍵詞可歸納如下:
1.收購 Kaggle
Kaggle 由 Goldbloom 和 Ben Hamner 于2010年創立,其平臺上擁有大約50萬名數據科學家。他們的服務開始的很早,盡管也有一些競爭對手,如 DrivenData,TopCoder 和 HackerRank,但由于其定位專注,Kaggle 已經遠遠甩開了這些競爭對手,基本上已經成為數據科學和機器學習競賽的大本營。
買下 Kaggle,谷歌相當于買到了一個數據科學家的最大、最活躍的的社區,擁有了這樣一個社區,谷歌也將在數據科學家中擁有更大的影響力(盡管由于 TensorFlow 以及其他項目,谷歌的影響力已經很高了)。
Kaggle 與谷歌有一些淵源,但只是最近的事情。本月初,谷歌和 Kaggle 聯合舉辦了一項獎金總額10萬美元的機器學習競賽,競賽內容是給 YouTube 視頻分類。這場比賽也跟谷歌云平臺進行了深度整合。
2. 谷歌云新API
谷歌云的特點,用一句話總結,是大規模計算、高集成性和高可靠性,支持TensorFlow。
李飛飛介紹了 Google Cloud 一些新 API ,比如 Video Intelligence API、Cloud Vision API、Cloud Natural Language API、Cloud Jobs API、Cloud ML Engine 等。
其中最重要的是 Video Intelligence API。 新推出的 API 能對視頻進行全片分析,提煉全片的故事脈絡,記錄一共發生了多少個場景、每個具體場景的情節。這有助于對視頻進行更精確的標簽分類。
2017年1月,李飛飛在北京接受新智元的專訪,她提到: “我選擇去谷歌的原因就是考慮到人工智能的普世價值,云能夠對應各個垂直的領域,比如金融、商業、醫療、制造、農業、教育、娛樂、傳媒……這是特別重要的一點。如果說要涉足工業界、產業界,我自己最想學習的是如何真正把人工智能應用到大家需要的地方,而不是光是去畫一個餅。”李飛飛 Cloud Next 17主旨演講實錄
此番在谷歌云大會上的亮相,李飛飛更具體地闡釋了她的這一觀點,以下是李飛飛演講全文,新智元聽譯整理:
李飛飛:大家早上好。我叫李飛飛,是谷歌云、AI/ML 的首席科學家。在谷歌的同事中,我現在仍是谷歌新人(NewGooler)。非常榮幸能站在臺上跟大家分享我個人關于AI、機器學習和谷歌云的觀點。
世 界正在以令人難以置信的速度發生改變,有些人說,我們正在經歷第四次工業革命,(在這一階段)大多數的進步都是由計算的強大力量推動的。作為一名從業20 多年的AI 技術人員,我主要的研究領域是機器學習和計算機視覺。我見證了自己所在領域正在從一個崇高的學術追求,變成這一改變的一個最大的驅動力。
但是,改變的發生是小規模的,要看清這種改變需要一定的想象力。
舉一個大家熟悉的例子——無人車,不難想象,它在傳感器和算法的幫助下,無人駕駛汽車能降低車禍的風險,給我們更多的時間在通勤的時候也可以工作、社交和休息。這對于單個司機本身來說有很大的好處。
但是,如果成千上萬的人都擁有了無人駕駛汽車會是怎樣的景象?——一夜之間,堵車減少了,停車也會變得格外簡單。
如果數百萬人都擁有無人車,又會怎樣?——整個城市將會被重塑,城市基礎設施的使用也會被改變。
這兩種規模之間的差異在于參與( Participations),隨著科技觸及的人群在變大,其影響也會變得更加深遠。這也是為什么,AI 的下一步,必須是民主化(Democratization),減少準入障礙,對更大的社區開放,包括開發者、用戶和企業家。
談到AI 的民主化和觸及更多的人,谷歌云平臺已經為客戶提供了大量的應用,每天為數十億人提供服務,這是大量的參與。
現在,如果你能想象,把這些平臺大規模的觸及能力和AI 的能力結合起來,讓它對所有人都可用,然后我們就可以見到,生命質量的大幅度提高,比歷史上任何一個時期都要高。從金融到教育,從制造業到健康,從零售到 農業等等,you named it。這也是為什么,通過谷歌云平臺所提供的AI能力讓我很興奮的原因。這意味著,終于,我可以分享自己在斯坦福深耕多年的技術和洞見。
另外,順便提一句,這讓我想起在AI 領域與李佳博士的合作。她在多年前是我的第一名博士生,現在和我一起加入了谷歌云,任谷歌云、AL/ML 研發主管。今天是38婦女節,她(李佳)是計算科學領域和AI 領域的另一個大魔王(原文Bad Ass,玩笑,現場掌聲雷動)。
要 證明AI 在解決現實世界的問題,我們從來不缺乏例子。正如我們在前面看到的demo:通過谷歌Home 訪問ebay進行購物。令人印象深刻的是,但這還只是整個行業變革的開始,更多的問題會通過AI 得到解決,并且,用來建造AI應用的工具也正在變得越來越高效,且更容易使用。
這會帶來世界劇烈的改變,這一節奏也會比大多數人想象的要快。
接下來看幾個例子:
AI 其實一直都對零售業有影響。例如,機器學習算法,已經發生作用,為消費者在購物時提供相關信息,但是,有很多都是在等待被解決。比如,在供應鏈的自動化以及商品需求的預測上。無人機和無人車革命在變革物流業。智能分析工具在幫助保證安全和理解消費者的流向等等。
另 一個例子是媒體和文化,它們也已經受到AI的影響。這是計算機視覺的偉大之處。機器學習已經提供的工具,例如Google Photo,實現圖像標簽的自動化,Youtube 視頻推薦列表等等,媒體體驗會越來越用戶定制化(user fit)。AR 和 VR 將會更依賴于計算機視覺,動作追蹤、環境監測和游戲。越來越多的新聞都會自動生成,讓記者能更加聚焦于大新聞和深度故事。AI 在幫助我們設計和個性化我們自己的內容上也將發生越來越重要的作用,比如,視頻、音樂、和藝術類工作。
在金融服務領域,我們已經看到,機器學習大量地、智能地起作用,用新的應用預測信用卡風險,增加既有客戶的粘度。
保險賠償將會由智能代理來進行評估。銀行業將會更加的虛擬化,因為,對話式機器人將會占領call centers,甚至是無人銀行將會管理金融。正如我們早期看到的,我們自己的感知將會被自動化,智能代理可被用于打擊犯罪行為,比如洗錢,欺詐。
最后,醫療。這是 AI 最關鍵的應用場景之一,能真正地提高人們的生活。近年來,在這上面,我們已經看到了AI令人難以置信的成就,幾個月前,我在谷歌大腦的同事使用深度學習算法,讓計算機能檢測出糖尿病致盲早期癥狀。
現在,想象一下,這樣的洞見如果擴展到整個醫療領域,大量的視覺診斷類的工作將會很快被自動化,以幫助醫生,減少醫生的過勞,然后,將服務擴展到更多沒有條件接受治療的人群。機器也能幫助記錄醫生訪問,管理疾病,帶來更多可信賴的、快速的服務。
關于AI 和機器學習能帶來的機會,我希望你們和我一樣興奮,但是,對于一些人來說,這些依然是存在高門檻的,它要求大量的專業知識,只有少數大公司可以提供這樣資 源,這也是為什么,云會是一個理想的平臺,這也是為什么,我們會在云AI/ML上投入大筆投資,它會在接下來的幾年內,提供強大的、易用的工具,給每一個 云的用戶進入這一領域的機會。
換句話說,谷歌云正在在將AI民主化,這包含了四步:
計算的民主化
數據民主化
算法民主化
人才和專業知識的民主化
首先也是最重要的——計算。AI 要求大量的計算,今天,深度學習算法能輕易地實現數十億的連接,訓練和使用這些模型,這要求計算資源。當然,這也是云要提供的主要功能。去年,我們提供了 beta版的云AI/ML引擎,今天,我在此宣布,我們增加了通用性,這是一個平臺,能利用計算的能力。然后透明地提供給大家。
簡單來說,如果你在開發機器學習模型,不過你喜歡使用你自己所在環境熟悉的工具,比如TensorFlow。ML引擎讓你可以專注于自己的解決方案,而將基 礎設施問題交給我們解決。在訓練這些模型的時候,就可以同步將它們上傳到云端。ML引擎可以更快、更大規模地處理。最后,只需要將結果從你自己的設備部署 到移動設備,在那里訓練的成果就可以用于解決現實世界的問題了。
但是,就算有了這么大的計算力,AI 仍舊是計算機科學當中最復雜的問題。對于很多企業和創業者來說,應用 AI 最簡便的方式就是使用谷歌提供的 API,并借此使用谷歌已經完全訓練好的機器學習模型,去解決常見的問題。這些 API 就像開關一樣,能夠立即打開任何應用中的智能,使其理解語音、照片,或者翻譯文本,理解自然語言。
但是,谷歌的 AI 技術無論是從寬度還是廣度上都遠遠不止于此。在谷歌,我們有無數的 AI 團隊,在這些團隊里有大量的 AI 研究在進行,覆蓋了 AI 的很多領域,包括機器學習。我們研究團隊里面,有很多都是在頂尖 AI 期刊和會議上發表了大量 AI 科研論文的作者。我們的團隊經常性地在國際比賽中獲得最佳論文獎。而且,這些科研的結果很快就會被轉化為產品,交付給消費者。在此,我十分高興地向大家介 紹我們最新的一些產品。
Vision API 已經持續穩定地開發了一段時間,這次它有了一些重大的性能提升。
第一個是元數據(meta-data)的擴充,它能夠從谷歌知識圖譜上百萬千萬的實體中識別網上的圖像。我們也在使用這些元數據,增強整個谷歌圖像搜索的能力。第二個提升是光學字符識別(OCR)能力,能夠識別圖像或含有大量文本的文件(比如法律文件或其他復雜的文書)。
但是,像素的世界遠遠不止于此。實際上,視頻中含有大量的數據,單單是 YouTube,每分鐘就會有好幾百乃至上千小時的視頻上傳。要理解視頻中這些豐富的內容,是計算機視覺中一個重要的、但一直以來都沒有得到很好解決的問 題。實際上,很多計算機視覺研究者,包括我在內,都將視頻視為數字宇宙的“暗物質”。
今天,我非常高興地向大家宣布一個由機器智能驅動的全新的 API:視頻智能 API。
下面,我們就請我的同事 Sara Robinson 向大家展示這個 API 的細節。
【Sara Robinson 展示】以超級碗谷歌家居的視頻為例,僅使用這一個 API,就能告訴我們兩個層面的東西:在一個相對高的層面,這個 API 告訴我們視頻內容是什么;在一個更粒度(granular)的層面,它能識別出在視頻的第幾分鐘出現了一只狗,不僅如此,它還能告訴我們這只狗的種類是什么。
剛才說了 API 針對一個視頻能做什么。對于企業級用戶而言,比如媒體工作人員,可能需要從大量不同的視頻中,選取一個主題的內容進行編排,或者找出某個具體的實體。在大 量視頻中使用視頻智能 API 檢索關鍵詞,比如“壘球”,返回的結果不僅有那些與壘球相關的視頻,同時還能顯示出在這些視頻的第幾分鐘出現了壘球的畫面。在一個相對較長的視頻中,視頻 智能 API 成功識別出了幾乎一閃而過的壘球出現的畫面,如果要人工來識別,必然需要耗費大量精力和時間。
現場展示表明,谷歌的這個視頻智能 API 能從大量的視頻數據庫中快速而且準確地識別出你想要的東西,而這在幾個月之前是連想象都無法想象到的。以往需要幾小時的工作,現在幾秒鐘就能完成了。
李飛飛:非常感謝 Sara 的展示。作為一名計算機視覺研究者,我非常激動。這么多年來,我們終于開始理解“暗物質”,并在這方面踏出了第一步。同時,也讓我們的客戶能夠從嵌入在視頻里的大量信息中提取價值。
接下來,我們繼續看 AI 民主化的第三個要素——數據。AI 需要海量的數據獲取智能,但是構建數據庫往往是最艱巨的一個問題。在這方面我深有體會。我帶領團隊構建了 ImageNet 數據庫,ImageNet 為機器視覺社區提供了 1500 萬帶標簽的數據。
很多人都很熟悉 ImageNet 之后的歷史了。在 2012 年,ImageNet 成為驅動深度學習革命最重要的要素之一。但是,直到今天,ImageNet 仍然是訓練深度學習算法被使用最多的數據庫和基準之一。
雖然ImageNet 取得了卓越的成果,但是從頭構建 ImageNet 艱巨而漫長的過程充分顯示了整理數據的困難。
我們需要一個更加有效和可擴展的方式,將數據民主地提供給開發者和領域的專家,并最終應用于商業當中。這也是為什么我如此激動地宣布,谷歌云收購 Kaggle 的消息。
在Anthony Goldblum 和 Ben Hamner 這兩位聯合創始人多年的努力下,Kaggle 團隊建立起了一個含有85萬多名數據科學家的強大社區,舉辦各種競賽,并且不斷開放新的數據集。
與谷歌云平臺結合,我們給予社群最先進的機器學習環境的直接訪問權,并給他們的模型最直接的營銷途徑。和Kaggle一起,我們正在營建世界上最大的機器學習人才中心。
事實上,kaggle已經與谷歌云一道,主辦了最大的視頻理解競賽,稱為YouTube-8百萬視頻理解挑戰。
所以說到人才和專家,我們也致力于幫助我們的合作伙伴和客戶在他們所需的級別開發更多的機器學習和AI專業知識。
在Google,我們一直在研究方面進行重大投資。每年,Google都會向全球超過250個學術研究項目提供大額資助,支持幾十個博士學位學生,并擁有數千名實習生。
此外,谷歌大腦認為,AI專家將是一個未來幾年越來越重要的資源,正在采取措施,尋找、教育和強化這一領域的未來領導者。
在谷歌云,與所有這些努力同時,我們也致力于使用我們的專業知識,為我們的客戶提供真正的結果。先進的解決方案實驗室為客戶解決更復雜的問題。 讓我們以保險公司用戶為例。 他們的許多工程師精通數據科學,有些甚至有機器學習的背景,但他們需要幫助建設一個真正的專業知識基礎。
為了做到這一點,一個USAA開發人員團隊來到Google的高級解決方案實驗室,在那里他們直接從我們自己的機器學習工程師和專家那里學習。這個團隊現在 正在努力工作,使用他們的新技能,另外也有其他的團隊,在以相同的方式接受培訓。我認為最有意義的技術是將寶貴的資源轉化為可以惠及每個人的東西。
印刷技術幫助大家識字。 印刷技術使得文化超越特權,使書籍成為可負擔得起的東西。它們可以填補世界各地的家庭和圖書館的書架。電網則把電力傳送到整個社區,使熱和光進入千家萬 戶。工業革命的大規模生產意味著,曾經過于昂貴的手工藝品,現在可以豐富數以百萬計的人的生活。當然,互聯網已經使從報紙到大學課程的一切都很容易分享, 他們在一夜間可以被全球觀眾獲得,而且往往是免費的。
這些例子的共同點是從獨占到無所不在的轉變。 我相信AI可以以我們前所未見、無法想象的規模提供這種轉變,以使得全球范圍內的優質獨享品傳播給美國其他地區。
這就是為什么我邀請觀眾中的每個人都參與其中。我們在谷歌云正在打造這些工具,但使用權在你們。
我們花了幾年的時間來證明AI具有掃蕩性的力量。所以,如果你也在其中,這沒什么好慚愧的,因為你并不孤獨。
谷歌的開源與生態
人工智能和機器學習毫無懸念地成為了2017年谷歌云計算技術大會的主角。李飛飛作為在計算機視覺和機器學習領域有著20年經驗的資深研究者,現在正在領導谷歌云朝著AI和ML的方向不斷前進。
谷歌云在市場上面臨的競爭對手其實不少,比如亞馬遜。李飛飛1月接受新智元專訪時曾對市場情況談過自己的觀點,她說:
“谷 歌是世界上 AI 力量最深厚的公司,也許這一兩年大家才看到,但是在學術界這么多年了,互相學習交流、合作最頻繁的公司就是谷歌。谷歌的 AI-First 是真心實意的 AI-First。AI 已經大量應用在它的產品當中,從搜索到設備再到云。不是說現在 AI 火了谷歌才開始做 AI,不管是計算機視覺還是自然語言處理,還是機器學習,到后來的深度學習,谷歌大腦是在工業界第一個搭建深度學習大平臺的機構,這一切都是用行動表示出 來、實實在在看得到的,這樣的技術實力、AI實力非常難得。所以,我對谷歌非常有信心。”
另外,她還認為:“云是人類最大的計算平臺,這是云最大的特色。云 最開始可能只是一個存儲設施,很快我們就進入到數據,而數據也被稱為“digital gold”。數據經過轉化得到的就是信息,是商業決策,是對企業具有戰略意義的資源。我們平時說,人工智能要幫助人類生活得更美好,但是怎么落地呢?我認 為,云可能是目前最好的落地平臺之一。”
從TensorFlow 和谷歌云等人工智能基礎設施的建設上,可以看到,開源和生態是谷歌核心中的核心。從這屆谷歌云大會、從李飛飛的研究中,我們也看到了谷歌在把技術開放給更多用戶的決心和努力。