昨天亞馬遜在 re:Invent 開發者大會上宣布,AWS云計算平臺直接提供AI SaaS服務,意味著這方面的創業機會基本消失。人工智能已經成為云計算幾大平臺之戰的下一大競爭點。本文深入分析智能時代云計算兩大巨頭亞馬遜和谷歌的競爭態勢,同時具體介紹“亞馬遜AI” 新服務的圖像分析、文本及語音轉換和自然語言處理功能。
亞馬遜一直在其零售業務中使用深度學習和人工智能來提高客戶體驗。該公司聲稱,它有數千名工程師專門從事人工智能相關開發,以改善搜索、物流、產品推薦和庫存管理。亞馬遜現在正在將相同的專業知識帶給云,展示了開發人員可以用來構建智能應用程序的API。被稱為 “亞馬遜AI”的新服務提供了強大的AI功能,如圖像分析,文本到語音轉換和自然語言處理。
直接提供AI Saas服務,亞馬遜與谷歌的云之戰
云計算是企業計算的未來,而云計算的巨人是一家從未有人想到過的公司——亞馬遜。
那還是在谷歌和微軟為了辦公軟件彼此掐架的那一年,亞馬遜推出了 Amazon Web Services(AWS),AWS 體現出了亞馬遜這家公司的本身:它具有很強的可擴展性和清晰定義的強化接口。用戶——首先是亞馬遜自己,然后是世界各地其他公司——可以使用“原語”(primitives)并將其混搭,從而構建一個更高效、可擴展并且安全的后端,這是幾乎任何一家公司靠自己都無法建立的。
AWS 的產品現在已經遠遠不止(虛擬)處理器、硬盤驅動器和數據庫等基礎架構,其成功的基礎是亞馬遜“純平臺的方法”:它們為企業提供了幾乎任何企業想要的東西。
另一方面,谷歌則是一家產品公司;實際上,谷歌常常被作為蘋果的對手——區別是前者提供的是服務,后者提供的是產品——沒有人把谷歌真正視為一家平臺公司。但是,當你把產品定義為“為終端用戶提供的最終解決方案”時,你就會發現亞馬遜跟谷歌實際上十分相似。
產品公司和平臺公司的區別是很大的,前者無論是提供智能手機還是搜索引擎,都需要擁有極高的用戶體驗和設計,其后端工程理論上是不為終端用戶所見的。
但是,亞馬遜還有微軟這兩家 IT 時代的卓越平臺公司,采取的恰好是與此相反的模式:沒有集成多個部件交付最終產品,AWS 將構建后端服務的所有部件分解為完全模塊化的部件;在這方面微軟對其 Win32 API 的做法也一樣。是的,這意味著在設計上 Windows 的最終用戶體驗比 Mac OS 更糟糕,但 Windows 更強大、更具可擴展性,就靠這一個方法,Windows 擁有數以百萬計的商用App,甚至在今天也仍然處于操作系統的中心。AWS 為后端服務做了與此完全相同的事情,AWS 的靈活性和模塊化是它擊敗谷歌 2008 年推出的最初的云產品 Google App Engine的主要原因。使用Google App Engine,你必須接受大量谷歌代你做出的決定;而使用 AWS 讓你能構建自己真正所需要的東西。
現在,機器學習將越來越多地被云服務所主導:兩者都涉及處理可擴展的和大量的數據,只有極少數的巨頭才擁有巨額資金,不僅建立所需要的基礎設施,并且雇用世界上最好的機器學習工程師。這就意味著,對于大多數企業來說,機器學習所產生的差異,首先取決于他們的數據是否在云中(當然也會有內部部署的解決方案,但預計隨著時間的推移,內部部署會越來越落后),其次就是它們選擇哪家云服務供應商。
優秀的機器學習產品不僅可以作為一項差異化,而且是可持續的:更好的機器學習將吸引更多的客戶,從而獲得更多的數據,而數據是機器學習不斷改進的燃料。正因如此,擁有海量數據的谷歌是AWS在云計算中的最大威脅。
谷歌的巨大優勢是,這家公司在近二十年的時間里已經使用了大量的數據,并在過去幾年開發了功能強大的機器學習算法。盡管如此,數據仍然是最重要的,最好的證據是去年,谷歌開源了TensorFlow——谷歌意愿與世人分享它的方法和知識產權,從側面表明谷歌擁有優越的數據和信息處理基礎設施,而這些都是可持續的優勢。
就在感恩節之前,谷歌發布了一系列產品公告,明確利用其數據優勢:
Cloud Natural Language API,能夠使用機器學習分析文本
Cloud Translation API 的高級版本,使用機器學習,大幅提高了 8 種語言翻譯的準確性(相比支持超過100種語言的標準版本性能要高級很多)
使用機器學習分析圖像的 Cloud Vision API 大幅降價
新的Cloud Jobs API,使用機器學習將職位與潛在員工匹配起來
谷歌花了很多年的時間磨煉其算法,因此在將這些算法應用于企業數據集時,其結果非常可能得到更好的結果,或者至少遠遠低于訓練時的漏洞。我認為這一優勢將持續下去,并且影響巨大。
盡管如此,谷歌仍然需要做更多的工作,這也是為什么谷歌要挖來李飛飛和李佳,讓她們帶領新成立的云端機器學習小組:這個小組將負責開發新的商用機器學習API。換句話說,其任務是將谷歌的機器學習功能產品化。
這一點顯示了谷歌在戰略上的精明:谷歌在第一波云計算時顯然落后于亞馬遜,因為當時成功取決于哪家公司有最好的平臺;通過開源Kubernetes,谷歌正在試圖將競爭平面轉向產品。畢竟,改變競爭規則通常比改變公司的根本性質更容易。
谷歌的成功并不確定:該公司不得不面對“銷售vs廣告”的新業務模式,并建立一個不僅對銷售,而且對整個企業的支持必不可少的組織。這些都是亞馬遜占優勢的領域,亞馬遜還有一個相當規模的的合作伙伴生態系統和更大的特征集。
當然,AWS 還有自己的機器學習 API,類似 IBM 和微軟。微軟可能在這方面更強:不僅公司內已經在這方面有了多年的研究,而且也有產品化的經驗。谷歌長期以來的“消費者焦點”有時也會是障礙,而且谷歌也還不使用自家產品。
不過,谷歌將是強大的競爭對手:其戰略相當合理,而且更重要的是,其開發新業務的想法相比10年前更顯急切。最重要的是,云計算仍處于剛開始的階段,雖然亞馬遜似乎已經走出了挺遠,但未來仍然是未來。谷歌將如何改變未來的規則,讓我們拭目以待。
亞馬遜三大人工智能產品
這個新平臺將把亞馬遜多年來在其內部開發的許多機器學習應用開放給外部開發者。當前,該服務提供了三種工具,但未來還將增加更多工具。
亞馬遜公司 CEO Andy Jassy 強調說,亞馬遜本身在機器學習方面已經深耕多年,“我們公司內已經做了很多 AI 的研究,”他說:“我們上千名專注于 AI 的研發者。”
亞馬遜 AI 平臺推出的這些新服務中的第一個是名為“Rekognition”的圖像識別服務。該服務類似于谷歌、微軟等公司的同類服務,能夠識別圖像中的物體和場景。亞馬遜強調它的系統非常智能,例如能夠識別圖像中狗的品種。雖然很厲害,但其他競爭對手公司也能做到。Jassy 說這項服務很有成本效益,但他沒有公布價格。
第二個是名為“Amazon Polly”的語音合成服務,該服務同樣使用了機器學習技術。Jassy 指出,Polly 能合成非常生活化的語言,說“Polly 專門為語音合成中的非常具有挑戰性的方面而設計,例如,‘I live in Seattle’和‘Live from New York’,這兩句話中‘live’雖然拼寫相同,但發音不同,而 Polly 能理解這些并正確發音。”Polly 支持24種語言,有47種聲音,包括男聲和女聲。
第三個新服務,也是最重要的一個,名為“Lex”。Jassy 說,Lex 本來是支持亞馬遜自己的 Alexa 服務的技術,能用于構建具有多步對話功能的聊天應用。開發者可以在 Lex Console 上設計對話,僅用幾個對話樣本即能訓練聊天機器人。
Lex 與 Lambda 以及其他 AWS 的服務深度集成,而且也有與其他一些企業服務的接口。此外,它還與 Facebook Messenger、Slack 和 Twilio 集成,使得它不局限于亞馬遜自己的設備,能夠嵌入其他任何設備中。
亞馬遜在今天的發布中說:“Amazon Lex 可以用來構建聊天機器人(chatbots)以及其他形式的網頁/移動應用,支持非常生動的、生活化的互動。”“建成的聊天機器人能夠為用戶提供資訊、管理應用程序、簡化工作、甚至能作為機器人、無人機、玩具等的控制程序。”
投資MXNet
亞馬遜還投資了MXNet,這是一個可在各種環境中運行的深度學習框架。除此之外,亞馬遜還在優化EC2圖像,以運行流行的深度學習框架,包括CNTK,TensorFlow 和 Theano。
關于這件事,MXNet的創建成員之一李沐不久前在知乎上寫道:能夠讓AWS放棄自己造的輪子,并且明確的表示會支持一個主要由開源社區開發的系統,其實非常不容易。對于AWS來說,最關心的是用戶體驗,然后是買資源賺錢。這里最保險的是支持所有流行的DL框架。但AWS能夠強調說未來會大力投入MXNet,主要是對框架的發展前景和小伙伴們工作的肯定。
MXNet最早就是幾個人抱著純粹對技術和開發的熱情做起來的興趣項目,既沒有指望靠它畢業,也沒想著用它賺錢。能夠一步一步慢慢的擴大,我覺得最重要的是每個小伙伴對這個事情的投入,和抱著降低深度學習門檻的使命。也是讓大家只需要關心“數據量和運算量”,而不是如何有效實現利用硬件;只需要“數學公式寫好,根本就不想知道你支持哪些layer,分別是干什么的”,不用管自動求導如何訓練;只需要“把手上的數據交出去給云即可,然后花錢租算力”,而不是云上如何管理如何優化。