Part1
全景圖+解析
高層趨勢
大數據+AI=新棧
2016年無疑是機器學習之年,任何目睹過眾多pitch的VC都應該能感受到這一點,那就是每一家初創企業都成為了“機器學習公司”,“.ai”變成了必備域名,而“等等,可是我們是用機器學習做到這個的”也成為了pitch deck的必備幻燈片。機器學習正在迅速成為許多應用的關鍵建構塊。
相應地,一個新興的技術棧正在出現,在這個技術棧里面,大數據被用于處理核心的數據工程挑戰,而機器學習則用于以分析洞察或者行動的形式從數據中析取出價值。
換言之,大數據提供管道,AI提供智能。當然,這種共生關系已經出現多年,只是能實現這個的目前還不多而已。
但是,現在這些技術開始大眾化的普及。“大數據+AI”正在成為眾多現代應用(不管是消費者型還是企業型)的默認技術棧。無論是初創企業還是一些財富1000強公司都在利用這一新的技術棧。而且在云巨頭的努力下,這個技術棧往往還有云計算這個更基礎的建構塊的加入,以機器學習云的形式出現。
但是AI的大眾化是否就意味著這種技術在短期內能實現商品化呢?現實是AI在技術上仍然非常困難。盡管許多工程師都在爭先培養AI技能,但全球這方面的領域專家仍然十分稀缺。
不過這股大眾化的趨勢已經不可逆轉,而機器學習早晚都要從競爭優勢演變成桌面籌碼。
這對初創企業和大公司都會產生影響。對于初創企業來說,除非你把AI軟件做成自己的最終產品,否則的話自我標榜為“機器學習公司”將變得毫無意義。對于大公司來說,如果現在你不積極推進大數據+AI的戰略,就會有變得過時的風險。AI已經是下一個風口了。
企業預算:一切向錢看
從2016年的情況來看,財富1000強公司已經在紛紛增加預算用于升級核心基礎設施以及分析,其關鍵的關注點正是大數據技術。分析機構IDC預計大數據和分析市場將從2016年的1300億美元增長到2020年的超過2030億美元。
而且財富1000強公司里面的許多買家在大數據技術方面正在變得越來越嫻熟、越來越目光敏銳。這些公司過去幾年做了很多功課,正在進入全面部署階段。這種情況不僅發生在技術導向型的公司,在很多行業都是如此。
在大公司每隔幾年就要發生的舊技術替代自然周期的推動下,這種情況得到進一步加速。大數據遭遇的環境也從逆風變成了順風。當然,很多大公司仍然處在大數據部署的早期階段,但是情況似乎在快速演變。
企業數據向云端遷移
直到幾年前,把企業數據遷移到公有云上面對于大公司CIO來說還是不可想象的事情,頂多是在開發環境下或者拿非關鍵的、面向外部的應用來嘗試一下。但現在畫風開始有所變化,大家對此的態度似乎變得更加開放了,比方說你會聽到這樣的說法“不管怎么說我們的客戶數據已經放到Salesforce云上面了”,或者“在網絡安全方面我們永遠也不會有像AWS那么多的預算”。但目前里大多數企業都向公有云遷移還遠得很,這部分是因為遺留系統和管制方面的原因。不過云供應商正在竭盡全力來加速這一趨勢的轉變。比如說AWS甚至可以開卡車來運你的硬盤到云端。
對比2016版與2017版
2016年大數據版圖
2017年大數據版圖
整合要來了嗎?
從上圖可看出,這張圖已經變得越來越擁擠,那么一個顯然的問題來了:行業是否瀕臨大規模整合的邊緣了呢?
似乎還沒有。至少目前如此。
首先VC仍然繼續樂于給新老公司提供資金扶持。2017年的第一季度成長階段的大數據初創企業拿到了不少的可觀融資,其中包括:Looker(8100萬美元D輪),InsideSales (5000萬美元F輪),DataRobot (5400萬美元C輪),Confluent (5000萬美元C輪),Collibra (5000萬美元C輪),Uptake (4000萬美元C輪),WorkFusion (35M00萬美元D輪) and MapD (3500萬美元B輪)等。去年12月DataBricks也拿到了6000萬美元的C輪。
2016年,大數據初創企業的總融資達到了148億美元,占到了全球技術風險投資的10%。
其次,自去年的大數據版圖推出以來,本領域的并購活動一直在穩步推進,但不是特別顯著,其中部分原因也許是未上市公司的估值仍然高企。入選2016大數據版圖的公司當中共有41家被收購(完整清單參見附注),這個節奏跟上一年是一致的。
另一方面,2017年剛開始就發生了一些大型的并購事件,其中包括Mobileye(被英特爾以153億美元收購),AppDynamics(被思科以37億美元收購),以及Nimble Storage(被HPE以12億美元收購)。
去年還有一個顯著的現象,那就是大型技術公司紛紛收購AI初創企業,尤其是那些解決水平問題、有著很好團隊的AI初創企業。其中包括Turi(蘋果)、Magic Pony(Twitter)、Viv Labs(三星)、MetaMind(Salesforce)、Geometric Intelligence(Uber)、API.ai(Google)以及Wise.io(GE)。當然,這種現象未必能持續太久,因為對AI的需求太旺盛了,人才實在是不夠用了。
第三,一些較大的大數據初創企業羽翼漸豐,正在成為獨立的上市公司。Snap無疑引領了技術公司IPO的復興,但是目前為止是大數據公司借了這股東風。
2016年只有Talend一家大數據公司上市,但2017年大數據公司已經呈現出爆發之勢。其中Mulesoft和Alteryx已經上市并且表現不錯,而Cloudera也即將上市,其最新估值(41億美元)與收入(2.61億美元)之間的差異將延至“獨角獸”估值現象的成色。另外,MapR以及定位智能公司Yext也已經在排隊等待了。
下一個會是誰呢?也許是Palantir這個超級獨角獸。這家多年以來保持神秘的公司已經公開表達了上市的興趣。其最新估值達到了200億美元,如果上市的話必將引起轟動。
云大戰
雖然大規模并購尚未出現,但業界的另一股趨勢值得注意,這就是“功能性整合”,這種現象在云端尤其顯著。一些關鍵的玩家正在通過自研產品和開源計算引擎的實現逐步構建“大數據+AI”的基礎構件,面向眾多客戶群提供其所期盼的“一站式”的服務。
AWS在產品發布的速度和幅度方面繼續給人留下深刻印象。目前AWS幾乎提供了大數據和AI方面的所有服務,包括分析框架、實時分析、數據庫(NoSQL、圖譜等)、商業智能以及日益豐富的AI能力,尤其是深度學習方面的能力。按照這種速度發展下去,AWS產品幾乎就要把大數據版圖的所有的基礎設施和分析細分領域都占據了。
加入云大戰稍晚的Google一直在積極開發廣泛的大數據產品(BigQuery、DataFlow、Dataproc、Datalab以及Dataprep等),并且把AI視為跨越式發展的殺手锏。在AI方面Google去年做了很多事情,包括推出了新的翻譯引擎,聘請了李飛飛和李佳領導新成立的Cloud AI and Machine Learning部門,推出了視頻識別的機器學習API,并且收購了數據科學家社區Kaggle。
其他大型的IT供應商,比如微軟、IBM、SAP、Oracle以及Salesforce等也在努力推出大數據產品(包括云端和本地)。除了技術自研和進行收購以外,這些玩家還越來越重視通過合作來打造生態鏈,其合作的重點是手上有數據的公司以及有“頭腦(AI)”的公司。IBM與Salesforce的合作以及SAP與Google的合作就是值得注意的案例。
用企業IT的行業標準來看,云供應商還比較小,但是其不斷膨脹的野心(其中包括從企業棧底層的IaaS向應用發展的企圖)與企業數據逐漸向云端遷移的趨勢結合,將打開龐大的企業技術市場大門,與傳統IT供應商展開激戰,而大數據和AI將是核心戰場。
2017數據生態體系概覽
基礎設施
去年的許多趨勢今年仍將延續,比如流處理技術,這方面Spark目前是主宰,不過像Flink這樣的有趣競爭者正在出現。此外,還有以下一些趨勢:
SQL正式回歸
在給NoSQL當了10年副手之后,曾經的霸主SQL數據庫正式吹響了回歸的號角。Google最近發布了Spanner數據庫的云端版。Spanner和CockroachDB(Spanner的開源版)都提供了可行的、強一致性的、可伸縮的SQL數據庫。Amaozn推出了Athena,跟Snowflake等產品類似,這是一款SQL數據引擎,可直接查詢S3下的數據。Google BigQuery、SparkSQL以及Presto等在企業逐漸獲得采用——這些都是SQL產品。
數據可視化
與公有云采用相關的一個有趣的趨勢是數據可視化。舊的ETL處理需要轉移大量的數據(而且往往要建立冗余數據集)并且建立數據倉庫,而數據可視化可以在數據保持不動的情況對其進行分析,提高了速度和敏捷性。許多下一代的分析供應商現在都可以同時提供數據可視化和數據準備服務,并讓客戶可訪問存儲在云端的數據。
數據治理與安全
隨著大數據在企業側走向成熟,以及數據的多樣性和體量的不斷發展,像數據治理這樣的主題也變得日益重要。許多公司已經選擇了“數據湖”作為把所有數據收集起來的手段。但除非你知道里面有什么東西,并且能夠訪問到合適的數據進行分析,否則的話數據湖再大也沒有意義。但是想讓用戶方便地找到想要的東西同時管理好權限并不容易。除了數據湖以外,治理的另一個集中的主題是以安全的、可審計的方式為任何人提供對可靠數據的便捷訪問。Informatica、 Collibra、Alation等大小供應商提供了數據目錄、參考數據管理、數據字典以及數據幫助臺等服務。
分析
數據科學家會不會瀕臨滅絕?
僅僅幾年前數據科學家還被譽為是“二十一世紀最性感的職業”。而且“數據科學家”在Glassdoor的“美國最佳職位”排行榜中仍然高居榜首。
但這個幾年前才出現的職業現在似乎有被圍困的感覺。這部分是因為必要性——盡管學校和程序在批量制造出新的數據科學家軍團,但周圍卻見不到多少,尤其是在招聘到頂級人才方面遭遇更大困難的財富1000強公司。在一些組織,數據科學部門正在從使能者演變為瓶頸。
與此同時,AI的大眾化以及自服務工具的蔓延使得數據科學技能有限的數據工程師,或者甚至是數據分析師執行一些基本功能變得更加容易了,而這些功能直到最近仍然是數據科學家的領地。在自動化工具的幫助下,企業的大量大數據工作,尤其是那些簡單枯燥的工作,將由數據工程師和數據分析師進行處理,而不是有著深厚技術技能的數據科學家。
換言之,除非數據科學最終不是由機器來完全處理的。但一些初創企業開始旗幟鮮明地打出了“數據科學自動化”的口號——其中最顯著的包括剛剛獲得5400萬美元融資的DataRobot,Salesforce Einstein也宣稱自己可以自動生成模型。
不奇怪的是,這些趨勢在數據科學社區不受歡迎并引起了爭議(當然了,誰會歡迎搶自己飯碗的事情)。然而,數據科學家目前大概還不需要太過恐懼。在氪遇見的未來里,自服務工具和自動化模型選擇將會“增強”數據科學家而不是消滅他們,其作用將是解放他們,讓他們把焦點放在需要判斷、創造力以及社會化技能或者垂直行業知識的任務上面。
讓一切一起協作:數據工作臺的崛起
在大多數大型企業里,大數據的采用都是從少數獨立項目(這里做一點Hadoop集群,那里用一用分析工具)以及一些新的職位(數據科學家、首席數據官)開始的。
但現在異質性已經開始發展,各種各樣的工具在整個企業范圍內得到了使用。在大公司的組織范圍內,集中化的“數據科學部門”正在讓位于更加去中心化的組織,這個由數據科學家、數據工程師以及數據分析師組成的群體,正日益嵌入到不同的業務部門里面。因此,對于平臺來說需求已經很明顯了,那就是要讓一切都能協作到一起來,因為大數據的成功正是建立在設立一條由技術、人以及流程組成的裝配線基礎之上的。
因此,一個全新的協作平臺類型正在加快出現,引領著所謂的DataOps(與DevOps對應)領域的發展。這方面值得關注的初創企業包括Dataiku 、Knime以及Domino Data Lab等。Cloudera最近剛剛基于收購的Sense發布了一款工作臺產品。該領域的開源運動也很強勁,比方說Jupyter和Anaconda就是例子。
應用
AI驅動的垂直應用
AI驅動的垂直應用出現已經有好幾年歷史了,但這股潮流已經從涓涓細流變成了怒濤激流。突然之間似乎每個人都在開發AI應用,不管是新的初創企業,還是后期階段的創業公司都押注到AI身上,希望能給自己帶來新的突飛猛進式的發展。
當然,水變大了難免魚龍混雜,這里當然有一些真正令人興奮的初創企業,但也有不少是掛羊頭賣狗肉來蹭熱點的。只是用了點機器學習的公司算不上AI公司。
基本上來說,做一家AI公司是很棘手的。選擇一個垂直的問題當然是個重要的開始。除了要有深厚的技術DNA以外,這還需要審慎的定位和戰術。但是AI帶來的無限可能性是很難不讓人著迷的。
尤其是在去年,把任何數據問題用AI來解決顯然已成趨勢,無論是企業一樣還是垂直行業都是如此。所以為了反映這一趨勢,今年的大數據版圖增加了交通、房地產、保險等垂直行業,并且把特別活躍的領域拆分了出來,比如營銷應用現在分出了B2B和B2C,生命科學分成了醫療保健和生命科學。
除了一些多少還是未來主義感覺的領域(比如無人車)以外,AI已經在更加沒有想象空間的企業領域發揮作用,比如提供預測、后端事務自動化、安全等。
盡管AI對人類工作的威脅還不是迫在眉睫,但將來沒有任何一種職業會對此免疫。其中包括一些最為根深蒂固的白領工作,如醫生或者律師等。(參見 Ben Thompson:AI 已來,你最應該擔心的不是生命,而是存在的意義)
金融界似乎一直在思考著AI的可能性和威脅。對沖基金正在為自己的算法尋找合適的替代數據。新的AI驅動的對沖基金盡管還處在發展的早期階段,但已經表現出不錯的勢頭(比如Numerai、Data Capital Management等)。而華爾街一些最著名的機構正在逐漸用AI來取代人力(黑石、高盛等)。
聊天機器人遭遇反沖
喜歡也好,討厭也罷,2016年都可以稱得上是聊天機器人之年,這些全自動化的事實對話代理基本上都是出現在聊天服務里面。聊天機器人盡管出現的時間不長,但已經經歷了好幾個炒作周期,從早期給人希望,到Tay的災難性收場,再到迷你復蘇,乃至于Facebook在其Messenger平臺推出的AI機器人錯誤率達到70%之后縮減了這方面的努力。
現在看來對聊天機器人的興奮似乎高興太早,原因也許是大家從亞洲的聊天機器人崛起以及Slack等底層基礎設施的快速發展得出了過于樂觀的信號。當然,聊天機器人最終的潛能肯定是非常巨大的,但它的真正成熟還需要很長的時間。目前為止,無論是“生產者”還是“消費者”都需要調整一下對它的期望。實際上,Amazon Echo的成功正是在縮小了場景之后取得的,而用戶也不要指望機器人什么都能回答了。現階段把人引入到過程里面,把AI作為增強因素的解決方案和服務應該是最看好的模式。
結論:
通過大數據與AI的黃金搭檔,我們正在進入大數據技術的“收獲”階段。其潛能將非常巨大。
隨著核心基礎設施不斷走向成熟,以及在AI推動下應用側的爆發,2017年的大數據(以及AI)生態體系將開足馬力,駛向光明的未來。