數據生態系統在2017年終于實現了火力全開。本文為大家提供了一個有關大數據領域詳細的“國情咨文”,以及投資機構針對這一行業的見解和關鍵趨勢。本文最初發布于Matt Turck博客,經原作者授權由InfoQ中文站翻譯并分享。
寫在前面
身為數據極客,在2017年應該能感覺很幸福。
去年,我們曾經問過大家“大數據還是個值得關注的大事嗎?”,并注意到由于大數據更像是一種“系統化工程”,因此在企業的接受速度方面要落后于整個業界的炒作。大數據技術用了多年時間進行演化,才從一種看起來很酷的新技術變成企業在生產環境中實際部署的核心企業級系統。
2017年,我們已經很適應這樣的部署階段。“大數據”這個詞正在逐漸淡出我們的視野,但這種技術本身還在飛速擴張。各行各業的各種軼事和證據證明相關產品越來越成熟,在越來越多的財富1000強企業內開始投入實用,很多初創公司借助這些技術快速實現了收入增長。
與此同時,宣傳炒作的泡沫開始毋庸置疑地轉向了這個生態系統中機器學習和人工智能等領域。過去幾個月來,人工智能領域涌現出一種“大爆炸”式的集體意識,這一情況與幾年前大數據技術的“遭遇”相差無幾,不過發展速度更快。
從另一個角度來看,2017年也是激動人心的一年:望穿秋水的IPO。今年頭幾個月,大數據領域的初創公司在這方面活動頻頻,并得到了公開市場的熱切歡迎。
總的來說,數據生態系統在2017年終于實現了火力全開。與以往每年一樣,我們將通過一年一次的大數據領域回顧為大家提供一個詳細的“國情咨文”,將我們針對這一行業的見解總結為關鍵趨勢奉獻給大家。
開始吧!
上層趨勢
大數據 + 人工智能 = 全新技術棧
任何風險投資機構有幸看到的各種宣傳都能證明,2016年,每家初創公司都在變身成為“機器學習公司”,“.ai”已成為必備的域名,而“等等,我們會通過機器學習技術解決這個問題”已經開始普遍出現在各類集資活動的演示文稿中。
圍繞人工智能的報道、座談會、新聞郵件,以及微博層出不窮,很多早已在關注機器學習技術的人,他們的反應就好像發現自己當地的某個品牌突然開始了全球化擴張:一方面,倍感驕傲;但另一方面,就好像面對派對上姍姍來遲又裝腔作勢的人那樣表現出明顯的厭煩之情,同時做好了不可避免會感到失望的心理準備。
雖然很容易認為這些趨勢的發展非常和緩,但該領域所經歷的演變是不可避免,并且影響深遠的:機器學習正在快速成為很多應用程序中最重要的組件。
我們正在見證一個新技術棧的涌現,在這個技術棧中,大數據技術被用于處理數據工程方面的核心挑戰,而機器學習技術被用于從數據中提取出價值(以分析見解或操作等形式)。
換句話說:大數據提供了渠道,人工智能提供了我們需要的智能。
當然,這種共生關系并不是什么新事物,但只有少數人有幸能夠真正實現。
這些技術正在真正開始變的“民主化”。“大數據 + 人工智能”已經成為很多現代化應用(無論面向普通消費者或企業的應用)的默認技術棧。大量初創公司和一些財富1000強企業都在使用這種新的技術棧(例如JP Morgan的“Contract Intelligence”應用)。
通常來說,云計算是這個“板凳”的第三條腿,但也并非總是如此。這一領域的發展也受到各大云計算巨頭的推動,這些巨頭們正在舉行一場公開的戰爭,爭先恐后地開始提供機器學習云(下文將詳細介紹)。
短期來看,是否可以認為民主化會促進人工智能技術的商品化?實際上從技術角度來說,人工智能依然很難。雖然很多工程師正在爭先恐后地培養有關人工智能技術的技能,但至少到目前,全球范圍內深入鉆研這一領域的專家依然很少。
不過這種民主化的趨勢至少不會“開倒車”,機器學習技術遲早會從競爭優勢“進化”成為一必備要素。而這種趨勢對初創公司和大企業都產生了深遠的影響。對于初創公司:除非你所開發的人工智能軟件是最終產品,那么將你自己稱呼為一家“機器學習公司”這樣的做法很快將變的毫無意義。對于大型企業:如果目前你還沒有積極主動地制定“大數據 + 人工智能”的戰略(自行實現或與其他供應商合作),那么你們很快會面臨被淘汰的境地。關于大數據,這樣的說法已經持續多年了,但隨著以大數據技術為基礎誕生的人工智能技術飛速發展,這一天只會更快速地到來。
企業的預算:逐利
過去多年來,在我們與大數據技術的買家和賣家的交談中,我們發現財富1000強公司中,越來越多的預算被用于對核心基礎架構進行升級,以及與數據分析有關的技術,大家都對大數據技術給予極大關注。很多分析機構也認同這一結論:IDC預計,到2020年,大數據和分析市場將從2016年的1300億美元市場規模增長至2030億美元。
在大數據技術方面,財富1000強公司的很多買家正變的越來越成熟和理智。過去多年來,他們已經進行了充分的研究調研,現在已經準備好全面部署了。不僅技術型行業,目前很多行業均是如此。這種飛速變化的趨勢還得到了老技術自然淘汰周期的進一步助推,對于大型企業,通常每隔幾年就會這樣做一次。曾經逆風飛揚(難以剔除或取代原有基礎架構)的大數據技術現在正逐漸變的順勢而飛(“我們需要替換過時的技術,市面上最好的同類技術是啥?”)。
當然,很多大企業(“晚期從眾者”)依然是大數據領域的“新手”,但這種情況的變化速度變的越來越快了。
企業數據正在陸續上云
就在幾年前,如果你建議企業將數據遷移至公有云,大企業的CIO給你的回應大部分只會是“除非我死了”,當時他們頂多只愿意將開發環境,或各種稀奇古怪,非關鍵的對外應用程序遷移至云端。但現在他們的看法似乎開始產生變化了,去年以來這種變化非常明顯。我們聽到了一種更為開放的心態:大家已經逐漸認識到“反正我們的客戶數據本來就已經保存在Salesforce的云中”,或者“在網絡安全的預算方面,我們的投入與AWS壓根兒沒得比”,而諷刺的是,過去多年來,對安全的顧慮曾是企業接受云計算的主要障礙之一,但云供應商在安全與合規(HIPAA)等方面的辛苦努力終于得到了證明和回報。
毫無疑問,目前離大部分企業數據都保存在公有云中這一目標還有一定距離,但部分原因在于遺留系統和管控制度。
然而演變的趨勢是明顯的,并且越來越快。云供應商會盡一切努力促進這一過程,甚至提供搬運海量數據的卡車。
2017大數據全景
言歸正傳,我們想象中2017年大數據領域的全景是這樣的。
1
我們放大看看開源技術部分:
2
當然,今年我在FirstMark的同事Jim Hao也對此圖的制作提供了巨大的幫助。
合并工作開始了嗎?
大數據領域每一年都變的更加熱鬧,因此這就造成了一個顯而易見的問題:這個行業是否迎來了大規模并購的風潮?
似乎還沒,至少目前還看不出這樣的趨勢。
首先,風投們會繼續愉快地注資各家新老公司。2017年頭幾個月,為成長階段的大數據初創公司注入巨資的消息此起彼伏:Looker(D輪,8100萬美元)、InsideSales(F輪,5千萬美元)、DataRobot(C輪,5400萬美元)、Confluent(C輪,5千萬美元)、Collibra(C輪,5千萬美元)、Uptake(C輪,4千萬美元)、WorkFusion(D輪,3500萬美元),以及MapD(B輪,3500萬美元)。另外DataBricks非常值得注意,他們在2016年12月剛獲得6千萬美元的C輪投資。全球范圍內,大數據初創公司在2016年得到了風投機構總計148億美元的投資,其中10%由全球性的技術VC提供。
另外需要注意,該領域的相關投資大多是全球性的,歐洲、以色列(如Voyager Labs)、中國(iCarbonX)等地均有大量公司成立并獲得注資。
其次,2016年全景中曾經提到,并購活動已在有序進行,但沒有特別讓人印象深刻的,也許部分原因在于私營公司的估值始終居高不下。我們在2016年大數據全景中曾經提到,共有41家公司被并購(完整清單請參閱文末備注),2017年,并購的節奏大體上會與去年持平。
另一方面,2017年至今已經出現了一些非常大的并購活動,例如Mobileye(被Intel以153億美元收購)、AppDynamics(思科,37億美元),以及Nimble Storage(HPE,12億美元)。
去年還曾出現過一種較為普遍但并不持久的現象:大型技術公司瘋狂并吞人工智能領域的初創公司,尤其是專為各種水平問題(Horizontal problem)組建了團隊的公司。例如:Turi(Apple)、Magic Pony(Twitter)、Viv Labs(三星)、MetaMind(Salesforce)、Geometric Intelligence(Uber)、API.ai(Google),以及Wise.io(GE)。雖然這些舉措使得主要針對水平領域的人工智能初創公司快速成為VC眼中的香餑餑,但這種不假思索的快速收購可能也對應著各種炒作,以及人工智能領域工程師的缺乏所造成的特殊時間段。
第三,一些大型大數據初創公司正在變成獨立的上市公司。SNAP可以說是帶動了技術公司IPO市場的復蘇,但截至目前,能夠借助該機會成功變現的依然只有大數據領域的公司。
雖然2016年全年,只有Talend這一家大數據公司成功上市,但2017年截至目前這一領域內滿是IPO良機。Mulesoft和Alteryx成功上市并且表現還不錯,這兩家的發行價都超過了IPO價格。在撰寫本文時,Cloudera也即將上市,該公司最新預估價(41億美元)與營收(2016年2.61億美元)之間的空缺對于“獨角獸”的估價現象將造成不小的考驗。此外MapR以及位置智能公司Yext也正在準備上市。
接下來會是誰?多年來,Palantir作為業內最低調的公司之一,已經表達出想要公開上市的意圖。考慮到Palantir的最新預估價為200億美元,如果其公開估價能夠接近這一數字,將會成為IPO領域的一枚重磅炸彈。
打響云端戰役
失敗和收購活動也許不會讓這個行業立刻得到鞏固,但“功能合并”的情況日漸普遍,尤其是在云計算領域。該領域內一些重量級選手正在逐漸構建整合式的“大數據 + 人工智能”服務,并且吸引了不少用戶,這些服務或者使用了自行開發的產品,或通過流行的開源計算引擎自行實現,這種服務距離很多買家所期待的“一站式購買”越來越近了。
尤其是Amazon Web Services還在繼續快速發布不同類型的產品,讓人獲得了深刻的印象。目前該公司已經圍繞大數據和人工智能技術提供了幾乎所有產品,包括分析框架、實時分析、數據庫(NoSQL、圖形等)、商業智能,以及日益完善的人工智能能力,并且在深度學習方面頗有建樹(完整清單可參閱這里)。按照這樣的速度,AWS很快將具備我們的大數據全景中所涉及的幾乎所有基礎架構和分析產品。
雖然Google涉足云計算的時間較晚,但他們正在圍繞大數據積極主動地構建一系列產品(BigQuery、Dataflow、Dataproc、Datalab、Dataprep等),并且已將人工智能視作超越競爭對手的方法之一。過去一年來,Google在人工智能方面公布了很多消息,例如:一個新的轉換引擎,雇傭了兩名出色的人工智能專家Fei-Fei Li和Jia Li來領導新成立的Cloud AI and Machine Learning部門,針對視頻識別提供的全新機器學習API(這里),并且收購了數據科學家社區Kaggle。
更大規模的企業級IT供應商 – 尤其是Microsoft、IBM、SAP、Oracle以及Salesforce – 也在努力推出大數據(以及人工智能)產品,這些產品都支持云端(最引人注目的是Microsoft)和本地部署。除了通過自行開發,以及收購而來的技術構建這些產品,他們的合作意愿也在逐漸加強,尤其是與“有數據的”公司(數據倉儲)和“有人工智能的”公司進行合作。例如IBM和Salesforce以及SAP與Google的合作都是其中的典型。
按照企業IT行業的標準來說,云供應商的規模依然不算大,但這些公司的野心(包括在企業技術棧中,將自己的地位從IaaS層面上升至應用程序層面的明確意圖)和穩扎穩打將企業數據遷往云端的做法相結合,意味著與傳統IT供應商的全面戰爭已然打響,大家在爭奪龐大的企業級技術市場的控制權,而大數據和人工智能將會是核心戰場。
大數據生態系統全景回顧
基礎架構
去年發生的很多事依舊余波未平,例如流處理的重要性與日俱增,目前Spark已獨占鰲頭,但人們對競爭產品,例如Flink的關注也逐漸開始涌現。此外還有一的有趣的話題時不時地出現在人們的對話中:
SQL已經正式回歸了
過去十多年來一直面對NoSQL技術“打壓”的SQL數據庫技術現已正式回歸。Google最近發布了云服務版的Spanner數據庫。Spanner和CockroachDB(Spanner的開源版本)承諾提供一種高存活性、強一致性,可橫向擴展的SQL數據庫。Amazon發布的Athena與諸如Snowflake等產品類似,是一種大型的SQL數據引擎,可直接查詢S3 Bucket中存儲的數據。Google BigQuery、SparkSQL以及Presto也開始在企業領域占有了一席之地 – 這些都是SQL產品。
數據虛擬化
在公有云的接受度方面有個有趣的趨勢:數據虛擬化產品的使用率正在快速激增。較為古老的ETL流程需要移動海量數據(并且通常需要為數據集創建副本)并創建數據倉庫,數據虛擬化技術使得企業可以無需移動,在原地進行數據分析,借此提高速度和敏捷性。很多下一代數據分析產品供應商,現在均已同時提供數據虛擬化和數據準備產品,借此幫助客戶更輕松地訪問云中存儲的數據。
數據管控和安全性
隨著大數據在企業中的應用日益成熟,并且數據的種類和數量依然在與日俱增,有關數據管控之類的話題也變的越來越重要。很多企業已經選擇通過“數據湖”的方式創建一個中央倉庫,用于保存自己的所有數據。但除非人們知道數據湖中到底有什么,并且能按需訪問分析工作所需的恰當數據,否則數據湖將全無用處。然而幫助用戶輕松找到自己需要的數據,同時妥善地管理數據訪問權,這一點并不容易實現。
不僅需要考慮數據湖本身,管控的一個核心主題在于讓用戶輕松訪問可信賴的數據,借此滿足企業中任何人的需求,同時必須要以安全、可審計的方式做到這一切。或大或小的供應商(Informatica、Collibra、Alation)紛紛提供功了數據編錄、參考數據管理、數據辭典,以及數據幫助臺等產品。
分析
數據科學家是否已經成為瀕危物種?
就在幾年前,數據科學家還被視作“21世紀最性感的職業”。就算到現在,Glassdoor的“美國最佳工作”清單中,“數據科學家”依然名列榜首。
但是僅僅在誕生幾年后,這個職業就已陷入困頓。部分原因在于其必要性,雖然學校和程序員課程依然在塑造大量粗制濫造的新手數據科學家,但這個崗位依然有很大空缺,尤其是財富1000強公司,他們都覺得很難招募到頂尖的技術人才。在某些組織中,數據科學部門已經從原本的促進者一舉“墮落”為瓶頸。
與此同時,隨著人工智能技術的民主化和自服務工具的飛速涌現,現在無論數據科學技能極為有限的數據工程師,甚至非技術型的數據分析師,都已經可以承擔原本只能由數據科學家負責的基本任務。企業中與大數據有關的很多工作,尤其是枯燥乏味的簡單工作,也許會越來越多地開始由數據工程師和數據分析師通過自動化工具來執行,而不再需要具備嫻熟技能的數據科學家參與。
也就是說,數據科學最終可能會完全由機器來處理。一些初創公司已經明確將自己的產品定位為“自動化的數據科學”,其中最值得一提的是,DataRobot剛剛通過這種想法籌集到5400萬美元投資(數據科學如何實現自身的自動化),Salesforce Einstein也聲稱自己可以提供能自動生成的模型。
毫無疑問,這些趨勢尚未流行起來,目前在數據科學的社區里依然存在一些爭議。然而數據科學家目前還不需要對此過于擔心。在不遠的將來,自服務工具和自動化模型選擇將成為數據科學家的“左膀右臂”,而非徹底取代他們,他們可以將更多精力用于需要進行判斷、創新、社交技能,或需要具備垂直行業知識的任務。
讓一切協同工作:數據工作臺的崛起
在大部分大型企業中,大數據技術的運用通常都是從少數相對獨立的項目開始的(這里部署個Hadoop群集,那里部署個分析工具),并且會產生一些新的工作崗位(數據科學家、首席數據官)。
然而今天的情況截然不同:異構的情況愈加普遍,企業內部使用了五花八門的工具。從組織結構方面來看,在大型企業中,集中化的“數據科學部門”正在逐漸變成更加“分散化的組織”,通常會有數據科學家、數據工程師,以及數據分析師組成的跨職能群體,并且更加深入地融入到不同業務部門中。因此對于平臺來說,需求已經變的更加明確,需要讓所有人能夠就各種技術進行協同工作,這一點在我們去年的文章中就有提及,大數據項目能否成功,主要取決于能否將不同技術、人員和流程完美融合在一起。
因此協作平臺這一領域目前正在經歷快速發展,并催生出一種被部分人稱作DataOps(類似于DevOps)的概念。FirstMark也正是出于這個原因而投資了Dataiku(可參閱我的上一篇文章:Dataiku,亦或早熟的大數據)。這一領域其他比較重大的投資包括Knime(A輪,2千萬美元)以及Domino Data Lab(A輪1千萬美元)。Cloudera剛剛發布了一款基于所收購的Sense技術開發的工作臺產品。這一領域的開源活動也很活躍,例如Jupyter和Anaconda。
應用程序
人工智能驅動的垂直應用程序
至少幾年前,我們就開始討論垂直領域人工智能應用程序的崛起(x.ai以及人工智能驅動的應用程序逐漸涌現),但原本的溪流何時演變成了現在的滔天巨浪?突然之間,似乎每個人都開始開發人工智能應用程序了,無論新成立的,或已經取得重大進展的初創公司,都開始壓賭于人工智能,認為這是下一輪增長點(例如InsideSales)。
在這種狀況和趨勢影響下,一些新成立的初創公司提出了很多激動人心的技術,雖然其中一些猶如霧里看花,但為了追逐熱點趨勢,也有很多公司在激進地進行重塑。在某些領域使用了某種機器學習技術的公司,并不算人工智能公司。
總地來說,人工智能初創公司的創建并不容易。而其中最關鍵的第一步在于選擇一個垂直領域所面臨的問題。除了深入的技術DNA,還需要深思熟慮的定位和策略(構建人工智能初創公司:現實和策略)。
然而要確保自己不被各種可能性看花眼,面對飛速的發展保持冷靜,要做到這些其實很難。
尤其是去年,趨勢已經很明顯了:通過人工智能技術,解決與數據有關的任何問題。無論企業級應用程序或垂直行業,都采取了這樣的方式。考慮到現實情況,今年我們在圖表的應用程序分類中添加了多個類別,包括交通運輸、房地產(借助數據科學實現房地產的現代化),以及保險業。同時我們將一些非常活躍的行業拆分為兩個類別,例如營銷應用(拆分為B2B和B2C)以及生命科學(拆分為醫療健康和生命科學)。
除了這些領域外,還有一些非常新潮的應用(例如無人駕駛汽車),今天的人工智能技術正在缺乏想象力的企業應用領域閃爍著耀眼的光輝,從人員流失預測到后端辦公室自動化,再到安全,以不同形式提供了切實可行的收效。
人工智能導致人類失業,也許還沒有得到政府部門的重視,但沒有任何一個職業是不受影響的,至少需要考慮會如何受到影響,也許會通過人工智能得以“增強”。這些問題已得到很多白領職業的證明,例如醫生(人工智能 vs 醫生)或律師(人工智能開始從事法務工作)。
尤其是金融領域,似乎充分考慮了人工智能的潛力。多年來艱難度日的對沖基金正在為自己的算法尋找可替代數據(全新淘金潮?華爾街想要你的數據)。由人工智能驅動的全新對沖基金(Numerai、Data Capital Management等)雖然還不完善,但已經實現了快速發展。華爾街一些最重要的事務所均在使用人工智能取代人類(BlackRock、Goldman Sachs)。
機器人的反擊
無論是愛是恨,2016年都是機器人的元年。很多消息交流服務均提供過完全自動化,可以實時交談的代理程序。雖然曇花一現,但這些機器人程序似乎已經全面經歷了不同的炒作周期,從一開始的承諾,到Tay所面臨的災難(譯注:Tay是微軟提供的一種基于人工智能技術的聊天機器人,該機器人一經上線,與眾多網友交流后,變成了“帶有種族歧視傾向并且固執的存在”),到微型文藝復興,再到Facebook相關研究放緩,有報告稱聊天平臺上70%的人工智能聊天機器人最終都以失敗告終。
對于機器人程序的熱情似乎有些早,得出這種結論的原因有很多,建議參閱Bradford Cross的觀點,他在文中非常恰當地指出,人們可能因為機器人程序在亞洲的崛起,或者Slack等底層基礎架構的快速增長而得出了過于樂觀的預期。我們相信,最終這種機器人程序有著很大的潛力,但畢竟這一領域還需要更長的成長時間。“生產商”一端(初創公司需要專注于每個具體的業務領域,少作承諾)和“消費方”一端(我們都需要習慣于機器人程序可以和不能做到的事情,Alexa正在幫助我們意識到這些!)都需要進行徹底的心態調整。
就目前來看,最光明的未來可能屬于重要領域需要人類介入的服務,或者完全采取不同于機器人程序的定位,使用人工智能技術擴充人類能力的技術(我們得出這一結論的依據來自frame.ai)。
寫在最后
大數據與人工智能強強聯合,我們即將進入“收獲”的季節。忽略各種炒作,我們迎來了數量眾多的可能性。
隨著核心基礎架構以及應用程序端日漸成熟,人工智能技術驅動的應用將迎來井噴期,2017年,大數據(以及人工智能)生態幾將火力全開。
今日薦文
左耳朵耗子:拖累開發團隊效率的困局與解決之道