身為數(shù)據(jù)極客,在2017年應(yīng)該能感覺(jué)很幸福。
去年,我們?cè)?jīng)問(wèn)過(guò)大家“大數(shù)據(jù)還是個(gè)值得關(guān)注的大事嗎?”,并注意到由于大數(shù)據(jù)更像是一種“系統(tǒng)化工程”,因此在企業(yè)的接受速度方面要落后于整個(gè)業(yè)界的炒作。大數(shù)據(jù)技術(shù)用了多年時(shí)間進(jìn)行演化,才從一種看起來(lái)很酷的新技術(shù)變成企業(yè)在生產(chǎn)環(huán)境中實(shí)際部署的核心企業(yè)級(jí)系統(tǒng)。
2017年,我們已經(jīng)很適應(yīng)這樣的部署階段。“大數(shù)據(jù)”這個(gè)詞正在逐漸淡出我們的視野,但這種技術(shù)本身還在飛速擴(kuò)張。各行各業(yè)的各種軼事和證據(jù)證明相關(guān)產(chǎn)品越來(lái)越成熟,在越來(lái)越多的財(cái)富1000強(qiáng)企業(yè)內(nèi)開(kāi)始投入實(shí)用,很多初創(chuàng)公司借助這些技術(shù)快速實(shí)現(xiàn)了收入增長(zhǎng)。
與此同時(shí),宣傳炒作的泡沫開(kāi)始毋庸置疑地轉(zhuǎn)向了這個(gè)生態(tài)系統(tǒng)中機(jī)器學(xué)習(xí)和人工智能等領(lǐng)域。過(guò)去幾個(gè)月來(lái),人工智能領(lǐng)域涌現(xiàn)出一種“大爆炸”式的集體意識(shí),這一情況與幾年前大數(shù)據(jù)技術(shù)的“遭遇”相差無(wú)幾,不過(guò)發(fā)展速度更快。
從另一個(gè)角度來(lái)看, 2017年也是激動(dòng)人心的一年:望穿秋水的IPO。今年頭幾個(gè)月,大數(shù)據(jù)領(lǐng)域的初創(chuàng)公司在這方面活動(dòng)頻頻,并得到了公開(kāi)市場(chǎng)的熱切歡迎。
總的來(lái)說(shuō),數(shù)據(jù)生態(tài)系統(tǒng)在2017年終于實(shí)現(xiàn)了火力全開(kāi)。與以往每年一樣,我們將通過(guò)一年一次的大數(shù)據(jù)領(lǐng)域回顧為大家提供一個(gè)詳細(xì)的“國(guó)情咨文”,將我們針對(duì)這一行業(yè)的見(jiàn)解總結(jié)為關(guān)鍵趨勢(shì)奉獻(xiàn)給大家。
上層趨勢(shì)大數(shù)據(jù)+人工智能=全新技術(shù)棧
任何風(fēng)險(xiǎn)投資機(jī)構(gòu)有幸看到的各種宣傳都能證明,2016年,每家初創(chuàng)公司都在變身成為“機(jī)器學(xué)習(xí)公司”,“.ai”已成為必備的域名,而“等等,我們會(huì)通過(guò)機(jī)器學(xué)習(xí)技術(shù)解決這個(gè)問(wèn)題”已經(jīng)開(kāi)始普遍出現(xiàn)在各類(lèi)集資活動(dòng)的演示文稿中。
圍繞人工智能的報(bào)道、座談會(huì)、新聞郵件,以及微博層出不窮,很多早已在關(guān)注機(jī)器學(xué)習(xí)技術(shù)的人,他們的反應(yīng)就好像發(fā)現(xiàn)自己當(dāng)?shù)氐哪硞€(gè)品牌突然開(kāi)始了全球化擴(kuò)張:一方面,倍感驕傲;但另一方面,就好像面對(duì)派對(duì)上姍姍來(lái)遲又裝腔作勢(shì)的人那樣表現(xiàn)出明顯的厭煩之情,同時(shí)做好了不可避免會(huì)感到失望的心理準(zhǔn)備。
雖然很容易認(rèn)為這些趨勢(shì)的發(fā)展非常和緩,但該領(lǐng)域所經(jīng)歷的演變是不可避免,并且影響深遠(yuǎn)的:機(jī)器學(xué)習(xí)正在快速成為很多應(yīng)用程序中最重要的組件。
我們正在見(jiàn)證一個(gè)新技術(shù)棧的涌現(xiàn),在這個(gè)技術(shù)棧中,大數(shù)據(jù)技術(shù)被用于處理數(shù)據(jù)工程方面的核心挑戰(zhàn),而機(jī)器學(xué)習(xí)技術(shù)被用于從數(shù)據(jù)中提取出價(jià)值(以分析見(jiàn)解或操作等形式)。
換句話(huà)說(shuō): 大數(shù)據(jù)提供了渠道,人工智能提供了我們需要的智能。
當(dāng)然,這種共生關(guān)系并不是什么新事物,但只有少數(shù)人有幸能夠真正實(shí)現(xiàn)。
這些技術(shù)正在真正開(kāi)始變的“民主化”。 “大數(shù)據(jù)+人工智能”已經(jīng)成為很多現(xiàn)代化應(yīng)用(無(wú)論面向普通消費(fèi)者或企業(yè)的應(yīng)用)的默認(rèn)技術(shù)棧。大量初創(chuàng)公司和一些財(cái)富1000強(qiáng)企業(yè)都在使用這種新的技術(shù)棧 。
通常來(lái)說(shuō),云計(jì)算是這個(gè)“板凳”的第三條腿,但也并非總是如此。這一領(lǐng)域的發(fā)展也受到各大云計(jì)算巨頭的推動(dòng),這些巨頭們正在舉行一場(chǎng)公開(kāi)的戰(zhàn)爭(zhēng),爭(zhēng)先恐后地開(kāi)始提供機(jī)器學(xué)習(xí)云。
短期來(lái)看,是否可以認(rèn)為民主化會(huì)促進(jìn)人工智能技術(shù)的商品化?實(shí)際上從技術(shù)角度來(lái)說(shuō),人工智能依然很難。雖然很多工程師正在爭(zhēng)先恐后地培養(yǎng)有關(guān)人工智能技術(shù)的技能,但至少到目前,全球范圍內(nèi)深入鉆研這一領(lǐng)域的專(zhuān)家依然很少。
不過(guò)這種民主化的趨勢(shì)至少不會(huì)“開(kāi)倒車(chē)”,機(jī)器學(xué)習(xí)技術(shù)遲早會(huì)從競(jìng)爭(zhēng)優(yōu)勢(shì)“進(jìn)化”成為一必備要素。
而這種趨勢(shì)對(duì)初創(chuàng)公司和大企業(yè)都產(chǎn)生了深遠(yuǎn)的影響。對(duì)于初創(chuàng)公司:除非你所開(kāi)發(fā)的人工智能軟件是最終產(chǎn)品,那么將你自己稱(chēng)呼為一家“機(jī)器學(xué)習(xí)公司”這樣的做法很快將變的毫無(wú)意義。對(duì)于大型企業(yè):如果目前你還沒(méi)有積極主動(dòng)地制定“大數(shù)據(jù)+人工智能”的戰(zhàn)略(自行實(shí)現(xiàn)或與其他供應(yīng)商合作),那么你們很快會(huì)面臨被淘汰的境地。關(guān)于大數(shù)據(jù),這樣的說(shuō)法已經(jīng)持續(xù)多年了,但隨著以大數(shù)據(jù)技術(shù)為基礎(chǔ)誕生的人工智能技術(shù)飛速發(fā)展,這一天只會(huì)更快速地到來(lái)。
企業(yè)的預(yù)算:逐利
過(guò)去多年來(lái),在我們與大數(shù)據(jù)技術(shù)的買(mǎi)家和賣(mài)家的交談中,我們發(fā)現(xiàn)財(cái)富1000強(qiáng)公司中,越來(lái)越多的預(yù)算被用于對(duì)核心基礎(chǔ)架構(gòu)進(jìn)行升級(jí),以及與數(shù)據(jù)分析有關(guān)的技術(shù),大家都對(duì)大數(shù)據(jù)技術(shù)給予極大關(guān)注。很多分析機(jī)構(gòu)也認(rèn)同這一結(jié)論:IDC預(yù)計(jì),到2020年,大數(shù)據(jù)和分析市場(chǎng)將從2016年的1300億美元市場(chǎng)規(guī)模增長(zhǎng)至2030億美元。
在大數(shù)據(jù)技術(shù)方面,財(cái)富1000強(qiáng)公司的很多買(mǎi)家正變的越來(lái)越成熟和理智。過(guò)去多年來(lái),他們已經(jīng)進(jìn)行了充分的研究調(diào)研,現(xiàn)在已經(jīng)準(zhǔn)備好全面部署了。不僅技術(shù)型行業(yè),目前很多行業(yè)均是如此。
這種飛速變化的趨勢(shì)還得到了老技術(shù)自然淘汰周期的進(jìn)一步助推,對(duì)于大型企業(yè),通常每隔幾年就會(huì)這樣做一次。曾經(jīng)逆風(fēng)飛揚(yáng)(難以剔除或取代原有基礎(chǔ)架構(gòu))的大數(shù)據(jù)技術(shù)現(xiàn)在正逐漸變的順勢(shì)而飛(“我們需要替換過(guò)時(shí)的技術(shù),市面上最好的同類(lèi)技術(shù)是啥?”)。
當(dāng)然,很多大企業(yè)(“晚期從眾者”)依然是大數(shù)據(jù)領(lǐng)域的“新手”,但這種情況的變化速度變的越來(lái)越快了。
企業(yè)數(shù)據(jù)正在陸續(xù)上云
就在幾年前,如果你建議企業(yè)將數(shù)據(jù)遷移至公有云,大企業(yè)的CIO給你的回應(yīng)大部分只會(huì)是“除非我死了”,當(dāng)時(shí)他們頂多只愿意將開(kāi)發(fā)環(huán)境,或各種稀奇古怪,非關(guān)鍵的對(duì)外應(yīng)用程序遷移至云端。
但現(xiàn)在他們的看法似乎開(kāi)始產(chǎn)生變化了,去年以來(lái)這種變化非常明顯。我們聽(tīng)到了一種更為開(kāi)放的心態(tài):大家已經(jīng)逐漸認(rèn)識(shí)到“反正我們的客戶(hù)數(shù)據(jù)本來(lái)就已經(jīng)保存在Salesforce的云中”,或者“在網(wǎng)絡(luò)安全的預(yù)算方面,我們的投入與AWS壓根兒沒(méi)得比”,而諷刺的是,過(guò)去多年來(lái),對(duì)安全的顧慮曾是企業(yè)接受云計(jì)算的主要障礙之一,但云供應(yīng)商在安全與合規(guī)(HIPAA)等方面的辛苦努力終于得到了證明和回報(bào)。
毫無(wú)疑問(wèn), 目前離大部分企業(yè)數(shù)據(jù)都保存在公有云中這一目標(biāo)還有一定距離,但部分原因在于遺留系統(tǒng)和管控制度。
然而演變的趨勢(shì)是明顯的,并且越來(lái)越快。云供應(yīng)商會(huì)盡一切努力促進(jìn)這一過(guò)程,甚至提供搬運(yùn)海量數(shù)據(jù)的卡車(chē)。
合并工作開(kāi)始了嗎?
大數(shù)據(jù)領(lǐng)域每一年都變的更加熱鬧,因此這就造成了一個(gè)顯而易見(jiàn)的問(wèn)題:這個(gè)行業(yè)是否迎來(lái)了大規(guī)模并購(gòu)的風(fēng)潮?
似乎還沒(méi),至少目前還看不出這樣的趨勢(shì)。
首先,風(fēng)投們會(huì)繼續(xù)愉快地注資各家新老公司。 2017年頭幾個(gè)月,為成長(zhǎng)階段的大數(shù)據(jù)初創(chuàng)公司注入巨資的消息此起彼伏:Looker(D輪,8100萬(wàn)美元)、InsideSales(F輪,5千萬(wàn)美元)、DataRobot(C輪,5400萬(wàn)美元)、Confluent(C輪,5千萬(wàn)美元)、Collibra(C輪,5千萬(wàn)美元)、Uptake(C輪,4千萬(wàn)美元)、WorkFusion(D輪,3500萬(wàn)美元),以及MapD(B輪,3500萬(wàn)美元)。另外DataBricks非常值得注意,他們?cè)?016年12月剛獲得6千萬(wàn)美元的C輪投資。
全球范圍內(nèi),大數(shù)據(jù)初創(chuàng)公司在2016年得到了風(fēng)投機(jī)構(gòu)總計(jì)148億美元的投資,其中10%由全球性的技術(shù)VC提供。
另外需要注意,該領(lǐng)域的相關(guān)投資大多是全球性的,歐洲、以色列(如Voyager Labs)、中國(guó)(iCarbonX)等地均有大量公司成立并獲得注資。
其次,2016年全景中曾經(jīng)提到,并購(gòu)活動(dòng)已在有序進(jìn)行,但沒(méi)有特別讓人印象深刻的,也許部分原因在于私營(yíng)公司的估值始終居高不下。我們?cè)?016年大數(shù)據(jù)全景中曾經(jīng)提到,共有41家公司被并購(gòu)(完整清單請(qǐng)參閱文末備注),2017年,并購(gòu)的節(jié)奏大體上會(huì)與去年持平。
另一方面,2017年至今已經(jīng)出現(xiàn)了一些非常大的并購(gòu)活動(dòng),例如Mobileye(被Intel以153億美元收購(gòu))、AppDynamics(思科,37億美元),以及Nimble Storage(HPE,12億美元)。
去年還曾出現(xiàn)過(guò)一種較為普遍但并不持久的現(xiàn)象:大型技術(shù)公司瘋狂并吞人工智能領(lǐng)域的初創(chuàng)公司,尤其是專(zhuān)為各種水平問(wèn)題(Horizontal problem)組建了團(tuán)隊(duì)的公司。例如:Turi(Apple)、Magic Pony(Twitter)、Viv Labs(三星)、MetaMind(Salesforce)、Geometric Intelligence(Uber)、API.ai(Google),以及Wise.io(GE)。雖然這些舉措使得主要針對(duì)水平領(lǐng)域的人工智能初創(chuàng)公司快速成為VC眼中的香餑餑,但這種不假思索的快速收購(gòu)可能也對(duì)應(yīng)著各種炒作,以及人工智能領(lǐng)域工程師的缺乏所造成的特殊時(shí)間段。
第三,一些大型大數(shù)據(jù)初創(chuàng)公司正在變成獨(dú)立的上市公司。SNAP可以說(shuō)是帶動(dòng)了技術(shù)公司IPO市場(chǎng)的復(fù)蘇,但截至目前,能夠借助該機(jī)會(huì)成功變現(xiàn)的依然只有大數(shù)據(jù)領(lǐng)域的公司。
雖然2016年全年,只有Talend這一家大數(shù)據(jù)公司成功上市,但2017年截至目前這一領(lǐng)域內(nèi)滿(mǎn)是IPO良機(jī)。Mulesoft和Alteryx成功上市并且表現(xiàn)還不錯(cuò),這兩家的發(fā)行價(jià)都超過(guò)了IPO價(jià)格。在撰寫(xiě)本文時(shí),Cloudera也即將上市,該公司最新預(yù)估價(jià)(41億美元)與營(yíng)收(2016年2.61億美元)之間的空缺對(duì)于“獨(dú)角獸”的估價(jià)現(xiàn)象將造成不小的考驗(yàn)。此外MapR以及位置智能公司Yext也正在準(zhǔn)備上市。
接下來(lái)會(huì)是誰(shuí)?多年來(lái),Palantir作為業(yè)內(nèi)最低調(diào)的公司之一,已經(jīng)表達(dá)出想要公開(kāi)上市的意圖。考慮到Palantir的最新預(yù)估價(jià)為200億美元,如果其公開(kāi)估價(jià)能夠接近這一數(shù)字,將會(huì)成為IPO領(lǐng)域的一枚重磅炸彈。
打響云端戰(zhàn)役
失敗和收購(gòu)活動(dòng)也許不會(huì)讓這個(gè)行業(yè)立刻得到鞏固,但“功能合并”的情況日漸普遍,尤其是在云計(jì)算領(lǐng)域。該領(lǐng)域內(nèi)一些重量級(jí)選手正在逐漸構(gòu)建整合式的“大數(shù)據(jù)+人工智能”服務(wù),并且吸引了不少用戶(hù),這些服務(wù)或者使用了自行開(kāi)發(fā)的產(chǎn)品,或通過(guò)流行的開(kāi)源計(jì)算引擎自行實(shí)現(xiàn),這種服務(wù)距離很多買(mǎi)家所期待的“一站式購(gòu)買(mǎi)”越來(lái)越近了。
尤其是Amazon Web Services還在繼續(xù)快速發(fā)布不同類(lèi)型的產(chǎn)品,讓人獲得了深刻的印象。 目前該公司已經(jīng)圍繞大數(shù)據(jù)和人工智能技術(shù)提供了幾乎所有產(chǎn)品,包括分析框架、實(shí)時(shí)分析、數(shù)據(jù)庫(kù)(NoSQL、圖形等)、商業(yè)智能,以及日益完善的人工智能能力,并且在深度學(xué)習(xí)方面頗有建樹(shù)。 按照這樣的速度,AWS很快將具備我們的大數(shù)據(jù)全景中所涉及的幾乎所有基礎(chǔ)架構(gòu)和分析產(chǎn)品。
雖然Google涉足云計(jì)算的時(shí)間較晚,但他們正在圍繞大數(shù)據(jù)積極主動(dòng)地構(gòu)建一系列產(chǎn)品(BigQuery、Dataflow、Dataproc、Datalab、Dataprep等),并且已將人工智能視作超越競(jìng)爭(zhēng)對(duì)手的方法之一。過(guò)去一年來(lái),Google在人工智能方面公布了很多消息,例如:一個(gè)新的轉(zhuǎn)換引擎,雇傭了兩名出色的人工智能專(zhuān)家Fei-Fei Li和Jia Li來(lái)領(lǐng)導(dǎo)新成立的Cloud AI and Machine Learning部門(mén),針對(duì)視頻識(shí)別提供的全新機(jī)器學(xué)習(xí)API,并且收購(gòu)了數(shù)據(jù)科學(xué)家社區(qū)Kaggle。
更大規(guī)模的企業(yè)級(jí)IT供應(yīng)商–尤其是Microsoft、IBM、SAP、Oracle以及Salesforce–也在努力推出大數(shù)據(jù)(以及人工智能)產(chǎn)品,這些產(chǎn)品都支持云端(最引人注目的是Microsoft)和本地部署。除了通過(guò)自行開(kāi)發(fā),以及收購(gòu)而來(lái)的技術(shù)構(gòu)建這些產(chǎn)品,他們的合作意愿也在逐漸加強(qiáng),尤其是與“有數(shù)據(jù)的”公司(數(shù)據(jù)倉(cāng)儲(chǔ))和“有人工智能的”公司進(jìn)行合作。例如IBM和Salesforce以及SAP與Google的合作都是其中的典型。
按照企業(yè)IT行業(yè)的標(biāo)準(zhǔn)來(lái)說(shuō),云供應(yīng)商的規(guī)模依然不算大,但這些公司的野心(包括在企業(yè)技術(shù)棧中,將自己的地位從IaaS層面上升至應(yīng)用程序?qū)用娴拿鞔_意圖)和穩(wěn)扎穩(wěn)打?qū)⑵髽I(yè)數(shù)據(jù)遷往云端的做法相結(jié)合,意味著與傳統(tǒng)IT供應(yīng)商的全面戰(zhàn)爭(zhēng)已然打響,大家在爭(zhēng)奪龐大的企業(yè)級(jí)技術(shù)市場(chǎng)的控制權(quán),而大數(shù)據(jù)和人工智能將會(huì)是核心戰(zhàn)場(chǎng)。
2017年,大數(shù)據(jù)生態(tài)系統(tǒng)全景回顧基礎(chǔ)架構(gòu)
去年發(fā)生的很多事依舊余波未平,例如流處理的重要性與日俱增,目前Spark已獨(dú)占鰲頭,但人們對(duì)競(jìng)爭(zhēng)產(chǎn)品,例如Flink的關(guān)注也逐漸開(kāi)始涌現(xiàn)。此外還有一的有趣的話(huà)題時(shí)不時(shí)地出現(xiàn)在人們的對(duì)話(huà)中:
SQL已經(jīng)正式回歸了
過(guò)去十多年來(lái)一直面對(duì)NoSQL技術(shù)“打壓”的SQL數(shù)據(jù)庫(kù)技術(shù)現(xiàn)已正式回歸。Google最近發(fā)布了云服務(wù)版的Spanner數(shù)據(jù)庫(kù)。Spanner和CockroachDB承諾提供一種高存活性、強(qiáng)一致性,可橫向擴(kuò)展的SQL數(shù)據(jù)庫(kù)。Amazon發(fā)布的Athena與諸如Snowflake等產(chǎn)品類(lèi)似,是一種大型的SQL數(shù)據(jù)引擎,可直接查詢(xún)S3 Bucket中存儲(chǔ)的數(shù)據(jù)。Google BigQuery、SparkSQL以及Presto也開(kāi)始在企業(yè)領(lǐng)域占有了一席之地–這些都是SQL產(chǎn)品。
數(shù)據(jù)虛擬化
在公有云的接受度方面有個(gè)有趣的趨勢(shì):數(shù)據(jù)虛擬化產(chǎn)品的使用率正在快速激增。較為古老的ETL流程需要移動(dòng)海量數(shù)據(jù)并創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)虛擬化技術(shù)使得企業(yè)可以無(wú)需移動(dòng),在原地進(jìn)行數(shù)據(jù)分析,借此提高速度和敏捷性。很多下一代數(shù)據(jù)分析產(chǎn)品供應(yīng)商,現(xiàn)在均已同時(shí)提供數(shù)據(jù)虛擬化和數(shù)據(jù)準(zhǔn)備產(chǎn)品,借此幫助客戶(hù)更輕松地訪(fǎng)問(wèn)云中存儲(chǔ)的數(shù)據(jù)。
數(shù)據(jù)管控和安全性
隨著大數(shù)據(jù)在企業(yè)中的應(yīng)用日益成熟,并且數(shù)據(jù)的種類(lèi)和數(shù)量依然在與日俱增,有關(guān)數(shù)據(jù)管控之類(lèi)的話(huà)題也變的越來(lái)越重要。很多企業(yè)已經(jīng)選擇通過(guò)“數(shù)據(jù)湖”的方式創(chuàng)建一個(gè)中央倉(cāng)庫(kù),用于保存自己的所有數(shù)據(jù)。但除非人們知道數(shù)據(jù)湖中到底有什么,并且能按需訪(fǎng)問(wèn)分析工作所需的恰當(dāng)數(shù)據(jù),否則數(shù)據(jù)湖將全無(wú)用處。
然而幫助用戶(hù)輕松找到自己需要的數(shù)據(jù),同時(shí)妥善地管理數(shù)據(jù)訪(fǎng)問(wèn)權(quán),這一點(diǎn)并不容易實(shí)現(xiàn)。不僅需要考慮數(shù)據(jù)湖本身,管控的一個(gè)核心主題在于讓用戶(hù)輕松訪(fǎng)問(wèn)可信賴(lài)的數(shù)據(jù),借此滿(mǎn)足企業(yè)中任何人的需求,同時(shí)必須要以安全、可審計(jì)的方式做到這一切。或大或小的供應(yīng)商(Informatica、Collibra、Alation)紛紛提供功了數(shù)據(jù)編錄、參考數(shù)據(jù)管理、數(shù)據(jù)辭典,以及數(shù)據(jù)幫助臺(tái)等產(chǎn)品。
分析
數(shù)據(jù)科學(xué)家是否已經(jīng)成為瀕危物種?
就在幾年前,數(shù)據(jù)科學(xué)家還被視作“21世紀(jì)最性感的職業(yè)”。就算到現(xiàn)在,Glassdoor的“美國(guó)最佳工作”清單中,“數(shù)據(jù)科學(xué)家”依然名列榜首。
但是僅僅在誕生幾年后,這個(gè)職業(yè)就已陷入困頓。部分原因在于其必要性,雖然學(xué)校和程序員課程依然在塑造大量粗制濫造的新手?jǐn)?shù)據(jù)科學(xué)家,但這個(gè)崗位依然有很大空缺,尤其是財(cái)富1000強(qiáng)公司,他們都覺(jué)得很難招募到頂尖的技術(shù)人才。在某些組織中,數(shù)據(jù)科學(xué)部門(mén)已經(jīng)從原本的促進(jìn)者一舉“墮落”為瓶頸。
與此同時(shí), 隨著人工智能技術(shù)的民主化和自服務(wù)工具的飛速涌現(xiàn),現(xiàn)在無(wú)論數(shù)據(jù)科學(xué)技能極為有限的數(shù)據(jù)工程師,甚至非技術(shù)型的數(shù)據(jù)分析師,都已經(jīng)可以承擔(dān)原本只能由數(shù)據(jù)科學(xué)家負(fù)責(zé)的基本任務(wù)。 企業(yè)中與大數(shù)據(jù)有關(guān)的很多工作,尤其是枯燥乏味的簡(jiǎn)單工作,也許會(huì)越來(lái)越多地開(kāi)始由數(shù)據(jù)工程師和數(shù)據(jù)分析師通過(guò)自動(dòng)化工具來(lái)執(zhí)行,而不再需要具備嫻熟技能的數(shù)據(jù)科學(xué)家參與。
也就是說(shuō),數(shù)據(jù)科學(xué)最終可能會(huì)完全由機(jī)器來(lái)處理。一些初創(chuàng)公司已經(jīng)明確將自己的產(chǎn)品定位為“自動(dòng)化的數(shù)據(jù)科學(xué)”,其中最值得一提的是,DataRobot剛剛通過(guò)這種想法籌集到5400萬(wàn)美元投資(數(shù)據(jù)科學(xué)如何實(shí)現(xiàn)自身的自動(dòng)化),Salesforce Einstein也聲稱(chēng)自己可以提供能自動(dòng)生成的模型。
毫無(wú)疑問(wèn),這些趨勢(shì)尚未流行起來(lái),目前在數(shù)據(jù)科學(xué)的社區(qū)里依然存在一些爭(zhēng)議。然而數(shù)據(jù)科學(xué)家目前還不需要對(duì)此過(guò)于擔(dān)心。在不遠(yuǎn)的將來(lái),自服務(wù)工具和自動(dòng)化模型選擇將成為數(shù)據(jù)科學(xué)家的“左膀右臂”,而非徹底取代他們,他們可以將更多精力用于需要進(jìn)行判斷、創(chuàng)新、社交技能,或需要具備垂直行業(yè)知識(shí)的任務(wù)。
讓一切協(xié)同工作:數(shù)據(jù)工作臺(tái)的崛起
在大部分大型企業(yè)中,大數(shù)據(jù)技術(shù)的運(yùn)用通常都是從少數(shù)相對(duì)獨(dú)立的項(xiàng)目開(kāi)始的(這里部署個(gè)hadoop群集,那里部署個(gè)分析工具),并且會(huì)產(chǎn)生一些新的工作崗位(數(shù)據(jù)科學(xué)家、首席數(shù)據(jù)官)。
然而今天的情況截然不同:異構(gòu)的情況愈加普遍,企業(yè)內(nèi)部使用了五花八門(mén)的工具。從組織結(jié)構(gòu)方面來(lái)看,在大型企業(yè)中,集中化的“數(shù)據(jù)科學(xué)部門(mén)”正在逐漸變成更加“分散化的組織”,通常會(huì)有數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師,以及數(shù)據(jù)分析師組成的跨職能群體,并且更加深入地融入到不同業(yè)務(wù)部門(mén)中。因此對(duì)于平臺(tái)來(lái)說(shuō),需求已經(jīng)變的更加明確,需要讓所有人能夠就各種技術(shù)進(jìn)行協(xié)同工作,這一點(diǎn)在我們?nèi)ツ甑奈恼轮芯陀刑峒埃髷?shù)據(jù)項(xiàng)目能否成功,主要取決于能否將不同技術(shù)、人員和流程完美融合在一起。
因此協(xié)作平臺(tái)這一領(lǐng)域目前正在經(jīng)歷快速發(fā)展,并催生出一種被部分人稱(chēng)作DataOps(類(lèi)似于DevOps)的概念。FirstMark也正是出于這個(gè)原因而投資了Dataiku(可參閱我的上一篇文章:Dataiku,亦或早熟的大數(shù)據(jù))。這一領(lǐng)域其他比較重大的投資包括Knime(A輪,2千萬(wàn)美元)以及Domino Data Lab(A輪1千萬(wàn)美元)。Cloudera剛剛發(fā)布了一款基于所收購(gòu)的Sense技術(shù)開(kāi)發(fā)的工作臺(tái)產(chǎn)品。這一領(lǐng)域的開(kāi)源活動(dòng)也很活躍,例如Jupyter和Anaconda。
應(yīng)用程序
人工智能驅(qū)動(dòng)的垂直應(yīng)用程序
至少幾年前,我們就開(kāi)始討論垂直領(lǐng)域人工智能應(yīng)用程序的崛起(x.ai以及人工智能驅(qū)動(dòng)的應(yīng)用程序逐漸涌現(xiàn)),但原本的溪流何時(shí)演變成了現(xiàn)在的滔天巨浪?突然之間,似乎每個(gè)人都開(kāi)始開(kāi)發(fā)人工智能應(yīng)用程序了,無(wú)論新成立的,或已經(jīng)取得重大進(jìn)展的初創(chuàng)公司,都開(kāi)始?jí)嘿€于人工智能,認(rèn)為這是下一輪增長(zhǎng)點(diǎn)(例如InsideSales)。
在這種狀況和趨勢(shì)影響下,一些新成立的初創(chuàng)公司提出了很多激動(dòng)人心的技術(shù),雖然其中一些猶如霧里看花,但為了追逐熱點(diǎn)趨勢(shì),也有很多公司在激進(jìn)地進(jìn)行重塑。在某些領(lǐng)域使用了某種機(jī)器學(xué)習(xí)技術(shù)的公司,并不算人工智能公司。
總地來(lái)說(shuō), 人工智能初創(chuàng)公司的創(chuàng)建并不容易。而其中最關(guān)鍵的第一步在于選擇一個(gè)垂直領(lǐng)域所面臨的問(wèn)題。除了深入的技術(shù)DNA,還需要深思熟慮的定位和策略 。
然而要確保自己不被各種可能性看花眼,面對(duì)飛速的發(fā)展保持冷靜,要做到這些其實(shí)很難。
尤其是去年,趨勢(shì)已經(jīng)很明顯了:通過(guò)人工智能技術(shù),解決與數(shù)據(jù)有關(guān)的任何問(wèn)題。無(wú)論企業(yè)級(jí)應(yīng)用程序或垂直行業(yè),都采取了這樣的方式。考慮到現(xiàn)實(shí)情況,今年我們?cè)趫D表的應(yīng)用程序分類(lèi)中添加了多個(gè)類(lèi)別,包括交通運(yùn)輸、房地產(chǎn)(借助數(shù)據(jù)科學(xué)實(shí)現(xiàn)房地產(chǎn)的現(xiàn)代化),以及保險(xiǎn)業(yè)。同時(shí)我們將一些非常活躍的行業(yè)拆分為兩個(gè)類(lèi)別,例如營(yíng)銷(xiāo)應(yīng)用(拆分為B2B和B2C)以及生命科學(xué)(拆分為醫(yī)療健康和生命科學(xué))。
除了這些領(lǐng)域外,還有一些非常新潮的應(yīng)用(例如無(wú)人駕駛汽車(chē)),今天的人工智能技術(shù)正在缺乏想象力的企業(yè)應(yīng)用領(lǐng)域閃爍著耀眼的光輝,從人員流失預(yù)測(cè)到后端辦公室自動(dòng)化,再到安全,以不同形式提供了切實(shí)可行的收效。
人工智能導(dǎo)致人類(lèi)失業(yè),也許還沒(méi)有得到政府部門(mén)的重視,但沒(méi)有任何一個(gè)職業(yè)是不受影響的,至少需要考慮會(huì)如何受到影響,也許會(huì)通過(guò)人工智能得以“增強(qiáng)”。這些問(wèn)題已得到很多白領(lǐng)職業(yè)的證明,例如醫(yī)生(人工智能vs醫(yī)生)或律師(人工智能開(kāi)始從事法務(wù)工作)。
尤其是金融領(lǐng)域,似乎充分考慮了人工智能的潛力。多年來(lái)艱難度日的對(duì)沖基金正在為自己的算法尋找可替代數(shù)據(jù)。由人工智能驅(qū)動(dòng)的全新對(duì)沖基金(Numerai、Data Capital Management等)雖然還不完善,但已經(jīng)實(shí)現(xiàn)了快速發(fā)展。華爾街一些最重要的事務(wù)所均在使用人工智能取代人類(lèi)(BlackRock、Goldman Sachs)。
機(jī)器人的反擊
無(wú)論是愛(ài)是恨,2016年都是機(jī)器人的元年。很多消息交流服務(wù)均提供過(guò)完全自動(dòng)化,可以實(shí)時(shí)交談的代理程序。雖然曇花一現(xiàn),但這些機(jī)器人程序似乎已經(jīng)全面經(jīng)歷了不同的炒作周期,從一開(kāi)始的承諾,到Tay所面臨的災(zāi)難(譯注:Tay是微軟提供的一種基于人工智能技術(shù)的聊天機(jī)器人,該機(jī)器人一經(jīng)上線(xiàn),與眾多網(wǎng)友交流后,變成了“帶有種族歧視傾向并且固執(zhí)的存在”),到微型文藝復(fù)興,再到Facebook相關(guān)研究放緩,有報(bào)告稱(chēng)聊天平臺(tái)上70%的人工智能聊天機(jī)器人最終都以失敗告終。
對(duì)于機(jī)器人程序的熱情似乎有些早,得出這種結(jié)論的原因有很多,建議參閱Bradford Cross的觀點(diǎn),他在文中非常恰當(dāng)?shù)刂赋觯藗兛赡芤驗(yàn)闄C(jī)器人程序在亞洲的崛起,或者Slack等底層基礎(chǔ)架構(gòu)的快速增長(zhǎng)而得出了過(guò)于樂(lè)觀的預(yù)期。我們相信,最終這種機(jī)器人程序有著很大的潛力,但畢竟這一領(lǐng)域還需要更長(zhǎng)的成長(zhǎng)時(shí)間。“生產(chǎn)商”一端(初創(chuàng)公司需要專(zhuān)注于每個(gè)具體的業(yè)務(wù)領(lǐng)域,少作承諾)和“消費(fèi)方”一端(我們都需要習(xí)慣于機(jī)器人程序可以和不能做到的事情,Alexa正在幫助我們意識(shí)到這些!)都需要進(jìn)行徹底的心態(tài)調(diào)整。
就目前來(lái)看,最光明的未來(lái)可能屬于重要領(lǐng)域需要人類(lèi)介入的服務(wù),或者完全采取不同于機(jī)器人程序的定位,使用人工智能技術(shù)擴(kuò)充人類(lèi)能力的技術(shù)
結(jié)論
大數(shù)據(jù)與人工智能強(qiáng)強(qiáng)聯(lián)合,我們即將進(jìn)入“收獲”的季節(jié)。忽略各種炒作,我們迎來(lái)了數(shù)量眾多的可能性。
隨著核心基礎(chǔ)架構(gòu)以及應(yīng)用程序端日漸成熟,人工智能技術(shù)驅(qū)動(dòng)的應(yīng)用將迎來(lái)井噴期,2017年,大數(shù)據(jù)(以及人工智能)生態(tài)幾將火力全開(kāi)。
本文轉(zhuǎn)自“大數(shù)據(jù)雜談”,作者:Matt Turck;經(jīng)億歐編輯,供業(yè)內(nèi)人士閱讀。