軟件工具使業(yè)務(wù)分析師能夠在沒有軟件工程師和數(shù)據(jù)收集專家?guī)椭那闆r下獲得分析模型和見解。
數(shù)據(jù)科學(xué)家的身價(jià)很高,以至于雇傭他們對(duì)于除了谷歌、Facebook、亞馬遜和蘋果以外的任何企業(yè)來說都是一個(gè)挑戰(zhàn)。而那些有幸從大型科技公司挖走他們或者能夠從學(xué)術(shù)界吸引到他們的CIO們將可以自豪地談?wù)撍麄儗⑴c他們的數(shù)據(jù)專家所產(chǎn)生的所有商業(yè)見解。
IBM預(yù)計(jì),到2020年,對(duì)數(shù)據(jù)科學(xué)家的需求將激增28%——而這一數(shù)字可能還是保守的。為了解決人才短缺問題,公司正在構(gòu)建能夠?yàn)楣編砭薮蟪晒Φ能浖员阌行У貜钠胀ǖ墓締T工中創(chuàng)建“公民”數(shù)據(jù)科學(xué)家。
研究公司Gartner表示,公民數(shù)據(jù)科學(xué)包括允許用戶在統(tǒng)計(jì)和分析領(lǐng)域之外工作時(shí)從數(shù)據(jù)中提取預(yù)測(cè)性和規(guī)范性見解的能力和實(shí)踐。 Gartner分析師Carlie Idoine在一篇博客文章中表示,公民數(shù)據(jù)科學(xué)家可以是一些“超級(jí)用戶”,例如沒有計(jì)算機(jī)科學(xué)背景的商業(yè)分析師,他們可以執(zhí)行簡單或中等復(fù)雜的分析任務(wù),而這些任務(wù)以前需要更多的專業(yè)知識(shí)。她補(bǔ)充說, 這些超級(jí)用戶,如業(yè)務(wù)分析師,可以幫助緩解當(dāng)前的技能差距。
Forrester Research的分析師Brandon Purcle表示:“工具、技術(shù)、數(shù)據(jù)和模型可用性的不斷提高,使得人們能夠?qū)⒁娊鈧鞑ソo那些原本沒有能力自己去了解的人。”
數(shù)據(jù)科學(xué)將全部民主化
通過技術(shù)總是能找到一種能夠使信息獲取更加民主化的方法。其中有什么變化么?在大多數(shù)企業(yè)仍在實(shí)施的傳統(tǒng)模式中,業(yè)務(wù)分析師會(huì)在數(shù)月內(nèi)與IT和數(shù)據(jù)科學(xué)家共同努力,計(jì)劃用于產(chǎn)生預(yù)測(cè)性見解的模型,然后數(shù)據(jù)科學(xué)家將通常從頭開始構(gòu)建這個(gè)模型。
現(xiàn)在,由于IBM的SPSS和Alteryx等工具,許多沒有編碼經(jīng)驗(yàn)或編碼經(jīng)驗(yàn)很少的公民數(shù)據(jù)科學(xué)家只需要將數(shù)據(jù)模型拖放到某種軟件畫布上,就可以獲得洞察力。Purcell表示,這些工具使得“業(yè)務(wù)線分析師能夠比在Excel中更容易的操作數(shù)據(jù)”。
例如,通用汽車公司建立了Maxis,這是一個(gè)分析平臺(tái),允許商業(yè)用戶進(jìn)行類似Google的查詢,并獲得銷售預(yù)測(cè)和供應(yīng)鏈績效等運(yùn)營指標(biāo)的窗口。專家們一致認(rèn)為,現(xiàn)在的通用汽車公司可能是一個(gè)特例,但在短期內(nèi)就會(huì)有很多類似的公司出現(xiàn)。
數(shù)據(jù)科學(xué)是石油巨頭殼牌公司的一個(gè)重要關(guān)注點(diǎn),在那里,員工們通過不停地瀏覽公司千萬億字節(jié)的數(shù)據(jù),以獲得運(yùn)營和業(yè)務(wù)洞察力。例如,殼牌公司使用公司的自助服務(wù)軟件Alteryx來幫助運(yùn)行預(yù)測(cè)模型,預(yù)測(cè)成千上萬的石油鉆機(jī)部件何時(shí)會(huì)出現(xiàn)故障。
Jeavens說:“數(shù)據(jù)科學(xué)工具正在使數(shù)據(jù)科學(xué)的低端民主化,這讓越來越多的人可以做到這一點(diǎn)了。”但在另一方面,殼牌也正在使用一些“強(qiáng)大的引擎”,如Google TensorFlow和深度學(xué)習(xí)庫MXNet,以及Python和R編程語言。 “總會(huì)有一個(gè)跨越公民數(shù)據(jù)科學(xué)家和專業(yè)數(shù)據(jù)科學(xué)家的頻譜,我們必須同時(shí)支持這兩者。”
公民數(shù)據(jù)科學(xué)家確實(shí)彌合了商業(yè)用戶進(jìn)行的自助分析和數(shù)據(jù)科學(xué)家進(jìn)行的高級(jí)分析之間的差距。Forrester的Purcell表示,專業(yè)數(shù)據(jù)科學(xué)家將更多的在整個(gè)企業(yè)中構(gòu)建和擴(kuò)展數(shù)據(jù)模型和算法。
TD銀行集團(tuán)企業(yè)信息高級(jí)副總裁Joe DosSantos說,現(xiàn)在人們已經(jīng)普遍認(rèn)識(shí)到數(shù)據(jù)是新的石油,許多企業(yè)已經(jīng)“被復(fù)雜分析的魅力所吸引”。現(xiàn)實(shí)情況是,數(shù)據(jù)科學(xué)將不再是關(guān)于巫師和神話中的獨(dú)角獸。
DosSantos表示,TD銀行使用了一系列基本的以及復(fù)雜的分析工具來更好地協(xié)調(diào)歷史和當(dāng)前的客戶數(shù)據(jù),并進(jìn)行欺詐分析。例如,該銀行使用了AtScale的軟件來幫助商業(yè)用戶查詢來自該銀行Hadoop數(shù)據(jù)湖的實(shí)時(shí)數(shù)據(jù),并快速獲得結(jié)果。而TD銀行分析師也會(huì)在Tableau自助可視化軟件中查看數(shù)據(jù)。
數(shù)據(jù)科學(xué)家:仍然不可或缺
其他的軟件供應(yīng)商也正在加速數(shù)據(jù)民主化的趨勢(shì),通過采用機(jī)器學(xué)習(xí)(ML)和人工智能(AI)功能來構(gòu)建自動(dòng)化模型。
例如,Salesforce.com提供了Einstein預(yù)測(cè)生成器,它允許商業(yè)分析師創(chuàng)建自定義的AI模型,在任何自定義Salesforce字段或?qū)ο笊咸砑幼兞浚灶A(yù)測(cè)一些結(jié)果,如客戶流失的可能性或客戶的生命周期價(jià)值。Adobe的Sensei是另一個(gè)ML軟件工具,它可以幫助營銷人員在幾分鐘內(nèi)啟動(dòng)營銷活動(dòng),減少任務(wù)的時(shí)間。
Gartner表示,到2020年,超過40%的數(shù)據(jù)科學(xué)任務(wù)可能會(huì)實(shí)現(xiàn)自動(dòng)化。“這種[自動(dòng)化的ML方法]是下一代的數(shù)據(jù)科學(xué),”Purcell說。
當(dāng)然,并不是所有的大數(shù)據(jù)任務(wù)都能被公民數(shù)據(jù)科學(xué)家很容易的解決。德勤咨詢公司認(rèn)知和分析業(yè)務(wù)的常務(wù)董事Bill Roberts說,公司仍然需要統(tǒng)計(jì)學(xué)家、數(shù)據(jù)科學(xué)家、精算師和其他精通高級(jí)數(shù)學(xué)技術(shù)的專家。這些專家可以填補(bǔ)空缺和缺失字段的數(shù)據(jù),這些任務(wù)是公民數(shù)據(jù)科學(xué)家無法勝任的。
另外,如果出了問題,又無法通過數(shù)學(xué)進(jìn)行驗(yàn)證時(shí)該怎么辦?也許算法本身也存在問題。 Roberts說:“當(dāng)遇到困難或問題時(shí),你需要有受過某種培訓(xùn)或具有高級(jí)學(xué)位的人來幫助你解決這個(gè)問題。”