一提到大數(shù)據(jù),人們立刻會想到的就是數(shù)據(jù)科學家,這是一個被財富雜志譽為21世紀最性感的職業(yè)。然而,數(shù)據(jù)科學家做為大數(shù)據(jù)起步階段的工作崗位,其重要性必然會隨著大數(shù)據(jù)技術(shù)的日臻完善而逐漸降低,公民數(shù)據(jù)科學家必將興起,大數(shù)據(jù)分析不會只掌握在少數(shù)人手上,它必將民主化,人人都能做大數(shù)據(jù)分析。
Dell Statistica部門的首席研究官Shawn Rogers在一次采訪中談到:2016年將會是公民數(shù)據(jù)科學家年,因為業(yè)務(wù)用戶需要一種民主化的方式來進行大數(shù)據(jù)數(shù)據(jù)分析。不是每個公司能負擔起數(shù)據(jù)科學家的成本,這也是公民數(shù)據(jù)科學家將廣泛地參與到大數(shù)據(jù)生態(tài)的一個最大的原因。
什么是公民數(shù)據(jù)科學家?
Gartner 研究分析師Alexander Linden是這樣描述的:citizen data scientists as "people on the business side that may have some data skills, possibly from a math or even social science degree — and putting them to work exploring and analyzing data."
為什么需要公民數(shù)據(jù)科學家?領(lǐng)英最新發(fā)布的《2016年中國互聯(lián)網(wǎng)最熱職位人才報告》,數(shù)據(jù)科學家需求強烈,排在前6名。 而數(shù)據(jù)科學家的供給指數(shù)最低,僅為0.05,屬于高度稀缺。同時,數(shù)據(jù)科學家成本昂貴。
硅谷入門級的數(shù)據(jù)科學家的平均年薪已經(jīng)達到11萬美元,行業(yè)年薪已經(jīng)達到1.4萬美元~24萬美元之間。
一方面數(shù)據(jù)科學家價格昂貴、人才供應(yīng)不足,很難找到。而公民數(shù)據(jù)科學家廣泛存在的企業(yè)中,并且具備一定的分析技能,讓他們承擔大數(shù)據(jù)分析工作可以有效的解決人才供應(yīng)以及成本的問題。另一方面,公民數(shù)據(jù)科學家對于業(yè)務(wù)和企業(yè)實際情況更加熟悉,讓他們參與到分析過程來,能實現(xiàn)了業(yè)務(wù)和技術(shù)的結(jié)合,更好的發(fā)揮大數(shù)據(jù)的價值。
數(shù)據(jù)科學的技能鴻溝公民數(shù)據(jù)科學家常用技能:
SQLBI工具數(shù)學/業(yè)務(wù)數(shù)據(jù)科學家常用技能:
Hadoop/SparkSAS/SPSS/RJava/Python/ScalaNLPVisualStatistics其他公民數(shù)據(jù)科學家和數(shù)據(jù)科學家在專業(yè)技能上存在一定的鴻溝,如果按照原有的工作方式,會存在技能不足的問題。
如何跨越數(shù)據(jù)科學的技能鴻溝隨著大數(shù)據(jù)、云計算的發(fā)展,云平臺、新技術(shù)將協(xié)助公民數(shù)據(jù)科學家跨越技能的鴻溝。
大數(shù)據(jù)云端服務(wù)安裝、運維Hadoop、Spark、數(shù)據(jù)倉庫,需要專業(yè)的技術(shù),而且是一件比較繁瑣的事情。直接使用云端服務(wù),能很方便的管理,大大地降低了運維難度。 下面以HashData數(shù)據(jù)倉庫為例,說明如何通過Web界面進行大數(shù)據(jù)云端服務(wù)的創(chuàng)建、管理等具體操作。
創(chuàng)建數(shù)據(jù)倉庫Step1提供集群配置信息
Step2私有網(wǎng)絡(luò)配置
Step3數(shù)據(jù)倉庫用戶配置信息
數(shù)據(jù)倉庫性能監(jiān)控
數(shù)據(jù)倉庫擴容 自助服務(wù)BI
傳統(tǒng)BI的適用對象是IT專家,而自助服務(wù)BI的適用對象是公民數(shù)據(jù)科學家。在這個大數(shù)據(jù)的時代,需要數(shù)據(jù)工作越來越多,業(yè)務(wù)關(guān)聯(lián)性也越來強,對業(yè)務(wù)不熟悉做不好數(shù)據(jù)分析。為了更好地發(fā)揮大數(shù)據(jù)分析的價值,最好的辦法是使用自助服務(wù)BI,讓業(yè)務(wù)用戶參與分析。
借助自助服務(wù)BI工具,公民科學家可以在不需要編程的前提下,進行數(shù)據(jù)分析工作。但是這種分析對時效性要求一般挺高,他們大多數(shù)希望數(shù)分鐘內(nèi)得到結(jié)果。隨著數(shù)據(jù)量越來越大,建議搭配一個高效的并行執(zhí)行引擎,比如Teradata、HashData、Impala、SparkSQL等,它可以保證在很短的時間返回結(jié)果,如果計算能力不夠,還可以彈性擴展更多的計算資源,以保證執(zhí)行時間。
自助服務(wù)BI工具很多,比如Tableau、QlikView、BusinessObjects等。
Machine Learning in SQL數(shù)據(jù)科學家常用的機器學習技能包括R、Spark MLlib,但是有一定的學習曲線。如果能使用SQL語言進行機器學習的話,將會大大使用降低使用難度,Apache MADlib正是這樣的一個項目。
Apache MADLib項目自2011年開源以來,經(jīng)過迅速發(fā)展,目前已經(jīng)能支持Linear Regression、Logistic Regression、Decision Tree、Radomn Forrest、Native Bayes Classification、SVM、Association Rules、K-Means Clustering
Low-rank Matrix Factorisation、PCA、SVD Matrix Factorisation等多種常用的機器學習算法。2016/09/02,Apache MADLib項目剛剛發(fā)布了v1.9.1版本,這個版本將支持1-class SVM for novelty detection, class weights for SVM, prediction metrics, sessionization, pivoting, overlapping patterns in the path function等算法和功能。
下面將向大家介紹如何使用Apache MADLib庫中的邏輯回歸算法來對預測心臟病是否復發(fā)。
Step 1 建表和收集病人原始數(shù)據(jù)Step 2 根據(jù)原始數(shù)據(jù)訓練模型
Step 3 預測
Apache MADlib目前只支持PostgreSQL內(nèi)核的數(shù)據(jù)庫,比如Greenplum、HashData。其中HashData目前在青云上可使用。
小結(jié)公民數(shù)據(jù)科學家的興起,不會取代數(shù)據(jù)科學家。他們將會組成數(shù)據(jù)分析團隊,共同協(xié)作提煉大數(shù)據(jù)價值。