關(guān)于我們聯(lián)系我們

受大數(shù)據(jù)技術(shù)刺激公民數(shù)據(jù)科學家正緊俏

責任編輯：editor006 作者：趙東 |來源：企業(yè)網(wǎng)D1Net 2016-09-07 17:46:05 本文摘自：ZDNet至頂網(wǎng)

一提到大數(shù)據(jù)，人們立刻會想到的就是數(shù)據(jù)科學家，這是一個被財富雜志譽為21世紀最性感的職業(yè)。然而，數(shù)據(jù)科學家做為大數(shù)據(jù)起步階段的工作崗位，其重要性必然會隨著大數(shù)據(jù)技術(shù)的日臻完善而逐漸降低，公民數(shù)據(jù)科學家必將興起，大數(shù)據(jù)分析不會只掌握在少數(shù)人手上，它必將民主化，人人都能做大數(shù)據(jù)分析。

Dell Statistica部門的首席研究官Shawn Rogers在一次采訪中談到：2016年將會是公民數(shù)據(jù)科學家年，因為業(yè)務(wù)用戶需要一種民主化的方式來進行大數(shù)據(jù)數(shù)據(jù)分析。不是每個公司能負擔起數(shù)據(jù)科學家的成本，這也是公民數(shù)據(jù)科學家將廣泛地參與到大數(shù)據(jù)生態(tài)的一個最大的原因。

什么是公民數(shù)據(jù)科學家？

Gartner 研究分析師Alexander Linden是這樣描述的：citizen data scientists as "people on the business side that may have some data skills, possibly from a math or even social science degree — and putting them to work exploring and analyzing data."

為什么需要公民數(shù)據(jù)科學家？

領(lǐng)英最新發(fā)布的《2016年中國互聯(lián)網(wǎng)最熱職位人才報告》，數(shù)據(jù)科學家需求強烈，排在前6名。而數(shù)據(jù)科學家的供給指數(shù)最低，僅為0.05，屬于高度稀缺。同時，數(shù)據(jù)科學家成本昂貴。

公民數(shù)據(jù)科學家正在興起

硅谷入門級的數(shù)據(jù)科學家的平均年薪已經(jīng)達到11萬美元，行業(yè)年薪已經(jīng)達到1.4萬美元~24萬美元之間。

一方面數(shù)據(jù)科學家價格昂貴、人才供應(yīng)不足，很難找到。而公民數(shù)據(jù)科學家廣泛存在的企業(yè)中，并且具備一定的分析技能，讓他們承擔大數(shù)據(jù)分析工作可以有效的解決人才供應(yīng)以及成本的問題。另一方面，公民數(shù)據(jù)科學家對于業(yè)務(wù)和企業(yè)實際情況更加熟悉，讓他們參與到分析過程來，能實現(xiàn)了業(yè)務(wù)和技術(shù)的結(jié)合，更好的發(fā)揮大數(shù)據(jù)的價值。

數(shù)據(jù)科學的技能鴻溝

公民數(shù)據(jù)科學家常用技能：

SQLBI工具數(shù)學/業(yè)務(wù)

數(shù)據(jù)科學家常用技能：

Hadoop/SparkSAS/SPSS/RJava/Python/ScalaNLPVisualStatistics其他

公民數(shù)據(jù)科學家和數(shù)據(jù)科學家在專業(yè)技能上存在一定的鴻溝，如果按照原有的工作方式，會存在技能不足的問題。

如何跨越數(shù)據(jù)科學的技能鴻溝

隨著大數(shù)據(jù)、云計算的發(fā)展，云平臺、新技術(shù)將協(xié)助公民數(shù)據(jù)科學家跨越技能的鴻溝。

大數(shù)據(jù)云端服務(wù)

安裝、運維Hadoop、Spark、數(shù)據(jù)倉庫，需要專業(yè)的技術(shù)，而且是一件比較繁瑣的事情。直接使用云端服務(wù)，能很方便的管理，大大地降低了運維難度。下面以HashData數(shù)據(jù)倉庫為例，說明如何通過Web界面進行大數(shù)據(jù)云端服務(wù)的創(chuàng)建、管理等具體操作。

創(chuàng)建數(shù)據(jù)倉庫

Step1提供集群配置信息

公民數(shù)據(jù)科學家正在興起

　　Step2私有網(wǎng)絡(luò)配置

公民數(shù)據(jù)科學家正在興起

　　Step3數(shù)據(jù)倉庫用戶配置信息

公民數(shù)據(jù)科學家正在興起

數(shù)據(jù)倉庫性能監(jiān)控

公民數(shù)據(jù)科學家正在興起

數(shù)據(jù)倉庫擴容

公民數(shù)據(jù)科學家正在興起

自助服務(wù)BI

傳統(tǒng)BI的適用對象是IT專家，而自助服務(wù)BI的適用對象是公民數(shù)據(jù)科學家。在這個大數(shù)據(jù)的時代，需要數(shù)據(jù)工作越來越多，業(yè)務(wù)關(guān)聯(lián)性也越來強，對業(yè)務(wù)不熟悉做不好數(shù)據(jù)分析。為了更好地發(fā)揮大數(shù)據(jù)分析的價值，最好的辦法是使用自助服務(wù)BI,讓業(yè)務(wù)用戶參與分析。

公民數(shù)據(jù)科學家正在興起

借助自助服務(wù)BI工具，公民科學家可以在不需要編程的前提下，進行數(shù)據(jù)分析工作。但是這種分析對時效性要求一般挺高，他們大多數(shù)希望數(shù)分鐘內(nèi)得到結(jié)果。隨著數(shù)據(jù)量越來越大，建議搭配一個高效的并行執(zhí)行引擎，比如Teradata、HashData、Impala、SparkSQL等，它可以保證在很短的時間返回結(jié)果，如果計算能力不夠，還可以彈性擴展更多的計算資源，以保證執(zhí)行時間。

自助服務(wù)BI工具很多，比如Tableau、QlikView、BusinessObjects等。

Machine Learning in SQL

數(shù)據(jù)科學家常用的機器學習技能包括R、Spark MLlib,但是有一定的學習曲線。如果能使用SQL語言進行機器學習的話，將會大大使用降低使用難度，Apache MADlib正是這樣的一個項目。

Apache MADLib項目自2011年開源以來，經(jīng)過迅速發(fā)展，目前已經(jīng)能支持Linear Regression、Logistic Regression、Decision Tree、Radomn Forrest、Native Bayes Classification、SVM、Association Rules、K-Means Clustering
Low-rank Matrix Factorisation、PCA、SVD Matrix Factorisation等多種常用的機器學習算法。2016/09/02，Apache MADLib項目剛剛發(fā)布了v1.9.1版本，這個版本將支持1-class SVM for novelty detection, class weights for SVM, prediction metrics, sessionization, pivoting, overlapping patterns in the path function等算法和功能。

下面將向大家介紹如何使用Apache MADLib庫中的邏輯回歸算法來對預測心臟病是否復發(fā)。

Step 1 建表和收集病人原始數(shù)據(jù)

公民數(shù)據(jù)科學家正在興起