精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數(shù)據(jù)業(yè)界動態(tài) → 正文

受大數(shù)據(jù)技術(shù)刺激 公民數(shù)據(jù)科學家正緊俏

責任編輯:editor006 作者:趙東 |來源:企業(yè)網(wǎng)D1Net  2016-09-07 17:46:05 本文摘自:ZDNet至頂網(wǎng)

 一提到大數(shù)據(jù),人們立刻會想到的就是數(shù)據(jù)科學家,這是一個被財富雜志譽為21世紀最性感的職業(yè)。然而,數(shù)據(jù)科學家做為大數(shù)據(jù)起步階段的工作崗位,其重要性必然會隨著大數(shù)據(jù)技術(shù)的日臻完善而逐漸降低,公民數(shù)據(jù)科學家必將興起,大數(shù)據(jù)分析不會只掌握在少數(shù)人手上,它必將民主化,人人都能做大數(shù)據(jù)分析。

Dell Statistica部門的首席研究官Shawn Rogers在一次采訪中談到:2016年將會是公民數(shù)據(jù)科學家年,因為業(yè)務(wù)用戶需要一種民主化的方式來進行大數(shù)據(jù)數(shù)據(jù)分析。不是每個公司能負擔起數(shù)據(jù)科學家的成本,這也是公民數(shù)據(jù)科學家將廣泛地參與到大數(shù)據(jù)生態(tài)的一個最大的原因。

什么是公民數(shù)據(jù)科學家?

Gartner 研究分析師Alexander Linden是這樣描述的:citizen data scientists as "people on the business side that may have some data skills, possibly from a math or even social science degree — and putting them to work exploring and analyzing data."

為什么需要公民數(shù)據(jù)科學家?

領(lǐng)英最新發(fā)布的《2016年中國互聯(lián)網(wǎng)最熱職位人才報告》,數(shù)據(jù)科學家需求強烈,排在前6名。 而數(shù)據(jù)科學家的供給指數(shù)最低,僅為0.05,屬于高度稀缺。同時,數(shù)據(jù)科學家成本昂貴。

公民數(shù)據(jù)科學家正在興起

硅谷入門級的數(shù)據(jù)科學家的平均年薪已經(jīng)達到11萬美元,行業(yè)年薪已經(jīng)達到1.4萬美元~24萬美元之間。

一方面數(shù)據(jù)科學家價格昂貴、人才供應(yīng)不足,很難找到。而公民數(shù)據(jù)科學家廣泛存在的企業(yè)中,并且具備一定的分析技能,讓他們承擔大數(shù)據(jù)分析工作可以有效的解決人才供應(yīng)以及成本的問題。另一方面,公民數(shù)據(jù)科學家對于業(yè)務(wù)和企業(yè)實際情況更加熟悉,讓他們參與到分析過程來,能實現(xiàn)了業(yè)務(wù)和技術(shù)的結(jié)合,更好的發(fā)揮大數(shù)據(jù)的價值。

數(shù)據(jù)科學的技能鴻溝

公民數(shù)據(jù)科學家常用技能:

SQLBI工具數(shù)學/業(yè)務(wù)

數(shù)據(jù)科學家常用技能:

Hadoop/SparkSAS/SPSS/RJava/Python/ScalaNLPVisualStatistics其他

公民數(shù)據(jù)科學家和數(shù)據(jù)科學家在專業(yè)技能上存在一定的鴻溝,如果按照原有的工作方式,會存在技能不足的問題。

如何跨越數(shù)據(jù)科學的技能鴻溝

隨著大數(shù)據(jù)、云計算的發(fā)展,云平臺、新技術(shù)將協(xié)助公民數(shù)據(jù)科學家跨越技能的鴻溝。

大數(shù)據(jù)云端服務(wù)

安裝、運維Hadoop、Spark、數(shù)據(jù)倉庫,需要專業(yè)的技術(shù),而且是一件比較繁瑣的事情。直接使用云端服務(wù),能很方便的管理,大大地降低了運維難度。 下面以HashData數(shù)據(jù)倉庫為例,說明如何通過Web界面進行大數(shù)據(jù)云端服務(wù)的創(chuàng)建、管理等具體操作。

創(chuàng)建數(shù)據(jù)倉庫

Step1提供集群配置信息

公民數(shù)據(jù)科學家正在興起

  Step2私有網(wǎng)絡(luò)配置

公民數(shù)據(jù)科學家正在興起

  Step3數(shù)據(jù)倉庫用戶配置信息

公民數(shù)據(jù)科學家正在興起

數(shù)據(jù)倉庫性能監(jiān)控

公民數(shù)據(jù)科學家正在興起

 

數(shù)據(jù)倉庫擴容

公民數(shù)據(jù)科學家正在興起

自助服務(wù)BI

傳統(tǒng)BI的適用對象是IT專家,而自助服務(wù)BI的適用對象是公民數(shù)據(jù)科學家。在這個大數(shù)據(jù)的時代,需要數(shù)據(jù)工作越來越多,業(yè)務(wù)關(guān)聯(lián)性也越來強,對業(yè)務(wù)不熟悉做不好數(shù)據(jù)分析。為了更好地發(fā)揮大數(shù)據(jù)分析的價值,最好的辦法是使用自助服務(wù)BI,讓業(yè)務(wù)用戶參與分析。

公民數(shù)據(jù)科學家正在興起

借助自助服務(wù)BI工具,公民科學家可以在不需要編程的前提下,進行數(shù)據(jù)分析工作。但是這種分析對時效性要求一般挺高,他們大多數(shù)希望數(shù)分鐘內(nèi)得到結(jié)果。隨著數(shù)據(jù)量越來越大,建議搭配一個高效的并行執(zhí)行引擎,比如Teradata、HashData、Impala、SparkSQL等,它可以保證在很短的時間返回結(jié)果,如果計算能力不夠,還可以彈性擴展更多的計算資源,以保證執(zhí)行時間。

自助服務(wù)BI工具很多,比如Tableau、QlikView、BusinessObjects等。

Machine Learning in SQL

數(shù)據(jù)科學家常用的機器學習技能包括R、Spark MLlib,但是有一定的學習曲線。如果能使用SQL語言進行機器學習的話,將會大大使用降低使用難度,Apache MADlib正是這樣的一個項目。

Apache MADLib項目自2011年開源以來,經(jīng)過迅速發(fā)展,目前已經(jīng)能支持Linear Regression、Logistic Regression、Decision Tree、Radomn Forrest、Native Bayes Classification、SVM、Association Rules、K-Means Clustering
Low-rank Matrix Factorisation、PCA、SVD Matrix Factorisation等多種常用的機器學習算法。2016/09/02,Apache MADLib項目剛剛發(fā)布了v1.9.1版本,這個版本將支持1-class SVM for novelty detection, class weights for SVM, prediction metrics, sessionization, pivoting, overlapping patterns in the path function等算法和功能。

下面將向大家介紹如何使用Apache MADLib庫中的邏輯回歸算法來對預測心臟病是否復發(fā)。

Step 1 建表和收集病人原始數(shù)據(jù)

公民數(shù)據(jù)科學家正在興起

Step 2 根據(jù)原始數(shù)據(jù)訓練模型

公民數(shù)據(jù)科學家正在興起

 

Step 3 預測

公民數(shù)據(jù)科學家正在興起

Apache MADlib目前只支持PostgreSQL內(nèi)核的數(shù)據(jù)庫,比如Greenplum、HashData。其中HashData目前在青云上可使用。

小結(jié)

公民數(shù)據(jù)科學家的興起,不會取代數(shù)據(jù)科學家。他們將會組成數(shù)據(jù)分析團隊,共同協(xié)作提煉大數(shù)據(jù)價值。

關(guān)鍵字:科學家regression

本文摘自:ZDNet至頂網(wǎng)

x 受大數(shù)據(jù)技術(shù)刺激 公民數(shù)據(jù)科學家正緊俏 掃一掃
分享本文到朋友圈
當前位置:大數(shù)據(jù)業(yè)界動態(tài) → 正文

受大數(shù)據(jù)技術(shù)刺激 公民數(shù)據(jù)科學家正緊俏

責任編輯:editor006 作者:趙東 |來源:企業(yè)網(wǎng)D1Net  2016-09-07 17:46:05 本文摘自:ZDNet至頂網(wǎng)

 一提到大數(shù)據(jù),人們立刻會想到的就是數(shù)據(jù)科學家,這是一個被財富雜志譽為21世紀最性感的職業(yè)。然而,數(shù)據(jù)科學家做為大數(shù)據(jù)起步階段的工作崗位,其重要性必然會隨著大數(shù)據(jù)技術(shù)的日臻完善而逐漸降低,公民數(shù)據(jù)科學家必將興起,大數(shù)據(jù)分析不會只掌握在少數(shù)人手上,它必將民主化,人人都能做大數(shù)據(jù)分析。

Dell Statistica部門的首席研究官Shawn Rogers在一次采訪中談到:2016年將會是公民數(shù)據(jù)科學家年,因為業(yè)務(wù)用戶需要一種民主化的方式來進行大數(shù)據(jù)數(shù)據(jù)分析。不是每個公司能負擔起數(shù)據(jù)科學家的成本,這也是公民數(shù)據(jù)科學家將廣泛地參與到大數(shù)據(jù)生態(tài)的一個最大的原因。

什么是公民數(shù)據(jù)科學家?

Gartner 研究分析師Alexander Linden是這樣描述的:citizen data scientists as "people on the business side that may have some data skills, possibly from a math or even social science degree — and putting them to work exploring and analyzing data."

為什么需要公民數(shù)據(jù)科學家?

領(lǐng)英最新發(fā)布的《2016年中國互聯(lián)網(wǎng)最熱職位人才報告》,數(shù)據(jù)科學家需求強烈,排在前6名。 而數(shù)據(jù)科學家的供給指數(shù)最低,僅為0.05,屬于高度稀缺。同時,數(shù)據(jù)科學家成本昂貴。

公民數(shù)據(jù)科學家正在興起

硅谷入門級的數(shù)據(jù)科學家的平均年薪已經(jīng)達到11萬美元,行業(yè)年薪已經(jīng)達到1.4萬美元~24萬美元之間。

一方面數(shù)據(jù)科學家價格昂貴、人才供應(yīng)不足,很難找到。而公民數(shù)據(jù)科學家廣泛存在的企業(yè)中,并且具備一定的分析技能,讓他們承擔大數(shù)據(jù)分析工作可以有效的解決人才供應(yīng)以及成本的問題。另一方面,公民數(shù)據(jù)科學家對于業(yè)務(wù)和企業(yè)實際情況更加熟悉,讓他們參與到分析過程來,能實現(xiàn)了業(yè)務(wù)和技術(shù)的結(jié)合,更好的發(fā)揮大數(shù)據(jù)的價值。

數(shù)據(jù)科學的技能鴻溝

公民數(shù)據(jù)科學家常用技能:

SQLBI工具數(shù)學/業(yè)務(wù)

數(shù)據(jù)科學家常用技能:

Hadoop/SparkSAS/SPSS/RJava/Python/ScalaNLPVisualStatistics其他

公民數(shù)據(jù)科學家和數(shù)據(jù)科學家在專業(yè)技能上存在一定的鴻溝,如果按照原有的工作方式,會存在技能不足的問題。

如何跨越數(shù)據(jù)科學的技能鴻溝

隨著大數(shù)據(jù)、云計算的發(fā)展,云平臺、新技術(shù)將協(xié)助公民數(shù)據(jù)科學家跨越技能的鴻溝。

大數(shù)據(jù)云端服務(wù)

安裝、運維Hadoop、Spark、數(shù)據(jù)倉庫,需要專業(yè)的技術(shù),而且是一件比較繁瑣的事情。直接使用云端服務(wù),能很方便的管理,大大地降低了運維難度。 下面以HashData數(shù)據(jù)倉庫為例,說明如何通過Web界面進行大數(shù)據(jù)云端服務(wù)的創(chuàng)建、管理等具體操作。

創(chuàng)建數(shù)據(jù)倉庫

Step1提供集群配置信息

公民數(shù)據(jù)科學家正在興起

  Step2私有網(wǎng)絡(luò)配置

公民數(shù)據(jù)科學家正在興起

  Step3數(shù)據(jù)倉庫用戶配置信息

公民數(shù)據(jù)科學家正在興起

數(shù)據(jù)倉庫性能監(jiān)控

公民數(shù)據(jù)科學家正在興起

 

數(shù)據(jù)倉庫擴容

公民數(shù)據(jù)科學家正在興起

自助服務(wù)BI

傳統(tǒng)BI的適用對象是IT專家,而自助服務(wù)BI的適用對象是公民數(shù)據(jù)科學家。在這個大數(shù)據(jù)的時代,需要數(shù)據(jù)工作越來越多,業(yè)務(wù)關(guān)聯(lián)性也越來強,對業(yè)務(wù)不熟悉做不好數(shù)據(jù)分析。為了更好地發(fā)揮大數(shù)據(jù)分析的價值,最好的辦法是使用自助服務(wù)BI,讓業(yè)務(wù)用戶參與分析。

公民數(shù)據(jù)科學家正在興起

借助自助服務(wù)BI工具,公民科學家可以在不需要編程的前提下,進行數(shù)據(jù)分析工作。但是這種分析對時效性要求一般挺高,他們大多數(shù)希望數(shù)分鐘內(nèi)得到結(jié)果。隨著數(shù)據(jù)量越來越大,建議搭配一個高效的并行執(zhí)行引擎,比如Teradata、HashData、Impala、SparkSQL等,它可以保證在很短的時間返回結(jié)果,如果計算能力不夠,還可以彈性擴展更多的計算資源,以保證執(zhí)行時間。

自助服務(wù)BI工具很多,比如Tableau、QlikView、BusinessObjects等。

Machine Learning in SQL

數(shù)據(jù)科學家常用的機器學習技能包括R、Spark MLlib,但是有一定的學習曲線。如果能使用SQL語言進行機器學習的話,將會大大使用降低使用難度,Apache MADlib正是這樣的一個項目。

Apache MADLib項目自2011年開源以來,經(jīng)過迅速發(fā)展,目前已經(jīng)能支持Linear Regression、Logistic Regression、Decision Tree、Radomn Forrest、Native Bayes Classification、SVM、Association Rules、K-Means Clustering
Low-rank Matrix Factorisation、PCA、SVD Matrix Factorisation等多種常用的機器學習算法。2016/09/02,Apache MADLib項目剛剛發(fā)布了v1.9.1版本,這個版本將支持1-class SVM for novelty detection, class weights for SVM, prediction metrics, sessionization, pivoting, overlapping patterns in the path function等算法和功能。

下面將向大家介紹如何使用Apache MADLib庫中的邏輯回歸算法來對預測心臟病是否復發(fā)。

Step 1 建表和收集病人原始數(shù)據(jù)

公民數(shù)據(jù)科學家正在興起

Step 2 根據(jù)原始數(shù)據(jù)訓練模型

公民數(shù)據(jù)科學家正在興起

 

Step 3 預測

公民數(shù)據(jù)科學家正在興起

Apache MADlib目前只支持PostgreSQL內(nèi)核的數(shù)據(jù)庫,比如Greenplum、HashData。其中HashData目前在青云上可使用。

小結(jié)

公民數(shù)據(jù)科學家的興起,不會取代數(shù)據(jù)科學家。他們將會組成數(shù)據(jù)分析團隊,共同協(xié)作提煉大數(shù)據(jù)價值。

關(guān)鍵字:科學家regression

本文摘自:ZDNet至頂網(wǎng)

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 江山市| 蕲春县| 蚌埠市| 宣威市| 华蓥市| 邮箱| 富锦市| 襄城县| 沂南县| 宁安市| 大城县| 锡林郭勒盟| 岳池县| 辽中县| 商城县| 雷山县| 青浦区| 恩施市| 米林县| 兴城市| 乌审旗| 扎赉特旗| 安丘市| 忻州市| 高雄市| 泸水县| 广州市| 三门县| 肇东市| 娄烦县| 昌宁县| 泰州市| 乌恰县| 常山县| 三原县| 海淀区| 太仆寺旗| 永丰县| 闽侯县| 康平县| 芦溪县|