精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

什么是數據科學?一種將數據轉化為價值的方法

責任編輯:cres

作者:Thor Olavsrud

2018-07-11 11:23:59

來源:企業網D1Net

原創

人們往往認為數據科學和大數據休戚相關,但數據科學家不僅僅使用大數據。數據科學可用從各種規模的數據中提取價值,無論是結構化的、非結構化的還是半結構化的數據。

數據科學是一種將業務數據變成資產的方法,該方法有助于組織提高收入、降低成本、抓住商機、改善客戶體驗等。
 
什么是數據科學?
 
數據科學是這樣一種方法——用統計分析和機器學習等一系列方法從結構化和非結構化數據中獲得洞察。對于大多數組織而言,數據科學用來將數據轉化為價值,這些價值可能以改善收入、降低成本、業務敏捷性、改善客戶體驗、開發新產品等形式體現出來。
 
RiskIQ的首席數據科學家Adam Hunt問道:“如果你想的話,你可以獲取大量的數據,但是如果你不打算用它做任何事情,把它變成有趣的東西,它又有何用?正是數據科學使這些數據變得有意義的”。
 
數據科學與分析
 
雖然這兩者密切相關,但人們往往將數據分析視為數據科學的一個組成部分,用于了解組織的數據。數據科學利用分析的輸出結果來解決問題。
 
Hunt說:“數據科學得出了能推動你的數據發展的結論。分析就是要弄清楚數據長什么樣子,但只有數據本身才會產生結果。如果你沒有用數據解決問題,如果你只是在做研究,那么這充其量是在做分析。如果你確實要利用結果來解釋一些事情,你將從分析轉向科學。與其說數據科學與數據的查看,檢查和繪制有關,不如說它與實際問題的解決有關。”
 
數據科學與大數據
 
人們往往認為數據科學和大數據休戚相關,但數據科學家不僅僅使用大數據。數據科學可用從各種規模的數據中提取價值,無論是結構化的、非結構化的還是半結構化的數據。
 
很多情況下,大數據對數據科學團隊很有用,因為你擁有的數據越多,你在特定模型中可以包含的參數就越多。
 
Hunt說:“有了大數據,你就不見得會受到小數據的維度約束。大數據確實在某些方面有所幫助,但多多不一定益善。如果你強行將股市行情顯示在一欄里,這不管用。但如果你只看一兩天的行情,你可以這么做。”
 
數據科學的商業價值
 
數據科學的商業價值取決于它所服務的組織。數據科學有助于組織創建能預測硬件故障的工具,它可以讓組織實施維護并防止意外停機。它可用來預測超市貨架上要擺放什么物品,或根據屬性預測某個產品的受歡迎程度。
 
MapR Technologies的首席應用架構師Ted Dunning說:“與業務團隊融為一體,這是數據科學團隊所能擁有的最大價值。標新立異者(真正的創新者)幾乎必然會發現人們原本并不指望發現的價值或價值漏損,他們往往會讓業內人士感到驚訝。價值并不存在于人們一開始認為它應該存在的地方。”
 
組織數據科學團隊
 
數據科學往往是一門興師動眾的學科。數據科學家是大多數數據科學團隊的前沿核心,但從數據轉向分析,然后將分析轉化為生產價值,這需要一系列技能和眾多角色的參與。例如,數據分析師應該參與數據研究,然后才將數據呈現給團隊,并維護數據模型。數據工程師必須構建數據管道,以豐富數據集,使數據可供公司其他人使用。
 
eBates的分析副總裁Mark Stange-Tregear表示,從團隊角度思考,而不是尋求“獨角獸(將非線性思維與高等數學和統計知識以及編碼能力相結合的人)”,這很重要。
 
Stange-Tregear解釋說:“我認為數據工程并不是數據科學家的主要特征。我需要真正別出心裁的人。如果我可以找人來建模,評估統計數據,并將該模型的利弊傳達給業務,那么我會聘請經驗豐富到足以承接并實現該模型。”
 
將駐隊方法應用到數據科學
 
有些組織寧肯將數據科學家與其他職能合并到一起,而不是孤立數據科學團隊。例如,MapR的Dunning建議組織將數據運維(DataOps)方法運用到數據科學,將數據科學家安插到負有業務線職責的數據運維團隊中。這些數據運維團隊往往是跨職能的,遍及運營、軟件工程、架構和規劃以及產品管理等“技能行會”,可以從頭到尾編排數據、工具、代碼和環境。數據運維團隊往往認為分析管道類似于生產線。
 
Dunning說:“從某種抽象的意義上說,數據科學并不是數據科學團隊的分內職責。你想通過數據從這部分業務中獲取價值。一個孤立的數據科學團隊可能想部署最復雜的模型。駐隊數據科學家希望最終成果是可維護。他們在解決方案的選擇上十分功利,十分務實。”
 
也就是說,數據科學家不一定常駐在數據運維團隊中。
 
Dunning說:“團隊中通常會有一位隨隊一段時間的數據科學家。他的能力和敏感度會漸漸感染其他人。然后團隊中的某個人會擔任數據工程師,這有點像低配版的數據科學家。隨后駐隊數據科學家本人會繼續駐到另一個團隊。這是一個變動不居的情況。”
 
數據科學的目標和可交付成果
 
數據科學的目標是構建這樣一種手段——從數據中獲取以業務為中心的洞察。這就需要人們理解企業中價值和信息的流動方式,并利用這種理解來發現商機的能力。雖然這可能涉及一次性項目,但更典型的情況是,數據科學團隊會設法發現關鍵的數據資產,這些資產可以轉化為數據管道,為可維護的工具和解決方案提供支持。例如銀行使用的信用卡欺詐監控解決方案,或用于優化風電場中風力渦輪機布局的工具。
 
漸漸地,傳達團隊所做的事情的演示也成了重要的可交付成果。
 
RiskIQ的Hunt說:“要確保他們將成果傳達給公司的其它部門,這點非常重要。當一個數據科學團隊長時間不明就里時,團隊就會慢慢陷入困境。如果我們不經常討論和推廣這一做法,很多產品經理就會對此不以為然。”
 
數據科學的流程和方法
 
Hunt說,生產工程團隊以預計的日程進入沖刺周期(sprint cycle)。這對數據科學團隊來說通常很難做到,因為光是確認項目的可行性就要耗費大量的時間。
 
Hunt說:“很多時候,第一周,甚至第一個月,都是在做研究——收集數據,清理數據,我們有能力回答問題嗎?我們能否高效地做到這一點?我們花費大量的時間進行設計和研究,遠遠超過常規的工程團隊在這方面的表現。”
 
對于Hunt來說,數據科學應該遵循科學方法,盡管他指出事實并非總是如此,或總是可行。
 
Hunt說:“你設法從數據中獲得一些洞察。為了做到屢試不爽,確保你不是在吹噓,你必須用科學方法準確地證明假設,但我認為很多數據科學家實際上根本沒有使用任何科學。”
 
Hunt說,真正的科學不是一蹴而就的。你要花一點時間證實自己的假設,然后花很多時間設法證明自己是錯的。
 
Hunt說:“盡管有了數據科學,但你幾乎總是在一家不想花時間深入研究數據,驗證這些假說的營利性公司。我們試圖回答的很多問題都是短時內出現的問題。例如,在安全方面,我們要設法在明天找到威脅源(threat actor),而不是明年——趁威脅還沒廣泛傳播。”
 
Hunt說,因此,數據科學往往意味著要采用“足夠好”的答案,而不是最佳答案。然而,危險就在于,結果可能會成為確認偏誤(confirmation bias)或過擬合(overfitting)的犧牲品。
 
“如果這還不是科學的話,這就意味著你正在用科學方法來證實假說,那么你所做的事情不過是把數據丟給算法去處理而已。”
 
數據科學工具
 
數據科學團隊使用各種各樣的工具,包括SQL、Python、R、Java,以及Hive、oozie和TensorFlow等一系列開源項目。這些工具用于各種與數據相關的任務,從提取和清理數據到通過統計方法或機器學習對數據進行算法分析。
 
MapR的Dunning說:“數據科學家所需的首要工具是眼和手。締造價值的往往是最簡單的事物,這毫不稀奇。用批判的眼光看待數據的簡單的方面。探求事物如何運作的蛛絲馬跡。”
 
工具使數據科學團隊眼明手快。
 
Dunning說:“你需要優秀的可視化工具。編程工具Python現在很受歡迎。你需要真正能用于建模的工具。只用一個工具是無法維持的。”
 
Dunning說,當MapR調查其客戶數據團隊時,團隊至少會用到5個建模工具,甚至還沒有涉及到可視化工具。
 
Dunning說:“事物變得越來越多元化,因為人們變得越來越多疑。其它建模技術會產生更好的模型嗎?”
 
從事數據科學的薪水
 
PayScale的數據指出,以下是一些與數據科學相關的最受歡迎的職位和每個職位的平均薪水:
 
•分析經理:$82K-$120K
 
•商業智能分析師:$55K-$81K
 
• 數據分析師:$45K-$68K
 
• 數據架構師:$75K-$152K
 
• 數據工程師:$63K-$131K
 
• 數據科學家:$79K-$120K
 
• 研究分析師:$43K-$63K
 
• 研究科學家:$58K-$97K
 
• 統計師:$58K-$90K
 
數據科學技能
 
數據科學是一門不斷發展的學科,參與其中的方法有很多。雖然數據科學學位課程的數量正在迅速增加,但組織在找數據科學家時不一定看重這些課程。
 
eBates的Stange-Tregear說,他要找有統計學背景的候選人,這樣他們就知道自己是否在研究真實的結果,研究能將結果置入情境的領域知識,研究可以讓他們向業務用戶傳達結果的溝通技巧。
 
他說:“如果我有一位可以包攬所有工作的數據科學家,那么讓數據工程團隊來實現這個,我是不放心的。”
 
RiskIQ的Hunt被擁有博士學位的候選人所吸引。
 
Hunt說:“我偏向于擁有博士學位的人,但我不會放棄那些有很多經驗的人。博士學位向我傳達的信息是,你能夠對一個課題進行非常深入的研究,并且將這些信息傳達給其他人。但是,擁有堅實的背景或個人項目是非常有趣的。”
 
Hunt說,他特別想找物理、數學、計算機科學、經濟學甚至社會科學領域的博士生。他不會對擁有數據科學或分析學位的申請人嗤之以鼻,但他確實有所保留。他說:“我的個人經歷告訴我,后者非常有用,但它們過于關注模型的運作,而不是思維。”
 
MapR的Dunning不太關心申請人名號,他更在意他們是否能秀出新的事物。Dunning說:“招聘數據科學家時,我的首要問題是:參加面試的人是否讓我學到了什么?我要找的人并不是能我所能者,我熱切希望找到能我所不能者,或者那些可以教導團隊事務的人。”
 
Dunning指出,一些最優秀的數據科學家或數據科學領域的領導者都有非常規的背景,一些與他合作過的最優秀的人包括:一個上大學前做了6年園藝工作的人、一個有美術背景的人、一個有法國文學學位的人,還有一個是沒怎么受過計算機培訓的新聞專業學生。
 
Dunning說:“你要從數據感知(而非知道很多公式)的角度來考驗人。你要的是研究事物,理解事物的能力。”
 
數據科學培訓
 
鑒于目前數據科學人才短缺,很多組織正在制定培養內部數據科學人才的計劃。
 
訓練營是培訓工人,使他們擔任數據科學職位的另一個快速發展的途徑。
 
數據科學學位
 
《美國新聞和世界報道(US News and World Report)》稱,以下是數據科學的頂尖研究生學位課程:
 
• 斯坦福大學數據科學專業的統計學碩士
 
• 伯克利信息學院的信息與數據科學碩士
 
• 卡內基梅隆大學的計算數據科學碩士
 
• 哈佛大學約翰保爾森工程與應用科學學院的數據科學理學碩士
 
• 華盛頓大學的數據科學理學碩士
 
• 約翰霍普金斯大學懷廷工程學院的數據科學理學碩士
 
• 芝加哥大學格拉姆學院的分析學碩士
 
數據科學認證
 
組織需要有分析數據技術專業知識的數據科學家和分析師。他們還需要能將需求轉換為系統的大數據系統架構師,需要能構建和維護數據管道的數據工程師,需要了解Hadoop集群等技術的開發人員,以及將這一切聯系在一起的系統管理員和管理者。候選人證明自己有合適技能的一種方法是亮出證書。
 
大名鼎鼎的大數據和數據分析認證包括:
 
• Analytics: Optimizing Big Data Certificate
 
• Certificate in Engineering Excellence Big Data Analytics and Optimization (CPEE)
 
• Certification of Professional Achievement in Data Sciences
 
• Certified Analytics Professional
 
• Cloudera Certified Associate (CCA) AdministratorCloudera
 
• Cloudera Certified Associate (CCA) Data AnalystCloudera
 
• Cloudera Certified Associate (CCA) Spark and Hadoop DeveloperCloudera
 
• Cloudera Certified Professional (CCP): Data EngineerCloudera• EMC Proven Professional Data Scientist Associate (EMCDSA)EMC
 
• IBM Certified Data Architect – Big DataIBM
 
• IBM Certified Data Engineer – Big DataIBM
 
• Microsoft Certified Solutions Expert (MCSE): Data Management and AnalyticsMicrosoft
 
• Mining Massive Data Sets Graduate Certificate
 
• MongoDB Certified DBA AssociateMongoDB
 
• MongoDB Certified Developer AssociateMongoDB
 
• Oracle Business Intelligence Foundation Suite 11 Certified Implementation SpecialistOracle
 
• SAS Certified Big Data Professional
 
• SAS Certified Data Scientist Using SAS 9
 
• Stanford Data Mining and Applications Graduate Certificate

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 嵊州市| 通化县| 梅州市| 裕民县| 成武县| 土默特右旗| 闽侯县| 南华县| 嘉兴市| 邳州市| 房产| 奉节县| 友谊县| 芷江| 岳阳县| 习水县| 庄河市| 元朗区| 原平市| 崇明县| 浦城县| 临清市| 永嘉县| 永定县| 绥化市| 山西省| 定远县| 嫩江县| 冀州市| 维西| 西昌市| 漳平市| 贺兰县| 吉安市| 巴彦县| 九江县| 青岛市| 长泰县| 双鸭山市| 阆中市| 田东县|