欧美激情_区二区三区,91大神精品网站在线观看,国产网站一区二区三区

應避免犯的12個數據科學錯誤

責任編輯：cres

作者：Mary Branscombe

2018-05-21 14:34:49

來源：企業網D1Net

原創

人工智能、機器學習和分析技術不僅僅是最新的流行語;各個組織都在關注人工智能工具和服務，希望通過大數據、預測分析和自動算法系統來改善業務流程、客戶支持和決策制定。 IDC預測，到2018年，75%的企業和獨立軟件開發商(ISV)將在其至少一個應用程序中使用人工智能或機器學習技術。

管理完善的分析計劃可使組織收獲頗豐。但是如果犯了一些常見錯誤，那么你的數據科學工作則可能很快出錯。

但是擁有數據科學方面的專業知識卻并不像人們對利用數據來做出決策和改進結果的興趣那樣普及。如果你剛剛在業務中開始使用數據科學，那么你需要避免犯以下常見的錯誤。

1. 假設你的數據已準備就緒，并且都是你所需要的

你需要檢查你收集并準備使用的數據的質量和數量。“你的大部分時間，通常是80%的時間，將用于收集和清理數據，”data.world公司的數據專家兼知識工程師喬納森·奧爾蒂斯(Jonathan Ortiz)說。“這是假設你正在跟蹤的數據就是數據科學家完成他們工作所需的數據。”

如果你正在跟蹤的數據是正確的，那么你可能無法進行正確地記錄，或者記錄數據的方式可能隨時間而改變，或者你收集數據的系統可能在你收集數據時發生了變化。“如果每個月都有逐漸增加的變化，那么當你執行分析或建立模型時，就不能使用整個月的數據，”奧爾蒂斯提醒說道，因為系統本身已經發生變化。

TechTarget公司的首席營銷官約翰·斯坦納特(John Steinert)解釋道，即使你正在收集的數據是正確的，但由于數據量低和大量的自變量，這也很難為B2B營銷和銷售等業務領域創建預測模型。“當你收集的數據越多，數據科學工作也會變得越來越好;當你收集的數據越多，預測模型也越強大。由于交易率低，以及影響交易的自變量眾多，因此你收集的數據集很少，而且關聯復雜，這將削弱預測模型的效率。”

一種選擇是購買像購買意向數據這樣的數據集，只要你可以找到適用于你業務范圍的數據集。另一個選擇是模擬數據，但必須謹慎操作，Avanade公司高級顧問數據專家Chintan Shah提醒說道。“實際上，數據可能不會按照你在開始時所做的假設那樣表現，”Shah說。

2. 在開始工作之前，沒有查看數據集

你可能對你的數據集會顯示的內容有自己的理論和直覺，但數據團隊應該花時間仔細研究數據，然后利用這些數據來創建數據模型。

“如果你發現一些內容與你的直覺相反，那么你的假設可能是不正確的或者你的數據可能是錯誤的，”奧爾蒂斯說。“我所做的最重要的工作就是查看數據，繪制數據并進行探索性分析。很多人過快地來做這些工作，或完全繞開這些工作，但你需要了解數據的內容。你可以事先查看一下數據，以確定其是否基于某一領域專業知識和商業頭腦能更快地提供正確的情況描述。”

3. 期望過高

對人工智能的大肆炒作讓很多人相信：“如果我們將數據放在某一計算機算法中，它會自行解決所有問題，”Shah提醒說道。“雖然公司擁有大量數據，但仍需要人員的專業知識才能將數據轉換為可用的格式。”

斯坦納特指出，如果只關注你公司之前完成的工作，就不會發現新的機遇，而這只是使已完成的同一工作更有效率的方式。斯坦納特說：“你越依賴過去的工作作為預測未來的唯一因素，就越不容易尋找到新的途徑。即使你引入第三方數據來尋找你產品或服務的需求，這也不能保證你能夠實現銷售目標。“數據模型可以告訴你一家公司與你所提供的產品是否相匹配，但它無法告訴你該公司現在是否有需求，”他補充道。

“人們開始進行投入，并對數據科學家有前所未有的信任，他們正為數據科學家投入資源并期望能獲得良策來解決所有問題。現在人們對數據科學家有著美好的想法，他們極大地相信數據科學家可利用數據來回答問題并推動決策，”奧爾蒂斯說。

奧爾蒂斯建議數據科學家應該證明，他們可以通過從小型項目著手，并快速取得成果來向組織體現其價值。“先從相對容易的項目開始，而不要從技術復雜的項目入手，不要花一個月時間參與一個你認為具有巨大價值的大項目，”他說。

4. 不使用控制組來測試你的新數據模型

如果你花費時間和金錢建立了一個數據模型，那么你希望在任何地方都使用這一模型，以充分利用你的投入。但是，如果這樣做，你就無法衡量模型的實際效果。另一方面，如果用戶不相信該模型，他們可能就不會使用，那么你就無法進行測試，斯坦納特說。有什么解決方案呢?采用變更管理計劃來確保該模型被使用，同時讓一個控制組不使用該模型，斯坦納特補充說道。讓一個隨機小組追蹤該模型所確定的商機，并且讓一個控制組“根據自身經驗并有權按照他們一貫的方式追蹤商機”。

5. 以目標而并非假設來開始工作

尋找可以提供明確改進的數據模型是很誘人的，例如，在48小時內獲得80%的客戶支持案例，或者在一季度內獲得10%的業務增長，但這些指標還不夠。

“最好先從假設開始，”奧爾蒂斯說。“通常你會將一條曲線或一條直線作為整體度量標準，并且你想要移動這條線;這可能是一個偉大的商業目標，但很難想象你需要采取哪些措施才能做到這一點。“通過控制組或研究數據來驗證你的假設，即哪些因素能改進工作。“如果你可以利用控制組進行分組測試并且這兩個組都具有代表性的樣本，則可以明確你使用的方法是否對你希望達到的效果產生實際的影響。如果你只是在查看事后數據，那么從假設開始著手可有助于縮小范圍。我需要將這個指標提升10%：針對可能提升該指標，我的假設是什么?然后(我可以)做探索性數據分析，對數據中的因素進行跟蹤。對你提出的問題和你正在測試的假設有清楚地認識，可有助于減少你在這個問題上花費的時間。”

6. 讓你的數據模型過時

如果你創建的數據模型可很好地解決你的問題，那么你可能會認為你可以一直使用它，但模型也是需要更新的，并且隨著時間的推移你可能需要構建其他的模型。

“功能會隨著時間而改變，”奧爾蒂斯提醒說道。“你將不斷需要了解其有效性并對你的模型進行更新。”

模型過時的原因有很多，世界在變化，你的公司也在變化(尤其是如果你的模型被證明有用的話)。“模型不應該被視為靜態的東西，市場當然也不是一成不變的，”斯坦納特指出。“如果市場的偏好正在逐漸發展遠離你過去的歷史狀態，那么你的歷史狀態將會使你走上分化的道路。模型的性能就會衰退，或者競爭對手會從你公司的市場行為中學到經驗。保留一系列實驗機制：‘隨著時間的推移，我將如何為模型添加新內容?’你必須進行一系列實驗才能發現新的機遇。”

7. 不監控最終結果的自動化

使用控制組的另一作用是衡量模型的輸出結果是否良好，并且你需要在整個流程中進行跟蹤，否則最終就是對錯誤的目標進行優化。

斯坦納特指出：“企業的工作就如同將機器人應用于你的電話業務中，你沒有持續檢查機器人是否能夠帶來更高的客戶滿意度，而你只是慶幸自己使用了更少的勞動力。”如果客戶正在關閉支持服務，因為這些機器人無法給他們正確的解答，沒有幫助他們解決問題，客戶滿意度將大幅下降。

8. 忘記讓業務專家來參與

認為你需要的所有答案都在數據中，并且認為開發人員或數據科學家可以自己找到答案，這是錯誤的。應確保了解業務問題的人員參與其中。

“盡管專業知識的數據科學家最終能夠發現問題，但如果業務專家和數據科學家共同合作，那么工作將更容易，”Shah解釋說。“任何優秀的數據科學算法都依賴于成功的特征工程。為了獲得更好的特征，某一領域專家總是會帶來更多的價值，而不是花哨的算法。”

奧爾蒂斯表示，即使在你查看數據之前，通過與數據團隊和業務利益相關者之間進行對話來啟動項目，以確保每個人都清楚項目想要實現的目標。“然后，你可以做探索性數據分析，來了解你能否實現這一目標，如果不能，你可能必須以新的方式重新提出問題或獲得不同的數據源。”但該領域專家應該幫助你確定目標是什么，以及項目是否可交付這一目標。

9. 選擇過于復雜的工具

最前沿的機器學習技術令人興奮，新技術可能功能非常強大，但它們也可能被過度使用。 “你可能會發現一個簡單的方法，比如邏輯回歸或決策樹，就可以完成這項工作，”Shah指出，奧爾蒂斯表示贊同。

“人們很容易在計算機能力和復雜模型上投入巨大資源來解決問題。也許我對一個項目的某個方面很好奇，想測試一種全新的算法，該算法可做更多的工作，或者我只是想嘗試一下。這項工作就是找到一個簡單的方法來回答問題。應該嘗試過各種最簡單的方法之后，再使用更復雜的方法，”奧爾蒂斯說道，并指出過度匹配更可能發生在像深度學習這樣的復雜算法中：“對當前擁有的數據，你創建了非常準確的模型，但該模型對新數據則表現欠佳。”

與業務專家合作，確定需要回答的問題，這可指導你來選擇使用哪些技術。“許多數據科學家專注于機器學習，而許多機器學習技術側重于預測工作，但并不是每個問題都涉及預測問題。‘我們需要查看上季度的銷售情況’，這可能意味著很多不同的事情。我們是否需要預測對新客戶的銷售額，或者你只需要知道為什么銷售人員似乎在上個季度的某一周業績不佳，”奧爾蒂斯說。

10. 再次使用那些不適合你的實現

有大量的數據科學和機器學習的例子，你可以進行學習和調整。“數據科學呈指數增長背后的原因之一是幾乎所有算法都能得到開源實現，這使得開發快速原型變得容易，”Shah解釋說。但是這些實現通常是針對特定用例開發的。如果你需要從系統中獲得不同的東西，那么你最好開發自己的版本，他說道。“實施你自己的數據清理工作和功能構建程序，”他建議。 “這會讓你有更大的控制能力。”

11. 對基本因素(如因果關系和交叉驗證)的誤解

當你沒有足夠的數據用于單獨的訓練集時，交叉驗證可幫助你評估預測模型的準確性。對于交叉驗證，你可以將數據集分割多次，使用不同的部分進行訓練，然后通過每次對模型進行測試，以確定無論你使用哪個數據子集進行訓練，是否能獲得相同的精度。但是你不能用它來證明你的模型總是和它的交叉驗證分數一樣準確，奧爾蒂斯解釋道。“可普遍化的模型是一種能夠對新輸入數據做出準確反應的模型，但交叉驗證無法證明這一點。”因為它只使用你已有的數據，只是表明你的模型對于該數據是盡可能準確的。

從根本上說，“相關性并不是因果關系;看到兩個相關的事物，這并不意味著一件事會影響到另一件事，”他指出。(查閱一下偽相關，以了解無關聯數據的一些有趣相關性)。你對數據集進行的探索性繪圖可以讓你了解它可以預測什么，以及哪些數據值是相關的，但不會對你有任何幫助。如果你正在電子商務網站上跟蹤客戶行為，以預測哪些客戶將返回以及何時返回，那么記錄他們登錄的信息不會對你有任何意義，因為他們已經返回到你的網站來進行此項操作。“登錄信息會與客戶的返回有高度相關性，但將該信息納入模型將是一個錯誤。”

12. 低估用戶的理解能力

業務用戶可能無法自己進行統計分析，但這并不意味著他們不了解誤差幅度或統計顯著性和有效性，奧爾蒂斯指出。

“往往業務團隊進行分析時，最終只能得到一個只有一個數字的幻燈片，無論該數字是準確數字還是估算值，還是預測值等;但是當你給出這個值時，其誤差幅度是極其重要的，“奧爾蒂斯說。

如果業務決策是在數據分析的基礎上進行的，要清楚地說明對該結果有多大的信心，否則決策者很難相信該分析系統，并且不要認為決策人員在技術上不夠成熟，所以無法理解這一點。

CIO 數據科學