企業要想保持競爭力,就必須比大數據分析做的更多。如果不去評估企業手中的數據質量,期望的結果,以及預計從這種數據分析中獲得多少利潤,這將很難正確地找出哪些數據科學項目能夠盈利,哪些不能。
商業領域的數據科學家和偵探類似,去探索未知的事物。不過,當他們在這個旅程中冒險的時候,他們很容易落入陷阱。所以要明白,這些錯誤是如何造成的,以及如何避免。
相關關系和因果關系之間的混亂
大部分的數據科學家在處理大數據時假設相關關系直接影響因果關系。使用大數據來理解兩個變量之間的相關性通常是一個很好的實踐方法,但是,總是使用 “因果”類比可能導致虛假的預測和無效的決定。要想實現利用大數據的最好效果,數據科學家必須理解相關關系和根源的區別。關聯往往是指同時觀察X和Y的變化,而因果關系意味著X導致Y。在數據科學,這是兩個完全不同的事情,但是許多數據科學家往往忽視了它們的區別。
基于相關性的決定可能足以采取行動,我們不需要知道原因,但這還是完全依賴于數據的類型和要解決的問題。每位數據科學家都必須懂得——“數據科學中相關關系不是因果關系”。如果兩個關系出現彼此相關的情況,也不意味著是一個導致了另一個的產生。
沒有選擇合適的可視化工具
大部分的數據科學家專心學習于分析的技術方面。他們不能通過使用不同的可視化技術理解數據,即那些可以令他們更快獲得洞察力的技術。如果數據科學家不能選擇合適的可視化發展模型,監控探索性數據分析和表示結果,那么即使是最好的機器學習模型,它的價值也會被稀釋。事實上,許多數據科學家根據他們的審美選擇圖表類型,而不是考慮數據集的特征。這個可以通過定義可視化的目標避免。
無問題/計劃的分析
數據科學是一個結構化的過程,以明確的目標開始,隨后出現一些假設的問題,最終實現我們的目標。數據科學家往往站在數據之上而不考慮那些需要分析回答的問題。數據科學項目必須要有項目目標和完美的建模目標。數據科學家們如果不知道他們想要什么,最終的結果也會差強人意。
為了避免這種情況,數據科學家應該集中精力獲得正確的分析結果,這可以通過明確實驗,變量和數據準確性和清晰明白他們想要從數據中獲得什么實現。這將簡化以往通過滿足假設的統計方法來回答商業問題的過程。先確定明確的問題是及其重要的,能夠實現任何企業的數據科學目標。
僅關心數據
數據科學家常常因為得到來自多個數據源的數據而興奮,并開始創建圖表和可視化來做分析報告,忽視發展所需的商業智慧。這對任何組織來說都是危險的事情。數據科學家經常給與數據太多決策制定的權力。他們不夠重視發展自身商業智慧,不明白分析如何令企業獲益。數據科學家應該不僅僅讓數據說話,而且善于運用自身的智慧。數據應該是影響決策的因素而不是數據科學項目決策制定的最終聲音。企業雇傭的數據科學家應該是可以將領域知識和技術特長結合起來的,這是避免錯誤的理想情況。
忽視可能性
數據科學家經常傾向性忘記方案的可能性,這將導致作出更多的錯誤決策。數據科學家經常犯錯,因為他們經常說,如果企業采取了X操作一定會實現Y目標。對于特定的問題這沒有唯一的答案,因此要確認數據科學家從不同可能性中所做的選擇。對指定問題存在不止一個可能性,它們在某種程度是不確定的。情景規劃和可能性理論是數據科學的兩個基本核心,不應該被忽視,應該用以確認決策制定的準確性頻率。