企業(yè)沒有大數據，只有壞數據

責任編輯：editor006 作者： Jeremy Levy |來源：企業(yè)網D1Net 2015-07-06 17:06:57 本文摘自：TC Column

大數據

PayPal 聯(lián)合創(chuàng)始人兼風險投資人彼得·蒂爾(Peter Thiel)經常抱怨科技圈一直在過度使用像“云端”和“大數據”這樣的流行詞。雖然他不是唯一一個長期表達這種觀點的人，但是大部分企業(yè)似乎仍然沒有充分理解這條信息。

很多企業(yè)經常會吹噓自己擁有多少 TB，甚至是 PB 的數據量，還有它們的大型數據科學家團隊正在使用 Apache Kafka 流運行海量的 Hadoop 集群，這些企業(yè)認為這些都是它們的競爭優(yōu)勢所在。

然而，事實上它們當中的大多數都遇到了計算機領域的一個老生常談的問題：無用輸入，無用輸出(garbage in, garbage out)。它們不僅沒有符合大數據定義的數據復雜度或數據量，而且它們擁有的實際上是劣質數據，它們的業(yè)務甚至有可能會因此蒙受損失。根據 Experian Data Quality 的數據，88%的企業(yè)的收支情況都會受到不準確數據的影響，而且受影響的營收比例高達 12%。

優(yōu)質的大數據

部分企業(yè)確實擁有優(yōu)質的數據，而且知道如何運用它。從像谷歌這樣的成熟網絡公司，到像波音這樣的工程背景企業(yè)，下文列出的企業(yè)都能夠成功地管理海量的數據，并將其用于實現(xiàn)真正數據驅動的決策。

Netflix：為用戶提供他們想要的東西。占據美國三分之一互聯(lián)網高峰流量的 Netflix 會收集大量關于用戶觀影習慣的數據，而且它還可以將這些數據按照地區(qū)、觀看時段、觀看時長等各種項目進行細分。這種方式使得他們能夠準確地預測觀眾喜歡的內容。

能夠很好的證明這點的例子是，Netflix 現(xiàn)在已經從一個 DVD 點播和流媒體服務發(fā)展成為一家獨立的影視制作公司，諸如《紙牌屋》和《女子監(jiān)獄》這樣的熱門劇集都是他們的作品。他們的原創(chuàng)劇集甚至摒棄了傳統(tǒng)的單集試播模式，而是而是選擇一次性地制作整季的劇集。

IBM和 The Weather Company：理解天氣對業(yè)務的影響。IBM 已經和 The Weather Company 建立了合作關系，它們將各自的海量數據組結合起來，并從中分析出天氣對公司業(yè)務的影響。這項分析涵蓋了從零售業(yè)到保險業(yè)等各個領域，它們能夠準確的提供實時的分析結果，例如溫度變化對銷量的影響，或者保險公司如何通過建議客戶駕車出行的方法來節(jié)省成本。

西奈山伊坎醫(yī)學院：預測病人的健康。這所位于紐約市的醫(yī)學院已經任命了杰夫·哈默巴赫(Jeff Hammerbacher)——Facebook 的首位數據科學家擔任一個計算機開發(fā)項目的主管，這個項目的目標是分析他們每年收治的 50 萬位病人的醫(yī)療信息。

在西奈山基因組學與多尺度生物學研究院院長的協(xié)助之下，他們正在研究如何做出能夠降低醫(yī)療成本的預測——例如通過分析病人的既往病史和風險因素來確定他們所需的治療頻率，或者為醫(yī)生提供來自基因組學和實驗數據收集得出的風險模型，幫助他們?yōu)椴∪酥贫ㄖ委煼桨浮?/p>

亞馬遜：設立客戶服務的新標準。亞馬遜擁有前所未有的用戶數據——從他們正在閱讀的書籍到他們補充化妝棉的頻率。正當其他公司都將客戶支持放在次要地位的時候，亞馬遜已經將其變成了自身業(yè)務的一個重點，它非常強調與消費者進行直接溝通的重要性。憑借自身豐富的用戶數據，亞馬遜能夠在用戶有需要的時候立刻提供相關的信息，在簡化客戶服務流程的同時還能鞏固他們的忠誠度。

施樂：減少員工流失。工作經歷一向都是新員工招聘當中的一個重要參考因素，但是在為自己的電話服務中心招聘的時候，施樂發(fā)現(xiàn)了一個完全不同的參考標準，這點使得它更容易找到合適的人才。施樂利用大數據分析發(fā)現(xiàn)員工的個性才是決定他們留任與否的真正因素——富有創(chuàng)意的人會更傾向于堅持下來，愛管閑事的人則不然。在掌握了這些信息之后，施樂開始通過應聘者調查(而不是招聘主管的決定)為自己的電話服務中心進行招聘，最終使得它所有電話服務中心的半年員工流失率下降了 20%。

然而，大部分企業(yè)都不能很好地利用數據。

劣質的大數據

一直以來，企業(yè)都沒有花時間去思考它們應該收集什么數據，還有采用怎樣的方式來收集數據。在數據的海洋中，他們不是使用長矛精準地捕捉漁獲，而是習慣于一網打盡，結果它們收集到的是一堆沒有任何預先計劃和結構條理的垃圾。這種對困難決策的拖延態(tài)度導致大型企業(yè)的數據科學團隊只能將大部分的時間花在清理、分類和組織數據之上，而且這些工作只能使用手動或者半自動的方式來完成。

“利用智能、實用的數據進行發(fā)展是每家企業(yè)都應該追求的目標。”

美國政府最近任命的首席數據科學家 DJ·帕蒂爾(DJ Patil)很好地總結了數據的問題，他表示，“你在開始之前必須懂得一個非常基礎的概念：數據是混亂不堪的，而且數據清理工作總會占據 80%的時間。換句話說，數據本身就是問題的所在。”

然而我們看到的也并非只有壞消息。根據產業(yè)研究公司 Wikibon 的數據，在企業(yè)對數據工具投資當中，有 52%的資金流向了用于采集和組織數據的技術之上，讓數據的獲取和分析變得更容易。但是處理這個難題的關鍵也許不只是在更多或更好的工具上投資。

為你的企業(yè)應用大數據

如果要將企業(yè)真正轉變?yōu)橐患乙詳祿閷虻墓荆韵率且恍┲档藐P注的指引和方法，它們經過了世界一流的數據公司的實踐檢驗。

了解你自己。從了解你需要分析的數據類型開始——你要的是事件數據、財務數據、圖表數據還是其他東西?在確定你需要以怎樣的程度來收集數據的時候，這是最重要的考慮因素。

不要過度授權。許多企業(yè)都會將建立分析的工作交給外包開發(fā)者或者 IT 部門負責，沒有讓真正的商業(yè)用戶參與其中——那些準備使用這些數據的人應該準確了解數據的收集和匯總方式，這是至關重要的一點，因為這樣可以避免他們在使用的過程當中出現(xiàn)重大的問題。

確定使用實例。作為“不要過度授權”的推論，企業(yè)也不應該讓商業(yè)用戶給出過于寬泛(例如，“我們想要追蹤銷售的來源”)或者無關緊要的使用實例。每一份數據都應該符合某一個分析架構，而且可以用于解決某一個問題。這里就需要指派一位技術性很強的商業(yè)用戶或者具有商業(yè)頭腦的技術領導負責最終的決定。

從源頭抓起。無用輸入，無用輸出。請確保你對數據的來源和類型了如指掌。你的數據從何而來?它足夠準確嗎?如果你不知道這些問題的答案，那么你應該開始認真思考了。

使用合適的工具來完成工作。現(xiàn)在已經有很多非常優(yōu)秀的分析工具。在確定了你的商業(yè)用戶和終端用戶的重點使用實例之后，你應該進行一個正式的比較流程，根據你自己的需求剔除一些你永遠都用不上的高級功能。

大數據本身是愚蠢的。利用智能、實用的數據進行發(fā)展是每家企業(yè)都應該追求的目標。

關鍵字：Thiel 風險模型壞數據