大數據時代,數據挖掘變得越加重要,曾經做了很多,成功有之,失敗的卻更多,舉一些例子,探究其失敗原因,也許于大家都有啟示吧。
數據缺失總是存在。
為什么數據挖掘的數據準備工作要這么長時間,可以理解成取數時間很長、轉換成所需的數據形式和格式時間很長,畢竟只有這樣做,才能喂給數據挖掘引擎處理。
但數據準備的真正目的,其實是要從特定業務的角度去獲取一個真實的數據世界,數據的獲取比處理重要,技巧倒是其次了。
離網預測一直是很多業務領域關注的焦點,特別是電信行業,但這么多年做下來,其構建的離網模型卻難言成功,為什么?
因為數據獲取太難了。
離網預測希望用客戶歷史的行為數據來判定未來一段時間離網的可能性,但國內的電信市場并不穩定,不僅資費套餐復雜,大量的促銷政策時時轟炸眼球,大家看得是熱鬧,但對于數據挖掘人員來講,卻是業務理解和數據準備的噩耗了。
因為業務的理解很困難,數據完全被業務扭曲,如果要預測準確,不僅自身業務促銷的因素要考慮進去,還要考慮競爭對手策反政策、地域影響等等,你訓練時看到的是一個簡單的離網結果數據,但誘導因素異常復雜,這類因素相關的數據根本取不到或者難以量化。
比如電信離網很大程度是競爭對手策反、客戶遷徙離網等等,你知道競爭對手何時推出的促銷政策嗎?你知道客戶什么時候搬的家嗎?你如何用數據來表達這種影響?你的數據能適應市場變化的節奏嗎?
因此,如果某個合作伙伴來跟你說,我可以做電信行業的離網模型,那是個偽命題,離網模型已經被電信行業做爛了,幾乎沒有成功的案例,即使一時成功也持續不了多久,只要業務不統一,就不大可能出現一個基本適用的離網模型,你無法想象全國10萬個電信資費政策會對預測建模造成怎樣的影響。
與互聯網大一統的數據相比,其搞的風控模型顯然要簡單的多了,因為數據的獲取難度和穩定度不在一個量級上。
數據挖掘,難就難在要為預測的業務提供跟這個業務相關的數據環境,因此,有時離網模型做不好,并不是模型師的錯,也不是算法的問題,而是業務惹的禍,是數據問題。
你讓開發出Alphgo的DEEP MIND團隊來做離網模型,也是一個死字,這可能也是傳統行業數據挖掘很難出效果的一個原因。
阿里的螞蟻金服,所以能算法取勝,一個原因是它天生具有線上的資金往來數據,如果讓它去分析傳統銀行的線下數據,估計難度也很大。
數據挖掘師特別強調要理解業務,就是希望你基于業務的理解能找到所需的解釋數據,外來的和尚所以做不好,也是這個因素,因為打一槍換一個地方的方式,跟扎根理解業務的建模文化背道而馳。
數據準備,不確定性總是存在,因此一定程度上講,這個世界是不可預測的,預測的能力,跟我們采集數據的能力成一定的正相關關系。
大數據的意義,就在于可以采集到更多的數據,這個決定了我們用機器解釋世界的可能程度。
假數據真分析。
還是拿離網的例子,你就知道很多時候,所謂的解釋數據,都是假數據,雖然你不是故意的,你還很認真,但因為受限于業務能力,決定了你只能使用假數據,結果可想而知。
以前新手,在做離網預測的時候,總喜歡拿訂購成功的數據作為訓練的數據,但這個顯然是個大謬誤。
要知道,大量的業務訂購是套餐附帶訂購的,并不能反映用戶的真實意愿,拿這個數據去訓練,能訓練出什么東西?這就是業務能力不夠造成的現象。
現在互聯網上估計這個現象很嚴重,比如刷單,這些假數據嚴重擾亂了模型,去偽存真是數據挖掘師的一個必修課。
但這個,可惜又跟業務能力相關,依賴于實踐和經驗,如果讓市場部經理轉行去做數據挖掘師,估計也很牛逼。
數據挖掘,難就難在這里,其是業務、數據甚至是技術的結合體,在大數據時代,這個趨勢會越加明顯。
缺乏對于“常理”的感覺。
以下是一個社交網絡的案例,場景是需要對于兩個通話(或其它)交往圈進行重合度判定,以識別兩個手機號碼是否屬于同一個人。
規則似乎很簡單,但挖掘出來的結果卻不盡如人意,準確率只有12%,百思不得其解。
后來發現判定重合度的閾值是30%,這個也不能說明有問題,但問題出在對于基數的判定上,大量的用戶總的交往圈只有3-4個,也就是說,重合1個就可能達到這個閾值,很多新手或者過于迷信技巧的人,往往忽視業務本質的認識。
數據挖掘不僅僅是一門挖掘語言,還要有足夠的生活認知和數據感覺,這個很難短期能夠提升,依賴于長期實踐,甚至認為,這個跟情商相關,有些人就是有感覺,一眼能發現問題。
缺乏迭代的能力。
很多傳統企業,數據挖掘效果不好,跟企業的組織、機制、流程等相關,舉個例子:
曾經給外呼部門做了一個外呼偏好模型,就是對于所有客戶的外呼偏好排個序,在外呼資源有限的條件下,按照這個排序進行外呼,可以提升外呼效率,然后發布到標簽庫,然后讓外呼部門去用,等待反饋的時間總是很長,大家都懂的,然后就石沉大海了。
最近想起來,再去要結果,發現效果很不錯,能真正提升10個百分點啊,但已經2個月過去了。
這還算一個較為成功的挖掘,但又有多少模型由于線下流程的原因而被放棄了,誰都知道,數據挖掘靠的是迭代,很難第一次就成功,但有多少星星在開始之時,就被掐滅了。
傳統企業冗長的線下流程,的確成為了模型優化的大殺器,互聯網公司天生的在線性讓其算法發揮出巨大的價值,而傳統企業的建模,往往還在為獲得反饋數據而努力,組織、系統和運營上的差距很大。
推廣是永遠的痛。
很多傳統企業不同地域上的業務差異,不僅僅造成管理難度加大、體驗不一致、系統過于復雜、運營成本高昂,也讓模型的建設和推廣異常困難。
從模型本身的角度,不同地域的數據差異有時很大,在一個地方成功的模型,在另一個地方則完全失敗,過擬合現象比比皆是。
從業務理解的角度,建模團隊要面對幾個甚至十多個做類似業務的團隊,各個團隊的業務理解上的差異和對于建模的要求各不相同,造成了建模團隊的無所適從。
模型推廣,成為了建模團隊巨大的負擔,復制模型,往往變成了重做模型,搜集結果數據也難上加難,數據挖掘,已經不是一項純粹的活。
提了以上五點,只是為了說明數據挖掘所以難,是綜合多種因素的結果,可能不是靠建立一個平臺,懂得一些算法,掌握一個工具就能簡單解決的,往往具有更深層次的原因。
我們在努力掌握好“器”的同時,也要抬起頭來,更全面的看待數據挖掘這個事情,因地制宜的制定適合自己企業特點的數據挖掘機制和流程。
當然,大數據時代的到來,讓平臺,工具和算法也變得越加重要,這對數據建模師的知識結構也帶來了新的沖擊。
歷史精選文章
不忘初心,大數據不是IT的狂歡! 閱讀量:2160我如何完成一本企業數據字典的編寫! 閱讀量:2580BI自助取數是怎么煉成的? 閱讀量:1835為什么BI取數這么難?閱讀量:11500為什么數據管理工作很難成功?閱讀量:1900為什么傳統BI沒前途?閱讀量:4093大數據,為什么不是傳統BI的簡單升級?閱讀量:3400數據分析師的自我修養 閱讀量:1483唯有數據創新,運營商才能實現大數據變現的突破?閱讀量:1236中國移動進軍大數據征信,一個具有旅程碑意義的事件 閱讀量:2380為什么有些人用3年的時間獲得了你12年的數據分析經驗?閱讀量:1874數學中的“羅輯思維” 閱讀量:1090數據說謊的藝術 閱讀量:2234看上去很美,談談阿里云的大數據平臺【數加】 閱讀量:1281DPI大數據之戰:運營商的艱難抉擇 閱讀量:2342還有很多...
【編輯推薦】