當前位置：大數據 → 業界動態 → 正文

大數據降噪方法論

責任編輯：editor007 作者：楊凱生 |來源：企業網D1Net 2016-06-30 11:31:48 本文摘自：《英大金融》

部分機構掌握了一定量的客戶信息數據，就以為掌握了大數據，忽視對數據分析工具和方法論的研究。在金融業務中，這有可能影響其對風險的識別和防控，并造成風險的積聚和擴散。

最近，《互聯網金融風險專項整治工作實施方案》全文網上曝光，包括第三方支付、P2P網貸、股權眾籌、互聯網保險、投資理財，以及互聯網跨界資管，甚至互聯網廣告，都將面臨一輪集中整治。

分析整治的原因，會發現在法規不夠健全、監管不夠有力，行業自律較弱，投資者教育欠缺外，還有一個重要的癥結——企業和機構對大數據技術的理解和認識存在一定偏差。

大數據技術的發展和進步給人們提供了新的工具，即從更寬視野、更多維度、更全方位來認知問題和分析問題的方法。但部分機構掌握了一定量的客戶信息數據，就以為掌握了大數據，忽視對數據分析工具和方法論的研究。在金融業務中，這有可能影響其對風險的識別和防控，并造成風險的積聚和擴散。

因此，在互聯網時代，企業和機構對大數據的認識，需要結合正確的方法論、認識論，處理好碎片化的信息和完整性的數據、以及結構性的數據和非結構性的數據的關系。

大小不能以量區分

有人認為，有了大數據，就可以輕視對傳統小數據的開發和利用。但大數據有大數據的長處，大數據也有大數據的不足，兩者無法相互替代。

盡管迄今為止，并沒有對大數據統一而權威的定義。但大數據的重要特征，在于它應該既包括結構性的數據，以及在生成的時候表現為非結構性數據的信息。而小數據，主要是指傳統的二維結構性數據。

從技術角度上看，傳統的小數據有經典的數理統計分析模型和成型的挖掘技術。而大數據的管理理論、分析方法仍在快速發展和跟進，特別是要采集、挖掘和使用非結構性的數據，仍沒有完全成型或者定型。此外，還有一部分非結構性的數據，在最后使用的時候需要通過技術手段把它轉換成結構化數據才能實現。

從處理角度上看，大數據會隨著數據量的急劇增加，其中的數據噪音會有快速增長。有時，數據噪音的增長幅度會快于數據量的增長幅度。因此，在大數據領域，對其挖掘、篩選、清洗的成本，將會明顯高于小數據。

從相互關系的角度看，大數據通常比較容易反映的是事物的相關關系，而小數據往往容易得出的是事物的因果關系。在很多情況下，相關關系是不能簡單地代替因果關系的。小數據它可以抽取世間的一些事物最核心的內容，最基本的內容。因此與大數據相比，小數據的單位信息容量更大，所以大數據的顆粒度和小數據的顆粒度不同。

以銀行的數據為例，我們經常定義其為小數據，因為它都是以會計為基礎，以計算為方式表現出來，反映了交易活動最核心的內容和最終的結果。比如，客戶存款多少、貸款多少、買了黃金多少等等。但是，客戶之所以進行這個交易、他的決策過程、行為路徑，就無法通過傳統的小數據，也就是銀行的賬本反映出來。

而收集這類信息，卻正是大數據的優勢。作為一家銀行，如果能夠通過收集、掌握大數據，了解客戶的行為路徑，了解客戶的決策過程，無疑對提升服務水準、防控金融風險價值很大。所以，只有把小數據方法的完備性、準確性，同大數據分析的多維性、及時性融合起來，才能對管理帶來一種質的飛躍。

風險不應自我回避

《巴塞爾協議III》中，要求銀行業在觀察客戶的違約概率和違約損失率時，數據積累的長度必須長于5年或7年，甚至更長時間。此外，對于數據清洗還要有嚴格的流程。巴塞爾委員會之所以做這項規定，就是為了避免因為數據的缺陷，而導致在風險識別和計量上出現失誤。

但在新晉互聯網企業對投資人和客戶的宣傳中，往往會看到一句話：運用大數據技術。且不論這種對客戶群行為數據的保留和采集是否經濟、合理和必要，單從數據是否完整上看，就已經把自己得到的數據誤以為是全量數據；把自己所擁有的一個樣本，認為是具有充分代表性的隨機性的樣本。

盤點部分“出事”的互聯網金融公司，除了一些人為的原因，大多數都存在這種對于數據的片面理解，過分高估了自己的數據處理能力——對自己擁有的這些數據，究竟能不能用，應該怎么樣用于風險識別和管控，他們并沒有經過反復驗證。

但凡了解建模、數據分析和數據挖掘的人，都明白模型越是復雜，納入的變量越多，就越容易出現這樣的問題。這個也證實我們在金融風險的管控當中，必須注意到的模型風險。在看待信用風險、市場風險時，都要借用大量的模型，而模型的質量怎么樣，模型是否可靠，實際上最終決定了對信用風險、市場風險、操作風險的識別和計量是否準確。

這就像金融企業面對的客戶，客戶的個性化、差異化很大，要對他們各自的違約風險和違約損失做出判斷，僅靠一些模型的評估可能還不夠，有時還需要借助必要的專家判斷。

比如審批貸款時，會采用高分段自動進入，低分段自動拒絕、中段分段機器識別以后加以必要的人工干預的方法。這就是為什么有的時候大家經常抱怨銀行效率太低，放一個貸款需要審來審去。首先，高分段經過嚴格的評估以后，高分段大體占到個人按揭貸款的20%左右，進行自動審核的。而企業貸款，法人貸款，是要經過模型識別通過以后，才能進行第二輪判斷。

大數據時代可能更迷茫

大數據的優勢，在于其可以直接把音頻、視頻，包括文字非結構化的數據都能數據化，這樣的話分析使用起來就會很便捷。但在記錄當中，可能攙雜著噪音、埋伏有陷阱。所以，對于數據信息的不當理解，對于數據分析方法工具的盲目應用，讓我們面對茫茫數據時，有可能變得比以往缺乏數據信息的年代更加迷惑。

因此作為數據的使用者，我們應該明確的是，人不能成為機器的奴隸，因為機器和模型都是為我所用的，本身就是人設計的。同時，并非世間萬物都是可以數據化的，比如人的情感。

盡管有人說，未來的一切都可以數據化，比如現在，有人已經通過云計算和大數據分析寫文章。但我認為，一些數據化較強的分析文章可以寫，因為這類文章本身就公式化的。但是，類似《紅樓夢》這種充滿情感的文字就不太可能，因為通過自動生成的詩詞，很難達到較高的藝術水準。

因此，作為互聯網時代的現代人，只有學會了怎么樣客觀地看待數據，怎么審慎地選擇方法，才能從這個復雜的社會中提煉出比較有價值的結論。也只有這樣，才是真正具備了大數據思維和互聯網思維。

關鍵字：數據清洗高分段