當前位置：大數據 → 業界動態 → 正文

大數據運用：溫故而知新

責任編輯：editor008 |來源：企業網D1Net 2014-05-09 09:48:35 原創文章企業網D1Net

《企業網D1Net》5月9日訊

隨著大數據時代的深入發展，關于大數據的話題和討論從未停止過，大數據也已經成為各大論壇的熱點話題，總體來說，人們對大數據的前景持樂觀態度，比如談到大數據的技術特征，人們最容易想起的就是4個“v”：vast(數量龐大)、variety(種類繁多)、velocity(增長迅速)和value(總價值高)。這些都沒錯，但仔細一想，它們都是偏重說明大數據的正面優勢的。

但其實，大也有大的難處，大數據也不可避免地存在著一些負面劣勢。這些負面劣勢可以概括四點：

inflated——大數據是肥胖的。大數據的大不僅僅體現在數據記錄的行數多，更體現在字段變量的列數多，這就為分析多因素之間的關聯性帶來了難度。哪怕是最簡單的方差分析，計算一兩個還行，計算一兩百個就讓人望而生畏了。

unstructured——大數據是非結構化的。大數據的結構也是非常復雜的，既包括像交易額、時間等連續型變量，像性別、工作類型等離散型變量這樣傳統的結構化數據，更增添了如文本、社會關系網絡，乃至語音、圖像等大量新興的非結構化數據，而這些非結構化數據蘊含的信息量往往更加巨大，但分析手段卻略顯單薄。

incomplete——大數據是殘缺的。在現實的世界里，由于用戶登記的信息不全、計算機數據存儲的錯誤等種種原因，數據缺失是常見的現象。在大數據的場景下，數據缺失更是家常便飯，這就為后期的分析與建模質量增加了不確定的風險。

abnormal——大數據是異常的。同樣，在現實的世界里，大數據里還有不少異常值(outlier)。比如某些連續型變量(如一個短期時間內的交易金額)的取之太大，某些離散型變量(如某個被選購的產品名稱)里的某個水平值出現的次數太少，等等。如果不刪除，很可能干擾模型系數的計算和評估;如果直接刪除，又覺得缺乏說服力，容易引起他人的質疑。這使得分析人員落到了一個進退兩難的境地。

古有孔子“溫故而知新”，而今，人們利用大數據的分析，已經可以預見和分析出很多當下時代的大趨勢了。但是，這些分析數據的真實性怎么保證呢？目前，我國的大數據正處于發展中階段，如果不能處理好這些不利因素就盲目“跟風”去運用，那么大數據應用的優勢很難發揮出來。想要真正運用好大數據，并不是一項在常規條件下數據分析的簡單升級，而是一項需要大智慧的綜合工作。

其實，只要是有效地利用大數據，就可以實時監控各種潛在風險，提高生產效率，更重要的是為企業提供諸多洞見，提升投資回報和競爭優勢，而且有助于企業從多維度判斷全球市場潛在商機，實現跳躍式快速發展。如果沒有一個全面、客觀認識大數據的過程，即便我們能很容易的利用大數據得到很多可預見的數據，又有幾分準確性？

D1Net評論：

古語說：溫故而知新。大數據的應用也同樣需要溫故而知新，對于身處在大數據時代下的我們，必須要對大數據有一個全面、客觀的認識。文中提到的四個難點，也是必須要重視的。只有在不同的業務和數據背景下采用不同的戰略戰術，才能在大數據時代，真正發揮大數據的杠桿作用，有效提高企業的運營效率和市場競爭力，才能真正發揮大數據價值。

關鍵字：