如今的組織正在收集來自各種來源的日益增長的信息量,包括網站、企業應用程序、社交媒體、移動設備以及日益增加的物聯網(IoT)。
最大的問題是:如何從這些信息中獲得真正的商業價值?數據挖掘可以在很大程度上做出貢獻。數據挖掘是通過大量數據集進行分類的自動化過程,以通過數據分析來識別趨勢和模式,建立關系,解決業務問題或產生新的機會。
查看數據來了解過去發生的事情以便能夠在現在明智地行動只是一方面。數據挖掘工具和技術讓你可以預測未來會發生什么,并采取相應的行動來利用即將到來的趨勢。
“數據挖掘”這個術語在IT行業中被廣泛使用。它常常被應用于各種大規模的數據處理活動,如收集、提取、倉儲和分析數據。它還可以包括決策支持的應用程序和技術,如人工智能、機器學習和商業智能。
數據挖掘在商業和研究的很多領域被使用,包括產品開發、銷售和營銷、遺傳學和控制論——這里僅舉幾例。如果使用得當,數據挖掘與預測分析相結合可以為你提供比沒有使用這些工具的競爭對手更大的優勢。
從數據挖掘中獲取業務價值
數據挖掘的真正價值在于能夠以數據中的模式和關系的形式挖掘隱藏的寶石,這可以用來做出對企業有重大影響的預測。
例如,如果一家公司確定特定的營銷活動導致在該國某些地區的某種產品的特定型號的銷售額非常高,而在其它地區則不然,那么它可以在將來重新調整該廣告活動以獲得最大的回報。
該技術的好處可能會因業務類型和目標而異。例如,零售業的銷售和營銷經理可能用不同的方式挖掘客戶信息,以提高轉化率,這種提高轉化率的方式迥異于航空公司或金融服務業。
不管是什么行業,過去應用于銷售模式和客戶行為的數據挖掘都可用于創建預測未來銷售和行為的模型。
數據挖掘也有助于取消可能損害企業的活動。例如,你可以使用數據挖掘來提高產品的安全性,或檢測保險和金融服務交易中的欺詐活動。
數據挖掘的應用
數據挖掘幾乎適用于所有行業的各種應用。
·零售商可以部署數據挖掘,以更好地識別人們根據過去的購買習慣可能購買哪個產品,或者哪些商品在一年的某些時間可能熱賣。這可以幫助商家規劃庫存和存儲布局。
·銀行和其他它金融服務提供商可以挖掘與其客戶帳戶、交易和渠道偏好相關的數據,以更好地滿足他們的需求。它們還可以從他們的網站和社交媒體互動中分析數據,以增加現有客戶的忠誠度并吸引新客戶。
·制造企業可以使用數據挖掘在生產過程中發現模式,從而可以精確地識別出瓶頸和有缺陷的方法,并設法提高效率。它們還可以將知識從數據挖掘應用于產品設計,并根據客戶體驗的反饋進行調整。
·教育機構可以從數據挖掘中受益,例如分析數據集,以預測學生的未來學習行為和表現,然后利用這些知識來改進教學方法或課程。
·醫療保健提供者可以挖掘和分析數據,以確定向患者提供護理和降低成本的更好的方法。在數據挖掘的幫助下,他們可以預測需要照顧的病人數量以及患者需要什么類型的服務。在生命科學領域,數據挖掘可用于從大量生物數據中獲取洞察,幫助開發新藥和其他治療方法。
·在包括醫療保健和零售在內的多個行業,你可以使用數據挖掘來檢測詐騙和其它濫用行為——比傳統的識別此類活動的方法要快得多。
數據挖掘的關鍵組成部分
數據挖掘的過程包含滿足不同需求的幾個不同的組件:
·預處理。在應用數據挖掘算法之前,你需要構建一個目標數據集。數據的一個常見來源是數據集市或倉庫。你需要執行預處理才能分析數據集。
·數據清洗和準備。目標數據集必須清理和準備,以消除“噪點”,處理缺失值,過濾外圍的數據點(用于異常檢測)以消除錯誤或進行進一步的探索,創建分段規則以及執行與數據準備相關的其它功能。
·關聯規則學習(也稱為市場籃子分析)。這些工具搜索數據集中的變量之間的關系,例如確定商店中的哪些商品通常被一起購買。
·集群。數據挖掘的這個特征用于發現數據集中的某種程度上互相類似的組和結構,而不用數據中的已知結構。
·分類。執行分類的工具將已知結構推廣到適用于新的數據點,例如當電子郵件應用程序嘗試將郵件分類為合法郵件或垃圾郵件時。
·回歸。這種數據挖掘技術用于在給定特定數據集時預測一系列數值,例如銷售量、住房價值、溫度或價格。
·總計。該技術提供了數據集的精簡表示,包括可視化和報告生成。
有數十家供應商提供數據挖掘軟件工具,一些提供專門的軟件,其它的通過開源的努力提供產品。
提供專門的數據挖掘軟件應用程序的關鍵供應商包括Angoss、Clarabridge、IBM、Microsoft,Open Text、Oracle、RapidMiner、SAS Institute和SAP。
提供開源數據挖掘軟件和應用程序的組織包括Carrot2、Knime、Massive Online Analysis、ML-Flex、Orange、UIMA和Weka。
數據挖掘的風險和挑戰
數據挖掘也有其風險和挑戰。與涉及潛在的敏感或個人身份信息的使用的任何技術一樣,安全和隱私是最大的問題之一。
在基本層面上,被開采的數據必須完整、準確和可靠;畢竟,你正在用它做重要的業務決策,并經常與公眾、監管機構、投資者和業務合作伙伴進行互動。現代數據形式還需要新型的技術,例如將來自各種分布式計算環境(又稱大數據集成)的數據集合起來的技術,以及諸如圖像和視頻、時間數據和空間數據等更復雜的數據組合在一起的技術。
獲取正確的數據,然后將其放在一起,以便我們可以挖掘,這不是對IT的挑戰的結束。云、存儲和網絡系統需要實現數據挖掘工具的高性能。我們要把從數據挖掘中得到的信息清晰地呈現給希望對其進行操作和解讀的廣大用戶。你將需要具備數據科學和相關領域技能的人才。
從隱私的角度來看,挖掘與人們行為方式相關的信息,他們購買什么,訪問什么網站等等的想法可以引起企業收集太多信息的擔憂。這不僅影響你的技術實施,而且還會影響你的業務戰略和風險狀況。
除了如此徹底的追蹤個人的道德規范外,還有法律規定如何收集數據、識別一個人并共享數據。美國義務型可攜帶式健康保險法案(HIPAA)和歐盟的通用數據保護指令(GDPR)是眾所周知的。
在數據挖掘中,準備本身的初始行為(例如聚集然后使數據合理化)可以揭示可能危及數據機密性的信息或模式。因此,不經意地違反道德問題或法律要求是有可能的。
數據挖掘的每一步還需要數據保護,以確保數據不被偷竊、改變或秘密訪問。安全工具包括加密、訪問控制和網絡安全機制。
數據挖掘是一個關鍵的區分因素
盡管存在這些挑戰,但數據挖掘已成為很多組織IT戰略的重要組成部分,這些組織力圖通過收集或訪問的所有信息獲得價值。隨著預測分析、人工智能、機器學習和其它相關技術的不斷進步,這一驅動力無疑將加速。