機器學習是大數據能夠給組織帶來智能運營的關鍵組成部分。盡管機器學習算法趣味無窮,但技術本身很快就會變得復雜起來。所有人不可能都成為數據科學家,但IT專業人士需要了解我們的機器是如何學習的。
揭開神秘的算法
我們越來越多地看到機器學習在實用和可實現的目標上的價值,例如針對數據尋找可用的模式然后進行預測。通常,這些預測模型用于操作流程以優化決策過程,但同時它們也可以提供關鍵的洞察力和信息來報告戰略決策。
機器學習的基本前提是算法訓練,提供特定的輸入數據時預測某一概率區間內的輸出值。請記住機器學習的技巧是歸納而非推斷——與概率相關,并非最終結論。
構建這些算法的過程被稱之為預測建模。一旦掌握了這一模型,有時就可以直接對原始數據進行分析,并在新數據中應用該模型以預測某些重要的信息。模型的輸出可以是分類、可能的結果、隱藏的關系、屬性或者估計值。
機器學習技術通常預測的是絕對值,比如標簽、顏色、身份或者質量。比如,某個主題是否屬于我們試圖保留的用戶?用戶會付費購買嗎?用戶會積極響應邀約嗎?
如果我們關心的是估算值或者連續值,預測也可以用數字表示。輸出類型決定了最佳的學習方法,并會影響我們用于判斷模型質量的尺度。
誰對機器學習方法進行監督?
機器學習方法可以是有人監督也或者是無人干預的。區別不在于算法是否可以為所欲為,而是是否要從具備真實結果的訓練數據中學習——預先確定并添加到數據集中以提供監管——或者嘗試發現給定數據集中的任何自然形態。大多數企業使用預測模型,對訓練數據使用監督方式,而且通常旨在預測給定實例——郵件、人員、公司或者交易是否屬于某個有趣的分類——垃圾郵件、潛在買家、信用良好或者獲得后續報價。
如果在開始之前你不是很清楚在尋找什么,那么無人干預的機器學習方法能夠提供全新的洞察力。無人干預的學習還能夠生成集群與層次結構圖,顯示數據的內在聯系,還能夠發現哪些數據字段看起來是獨立的,哪些是規則描述、總結或者概括。反過來,這些洞察能夠為構建更好的預測方法提供幫助。
構建機器學習模型是一項反復練習的過程,需要清理數據和動手實驗。目前市場上正在涌現一些自動和有向導的模型工具,它們承諾降低對數據科學家的依賴性,同時在常見領域獲得最高的投資回報率。然而這里面真正的差別很可能需要你自己去發現。