機器學習可是說是一位無名英雄,它們一直在默默地支持著大量極為復雜的大數據分析應用。
機器學習幾乎無處不在,即便我們沒有專程調用它們,它們也經常出現在大數據應用之中。我曾經在博客中描述了一些典型的大數據使用案例。換句話說,這些應用都能夠在“極端情況下”提供最佳的結果。在結尾部分,我還提到了拍字節級數據容量、實時數據速度和/或多結構數據多樣性的結合。
當時我還列出了一個應用列表,在收集過程中刻意避開了“機器學習分析”。主要原因是,盡管在這些使用案例中機器學習即便不是主要的,也是一個常用的工具,但是它們自身并不是一個使用案例。換句話說,它們不是一個憑借自身力量而形成的特殊應用域。出于同樣的原因,我也沒有像大數據使用案例那樣列出模式設計、元數據管理或數據整合。但與機器學習一樣,它們也都為實現大數據分析應用的價值做出了自己的貢獻。
機器學習對大數據應用投資回報的貢獻主要體現在兩個方面:一是促進數據科學家們的多產性;二是發現一些被忽視的方案,有些方案甚至遭到了最好的數據科學家們的忽視。這些價值來自于機器學習的核心功能:即讓分析算法無需人類干預和顯式程序即可對最新數據進行學習。解決方案允許數據科學家們根據典型數據集創建一個模型,然后利用算法自動概括和學習這些范例和新的數據源。
許多情況下,機器學習是大數據創新的最佳投資回報。對機器學習的投資能夠深化任何對企業定制的大數據案例。這是因為機器學習算法在容量、速度和類型(即大數據的3個V特性)中正變得日益高效。正如Mark van Rijmenam在近期有關機器學習的文章中所說的那樣:“處理的數據越多,這種算法就越能體現出優勢。”他認為,包括語音與面部識別、點擊流處理、搜索引擎優化、推薦引擎在內,許多機器學習應用可能被描述為意會分析法(sense-making analytics)。
意會分析法需要對從數據流中推斷出來的用戶語義方式、內容和重要性進行持續監控。為了支持意會的自動化,機器學習算法必須要經常性地處理一些極為復雜的東西。這其中包括組成對象或環境中隱藏的語義分類,這需要通過多種不同的數據流實時收集整體含義。這些數據流必須包括不同的對象,例如數據、視頻、圖像、語音、表情、動作、地理信息和瀏覽器點擊等元素。通過機器學習從這些數據流中自動提取出來的含義,可能會混合有認知、情感、感覺和意志特征。
為了在這些素材當中找到線索,“深入學習”(deep learning)成為了大數據科學家的機器學習指令系統中的一個重要工具。正如van Rijmenam所說的那樣,利用神經網絡開展的深入學習有助于從這些數據流中提取感知能力,因為這些數據流可能涉及組成對象之間語義關系的層次結構安排。“深入學習能夠打破數據中具有不同特點的組成成分之間的隔閡,利用這些特點從中找出不同的特征組合,從而搞清楚它們看到了什么或者是正在做什么。”van Rijmenam說。
顯然,對于創建能夠感知和處理動態分布式方案的環境來說,機器學習一個基礎性工具。人類對實時威脅和恐怖主義活動、自然災難、颶風等其他威脅的偵測與應對能力,取決于對海量數據中的信息進行自動篩選、分類和關聯。如果沒有這種能力,那么人類就有被“淹死”在大數據海洋之中的危險。