我所處的位置決定我看世界的角度。從這里望去,2016 年的分析領域令人振奮。有史以來,分析領域從未如此重要、如此有趣。
1. 機器學習在企業生根發芽
機器學習(Machine learning)的歷史可以追溯到 1950 年,但直到最近,它都只是精英人才的領域并長期被人忽視。我預言機器學習會就此穩步發展,因為許多大型企業正在接納機器學習。如今除了研究者和數字時代原住民,企業也在探索如何把機器學習變為生產力。在一些已經規范化的行業,模型解釋性較差,曾導致模型難以應用。如今這些行業的從業者使用機器學習,尋找更多創造性的方法,從模型中選擇變量,而這些變量之后能由常用工具進一步構建。機器學習從多個學科中獲取營養,所以未來預計會產生更多跨學科的興趣。回想去年 INFORMS 年會的主題,Dimitris Bertsimas 講“現代優化視野下的統計與機器學習”( Statistics and Machine Learning via a Modern Optimization Lens )。我的同事 Patrick Hall 也對于“為什么是機器學習?為什么是現在?”(Why Machine Learning? Why Now?)這一話題給出了他的看法。
2. 物聯網大潮降溫,面對現實
根據 Gartner 公司的新科技周期理論(Hype Cycle)來看,物聯網(Internet of Things, IoT)正處在科技周期的頂峰。但在 2016 年我預計物聯網這個概念將有所降溫,開始面對現實。如何采集是一個很實際的障礙——信息太多了。我的一個同事正在把我們新大樓的HVAC 暖通系統,作為一個物聯網測試項目進行分析。這棟樓里到處都是傳感器,但獲取數據卻并不容易。設施部門告訴他這是IT部門的職權,IT部門把他又踢到了制造商那里,因為 HVAC 收集數據之后發送給了制造商。“數據所有權”是一個在逐漸浮現的議題:你生產了數據,卻無法獲取它。如何證實自己的價值是物聯網面對的更大挑戰。物聯網在企業級的整體生產應用依然有限。物聯網給出的承諾無與倫比,所以在 2016 年讓我們期待早期使用者們能解決問題,給出答案。
3. 大數據走出喧囂,讓模型變得豐富
大數據已經走出了喧囂,產生了實際的價值。如今的建模者可以獲取的數據種類前所未有地豐富(例如,非結構數據,地理空間數據,圖像,聲音),而這些數據使得模型可以變得更加豐富。大數據的另一新進展來自各類競賽,這些競賽超越了之前游戲化的形式,通過眾包和數據分享產生了實際價值。拿前列腺癌 DREAM 挑戰為例,參賽隊伍使用四種臨床診斷的匿名數據挑戰開放的臨床研究問題。這些數據來源眾多,大部分是第一次公之于眾。參賽隊伍的數目史無前例,最終的獲勝者戰勝了之前此領域尖端研究者開發的模型。
4. 通過分析提高信息安全
隨著物聯網發展,傳感器的廣泛使用肯定讓數碼空間的犯罪分子感到興奮。他們使用這些設備,用一種緩慢而低調的木馬手段進行劫持。許多傳統的偵查手段對此無效,因為偵查不再是尋找一個稀有事件的過程,而需要對情境中事件的累積進行理解。跟物聯網一樣,信息安全面對的一個挑戰和數據有關。我預計先進的分析作為追蹤數據的手段,能為偵查和預防做出新的貢獻。很可惜,本文無法談論大數據的合作中正在發展出的方法,因為我們不想讓壞蛋知道我們是怎么發現它們的。這方面的許多優秀工作都是在高度安全的隔離環境中完成的。不過,2016 年 SAS 和其他各方仍會高度關注信息安全。
5. 分析驅動著企業與學界加強互動
北卡羅來納州立大學的高級分析研究所(The Institute for Advanced Analytics, IAA)關注分析領域的碩士項目數量增長。新的碩士項目與日俱增。企業的招聘需求促進了增長,但同時我也看到了它們對于研究的興趣。越來越多的企業在設立學術擴展部門,并表現出對于研究合作的濃厚興趣。有時這種興趣超越合作伙伴關系,轉而直接雇傭學界名人。這些學界名人可能是休假期間來工作,或者在學界和企業往返。例如,機器學習頂尖研究者 Yann LeCun 曾在貝爾實驗室工作,也曾是紐約大學的教授,曾是建立紐約大學數據科學中心的主管,現在在 Facebook 帶領人工智能研究團隊。INFORMS(運籌學與管理科學研究協會),通過為學界提供與分析有關的教學材料的方式,支持這種產學互動。2016 年 INFORMS 會為業界提供一個可查詢的、分析領域(碩士)項目的數據庫以促進雙方往來,并提供新的 Associate Certified Analytics Professional 證書來幫助選拔畢業生。