今年9月,鄧白氏高級副總裁兼首席數據科學家安東尼·斯克里費加諾(Anthony Scriffignano)在接受澎湃新聞(www.thepaper.cn)在內的媒體采訪時表示,地球上的數據總量正在以指數級的速度成倍增長,其規模已無法測算,“這不是數據的問題,而是如何使數據有意義的問題。”
鄧白氏集團(Dun&Bradstreet)是全球著名的商業信息服務機構,擁有170多年歷史,其全球數據系統收錄了收錄了源自于數萬個數據源的超3億家企業記錄。作為鄧白氏高級副總裁兼首席數據科學家,斯克里費加諾有著語言學與高級算法的學術背景。今年5月,他被全球最大的高管級數字和數據領導人社區CDO俱樂部評選為2018年美國首席數據官。
安東尼·斯克里費加諾
“大數據”一詞的提出始于2008年《自然》子刊的一篇論文。這一概念進入中國后,迅速被茁壯成長的互聯網企業奉為圭臬,引領其落地應用。當前,中國的大數據產業已然做大做強。根據中國信息通信研究院發布的《大數據白皮書》,2017年中國大數據產業規模已達到4700億元,同比增長30%。這一數字固然可觀,但無法與全球數據總量的增長速度相匹敵。2017年,全球數據總量約為21.6澤字節(Zettabyte),國際數據公司(IDC)預計全球數據總量將在2020年將達到44澤字節,在2025年達到180澤字節。
海量增長的數據為人工智能提供了施展拳腳的空間。斯克里費加諾表示,人工智能、物聯網、金融科技等新技術在多年以前便存在,但是如今的計算機運算能力與數據規模使這些技術聚合到了一起,變得更強大。“我們的客戶們面對著這種數字化帶來的顛覆和挑戰,他們被迫要做出改變。但是很多小的企業沒有資源去應對變化、參與競爭,而大公司則可能會被機會所淹沒,反而耗費太多時間在做決定上。”
作為一家以商業數據咨詢見長的企業,鄧白氏在新的數據業態中改變了自身的方法論。斯克里費加諾表示,在技術影響之下,當今商業的本質已經發生了改變。如:企業興衰榮枯的速率大大加快了,因此需要引入自動化的數據采集技術來代替以往的人工操作;獲取信息后還不足夠,需要培養機器來高效辨識信息的及時性與真實性;在檢測和發現欺詐行為時,企業可能意識到自己處于被觀察狀態而改變自己的行為。這就使得傳統的建模分析法鞭長莫及。對于這些問題,鄧白氏給出的解決方案是,擁抱人工智能,并且比主流水準走得更遠。
多變與不確定似乎成為當今商業的一大新特征,因此傳統的建模法已不再是最佳分析手段。“你不能再借助傳統的‘機器學習+建模’方法來應對當下正在劇變的環境,而是需要更高級的AI。”斯克里費加諾將這一類型的AI稱為“非回歸AI”。回歸一詞在此意指數據分析中的“回歸分析”,在鄧白氏的設計中,不再由AI以歸納過去的數據來預測未來,而是“教會機器如何學習”。
斯克里費加諾舉例道,傳統算法會基于數據規律得出一條“回歸線”,而距離回歸線很遠的數據會被認作異常狀態。傳統算法會忽略這些異常點,將它們視作隨機出現的“雜音”。但是在一些情況下,這些“雜音”背后可能蘊含著對決策至關重要的信息。它可能意味著一次借貸,一次加密貨幣的交易,也可能意味著有組織的犯罪行為。鄧白氏將這些蘊含信息的“雜音”稱為clique,訓練更為高級的AI對其加以辨識。
在一張涉及了數百萬宗交易的商業網絡里,某幾家企業之間建起了包買包賣的閉環渠道,這一異常關系以幾個clique的形式被AI識別并呈現。至此,AI的關系告一段落,接下來將交由人類分析師來判斷異常關系背后隱藏的真相是什么。斯克里費加諾解釋道,這樣的AI解決的不是數學問題,而是模式(pattern)問題,“把大問題分解成小問題,讓人來分析解決。”
傳統回歸分析法的示意圖
在談到中國同行們近年來的表現時,斯克里費加諾贊賞有加。他表示,中國在量子科學領域的成就已經全球領先,未來量子計算如果成真,將深刻改變傳統數據產業“采集-建模-分析”的工作模式,“量子計算不需要通過建模來了解世界,因為它本身就是用物質世界去了解它的物質世界。”
近年來,大數據產業的火熱催生許多高校開設大數據專業。在被問及新環境下的大數據產業需要怎樣的人才時,斯克里費加諾表示,過去對人才的要求是接受過計算機科學或數據科學的培訓,擁有過硬的技能。今時今日,專業水平固然不可或缺,但是一些軟技能顯得更加重要。比如:好奇心。數據是門不斷發生變化的科學,學生需要具有時刻關注新事物新變化的好奇;謙遜。所有的東西都在不斷地變化,每個人都處在永遠學習的過程中;合作能力。當今世界各項技術都匯聚在了一起,沒有一個人憑一己之力能解決所有問題,因此合作很重要;溝通力。如果你解決不了問題,沒有關系,確保將它解釋清楚,讓團隊一同攻克。