從SGI的首席科學家John R. Masey在1998年提出大數據概念,到大數據分析技術廣泛應用于社會的各個領域,已經走過了17年的時間。現在再也沒有企業懷疑大數據分析的力量,并且都在競相利用大數據來增強自己企業的業務競爭力。但是,即使17年過去,大數據分析行業仍然處于快速發展的初期,每時每刻都在產生新的變化。
從概念到實用、從結構化數據分析到非結構化數據分析,大數據分析技術在不斷地進化。雖然國內仍然在關注輿情分析,但是記者注意到,在美國,大數據分析的研究已經進入到了一個全新的階段,“預測分析”技術成為最具有代表性的未來技術方向。
那么,“預測分析”技術和傳統的大數據分析有什么不同?記者就此采訪了美國數據科學家、前北卡大學夏洛特分校助理敎授、夏洛特視覺中心主任以及非結構化數據智能分析平臺Taste Analytics的CEO,Derek Wang(汪曉宇)博士。
大數據行業爆發,現在的技術不夠用了
汪曉宇博士正好經歷了整個大數據產業爆發的全過程。他和記者回憶說,在2010年的時候,來他們夏洛特視覺中心進行交流的還僅僅是大公司的數據硏究員,2011年已經變成了公司的主任,而到了2012年,來的幾乎全是CIO和CTO們了。他們甚至還為企業開了一門數據分析的進修課程,講座雖然只有兩天,但注冊學費幾千美金,學員們全都是來自國內各大公司的資深高管。
從這可以看出,在這個數據時代,中美都在用盡一切辦法實現數據上領先的概念和追求。而在這技術飛速發展的幾年間,數據本身呈現出了不少新的特點,市場也相應地對大數據分析技術提出了新要求。
首先,數據點越來越多,也越來越碎片化
在汪曉宇博士看來,大數據時代就是人的時代,數據形態越來越豐富和多樣。除去社交網站等傳統數據點以外,新形態的數據點也已經出現,比如Airbnb和Uber這種O2O服務。如果再看遠一點,隨著可穿戴設備、物聯網等先進設備和個人的信息結合起來,隨時隨地產生和收集數據更加成為可能。在這樣的情況下,每個人隨時隨地的“情緒”和“狀態”這些都會成為商家必須要重視的數據源。與此相對應的,非結構化數據分析將越來越重要。而非結構化數據的模塊化更加靈敏,不是傳統的單一解決方案可以做到的。這導致人們在進行大數據分析時使用的工具將更加細化,利用垂直創新的工具進行非常縱深的研究將成為主流。
其次,大數據分析技術成為了決定社會服務效率的關鍵
有報道指出,隨著信息技術的發展,包括公共服務、物流等在內的人們衣食住行的服務會紛紛電子化,虛擬世界和物理世界的邊界將進一步模糊。這個大的產業背景一旦形成,大數據分析能力就將成為整個產業服務最關鍵的競爭力。
這樣就意味著,大數據分析工具應該越來越實用化。汪曉宇博士介紹說,在面對新的技術和工具時,美國企業高層都會迅速做出決斷,考慮怎么把數據分析和現有業務進行快速整合。他舉例說,在他們和美國一家大型銀行合作時,對方的CIO就可以迅速做出反應,和他們探討應該怎么把他們開發的創新型非結構化數據分析技術應用到自家銀行某一個產品中去。
決定下一代大數據產業的新技術:“預測分析”
在這樣的數據特點和市場要求下,中國和美國各大公司和科研中心都在大力投入,研發下一代數據分析技術。但是,在這方面,美國還是有著3-5年時間的領先。
根據汪曉宇博士的分析,國內在科研上的眼光很高,水平層次力度都在,但是商業化不行,研發出來轉到應用上和美國有一定差距。中國大部分公司對于大數據分析的概念還停留在“輿情分析”的階段,但是美國已經跨越“輿情分析”和“情感分析”,進入到了“預測分析”階段。
由汪曉宇博士一手打造的Taste Analytics團隊,就在進行“預測分析”技術的研發。它擺脫了傳統的“輿情分析”和“情感分析”的框架,更進一步,把人們在社交網站和其他平臺上產生的數據都收集起來,進行實時、全面地分析,幫助企業建立用戶的立體形象,了解他們的品味和喜惡,從而提供預測性地判斷。這聽來似乎和傳統的“推薦系統”、類Clickstream分析有些類似,但是實際上完全不同。
首先,傳統的“推薦系統”會需要一個很長的建立過程,也就說,它需要很多強相關的、相似的歷史數據,才有可能實現推薦功能。比如它只能根據你買電飯鍋的行為,才能向你推薦其他廚具。
但是企業怎么能在一開始就知道,顧客想要買電飯鍋呢?這就是“預測分析”的強大之處。它不需要這樣的歷史數據,而是直接通過人們在社交網絡上的留言和在各大平臺上留下的信息,來進行預測。也就是說,當你在社交網絡上留下類似“好想在家做飯”的狀態,系統就有可能已經知道你想買廚具了。
汪曉宇博士舉例說,“預測分析”技術發展成熟的話,就會非常接近美國科幻電影《少數派報告》里的情景——它會根據你在網絡留下的痕跡,來理解你的性格、行為、情緒,來建立一個隨時更新的、立體的形象。無論是HR、企業、客服、公共機構,都可以根據這些信息來提供真正的前瞻性、個性化的服務。
其次,Clickstream無法解決冷啟動的問題,而且很難精準到個人、到細節。Clickstream分析技術的實現,是通過不同的cookie,來追蹤人們的點擊,它無法解決的是冷啟動過程中數據的缺乏。比如你第一次登陸優酷,沒有任何觀看記錄,系統應該怎么進行推薦呢?而且,人們的誤點擊操作很有可能就被系統追蹤下來,進行了錯誤的分析。
但是這對于“預測分析”技術就不是問題。通過對各大社交平臺上的多重語義分析和疊加驗證,一個人的具體形象已經建立起來:這個人比較保守,不喜歡暴力,最近正在談戀愛……那么這時,向他推薦浪漫喜劇就會非常對味。
“我們在做的,就是在集合的范圍上進行分析。”汪曉宇博士說,“以前的技術是告訴你們人們在‘說什么’,現在我們已經進化到人們在行動之前‘有什么感覺’。這個核心技術的突破,就能實現對于整個數據分析市場的革新變化。”
再次,“預測分析”比起傳統的大數據分析方法,可以更好地實現人機互動。盡管人工智能非常火熱,但是汪曉宇博士仍然指出了這項技術的局限性:它的可控性很差,沒有依靠人的能動力。在他看來,大數據分析應該更好地利用人機互動的機制,來發揮最大功用。
汪曉宇博士介紹說,以前的數據分析技術,機器只能做到一半,到后面的時候還需要人來負責數據輸入。但是現在他們在研究的“預測分析”技術,可以把大范圍的用戶數據總結集成在一起,自動給出結果。人和機器的互動,將主要在于洞察內涵、提供反饋,讓機器知道人的傾向。這就是新型的人機互動先進所在。
“比如說,某個產品本來定位年輕人,但是機器通過收集數據進行分析,發現它在中年人之間更受歡迎,那么人就可以來調整產品的市場定位,做出加大在中年人群體中加大宣傳的決策。這就是非常典型的人機互動。” 汪曉宇博士說。
中國為什么沒有出現“預測分析”技術?
作為美國最前沿的大數據分析技術,“預測分析”仍然處在研發的早期階段,各家公司都在發力,想要在這個方向上取得領先地位,技術挑戰仍然非常大。
預測分析最大的難度在于精準度。汪曉宇博士說,精準度越高,系統就越能把人的性格全面呈現出來,而且會在不同時間地點下進行分析,做出一個高維的性格理解。要實現這個精準度,光是數據挖掘方面就會有很大挑戰,而且在面向不同客戶時,比如企業、HR、公共服務等,還要把影響他們的特征分別提取出來,這又把難度上升了一個層次。
目前,汪曉宇博士已經在帶領Taste Analytics團隊在打造這樣的“預測分析”系統,而且,他透露,目前他們向特定的幾個企業提供了試用版本;而他們提供的非結構化數據分析服務,也就是“預測分析”的基礎,已經被6家福布斯全球500強公司以及多家美國主流企業使用,并通過實踐“實時分析”、“數據驅動”(Data-driven)、“人機互動”等最新的數據分析理念,為新的“預測分析”系統提供研究基礎和進一步的反饋。“美國市場上現在領先的數據分析公司,都只精專一點。” 汪曉宇博士說,“這也是行業進化到一定程度的結果,因為其實每一個環節都很難,沒有一個數據分析公司是可以把所有的都做完;但是反過來,精細化研究才可以激發更多創新。”
反觀中國市場,仍然在流行SAP、SAS這類的整體解決方案。雖然這些方案可以覆蓋到數據分析的基本方面,但是卻失去了對數據的深入挖掘能力,也就錯失了數據分析的新機會,進一步來說,就很難誕生類似“預測分析”這樣領先的研究。
“中國企業也應當大膽嘗試新工具。如果總是尋求舊的解決方案,那么企業將無法真正挖掘出數據的價值。”汪曉宇博士說,“到時候,不僅是預測分析,中美在大數據分析技術和商業應用上的整體差異還將進一步擴大。”