大數據時代,各家公司都在收集更多自由文本格式的非結構化數據,內容從客服對話到市場研究調查均有涵蓋。盡管這些用戶反饋(VOM)包含寶貴的信息,但通常來說,如何大規模對這些數據進行最有效的分析還是比較模糊的。
找出用戶反饋數據的主題非常關鍵,不僅能讓我們了解用戶的擔憂及痛點,還能通過總結洞見以作出更好的商業決策,改進產品及用戶體驗。其中一些典型的案例包括:
在調查凈推薦值(NPS)的市場研究中,我們希望了解用戶向他人推薦品牌或網站的原因,即為公司提高NPS分數的動力是什么。在NPS調查中,類似“構建網絡”這樣的主題給了我們提示:用戶喜歡能作為有效工具,構建自己社交網絡的網站。
我們希望能從應用的評論中了解用戶的應用體驗,并用以修復問題、改善產品。例如,評論中關于“應用崩潰”的主題表明應用存在著潛在缺陷。
對于客戶服務(CS)郵件來說,最主要的目的是找出報告最頻繁的問題。例如,在客戶服務郵件中“合并帳號”這個詞出現的次數讓我們知道,到底有多少用戶擁有多個個人帳號與資料,以及相應問題的嚴重性。所有這些主題都會按照主體模式及相關操作分類。
文本挖掘又被稱為文本分析,指的是運用高級數據挖掘與自然語言處理技術對非結構化的文本進行計算研究,這項技術在處理上述任務時有很大用處。文本挖掘的關鍵一般包括但不限于:主題挖掘、文本分類、文本聚類以及分類構建。
文本分析這個市場中有很多公司競爭(見下圖),目前有很多可用的供應商及開源工具。既然選擇有這么多,為什么我們還要構建自己的解決方案呢?主要的原因在于,我們希望這個解決方案具備可擴展性、靈活性與專注性:首先,由于我們要處理的是來自多個渠道、不同性質的大量數據,因此理想的解決方案應當是可擴展的;其次,由于調研和集成了不同的文本挖掘功能,我們還希望系統具備靈活性;最后,我們希望能專注于某一部分的數據,比如與LinkedIn相關的數據。在決定使用哪一種文本分析平臺時,還需要考慮的其它重要因素包括時間、開發成本以及維護費用。
圖一:文本分析供應商與開源工具
在LinkedIn,我們建立了Voices這個文本分析平臺,通過它訪問關于我們網站和主要產品的用戶反饋非常簡單。Voices聚合了來自內部(比如LinkedIn發布的信息、客戶支持案例、NPS調查結果)及外部(比如來自Facebook、Twitter、新聞、論壇及博客等社交媒體)數據來源的非結構化文本,將來自各種渠道的結構化客戶數據及非結構化文本數據錄入HDFS,再使用一套文本挖掘功能來處理。通過Voices,我們可以從各個角度總結出相關的見解,比如價值定位、產品、情感、見解趨勢還有很多其它的用例。
我們將內部的數據來源與從外部(從社交平臺、在線新聞、博客、論壇等公開數據中所提取的相關信息)獲得的數據進行集成。其它數據屬性,比如地理位置、情緒、用戶細分等方便使用者進行商業方面的深挖,Voices中數據還包括LinkedIn在蘋果商店及Google Play獲得的評論。
在Voices中的文本挖掘
文本挖掘是針對非結構化文本進行計算研究,以理解用戶反饋,并為更好地作出商業決策獲得洞見。如果讓人類執行,需要數年、數百萬量級的文本閱讀量,對于任何公司來說都是無法等待的。因此,我們亟需能對大量的非結構化文本執行文本挖掘的有效、高效的功能。
在Voices,有三個關鍵的文本挖掘組件,見圖二:
相關性的解決方案 分類引擎 主題挖掘圖二:Voices的文本挖掘架構
相關性的解決方案
在社交媒體中處理大量非結構化文本時,找出與LinkedIn、與我們的產品及服務相關的內容是非常關鍵的,而且這一步必須在其它分析開始前完成。在Voices,我們使用機器學習的方式來解決相關問題?;谠浺娺^的案例——無論是否與LinkedIn相關,我們建立起模型,然后將學習到的模型應用到新的文檔中,以預測這些文檔各自的相關程度。
分類引擎
為了通過機器學習來完成相關性判斷,我們開發了一個通用的文本分類框架,通過樣例文檔,使用預定義分類的已知標簽(比如已知產品的客戶服務表單列表,或者帶有情感標簽的應用評論列表)構建了支持向量機(SVM)模型,這個模型可以用于預測新文本文檔。這個框架還有很多其它的應用,比如情感分析、產品分類以及價值定位分類。
主題挖掘
與文本分類引擎(以及相關性解決方案)不同,另一個關鍵的文本挖掘組件是主題挖掘。主題挖掘也被稱為主題建模或主題識別,是一種從非結構化文本中提取最重要概念以及相關行為的技術。我們的主題挖掘系統是由多個自然語言處理(NLP)模塊構成的管道,包括:1)詞性(POS)標注;2)詞性模式匹配;3)主題刪減;4)主題排序。這個多模塊管道的核心概念就是,任何一個模塊單獨運用時,所產生的主題混亂且不準確。
我們的方法在諸如論壇討論、小組更新、博客等自然語言中,針對用戶反饋數據的效果良好。系統產生的主題可用于:1)無需人工查看內容,便可理解并使用用戶反饋中的信息;2)對用戶投訴進行分類或者分組,以供客服代表進一步處理;3)識別主題相關的情緒;4)方便搜索用戶投訴;5)為與主題相關的內容產生結論;6)用以實現文本分類功能,以減少功能,并提高效率。
討論
在開發Voices系統時,我們獲得了很多經驗,希望與社區分享。首先,在進行文本挖掘時,我們時常要面對抉擇,包括選擇供應商產品、開源工具以及內部解決方案。不存在萬能的解決方案,權衡關鍵的因素——比如質量、效率、靈活度、可擴展性、成本(包括開發成本與維護成本)非常重要。
其次,我們需要在質量與效率之間作出權衡,例如LDA是一個現成的主題建模方法,但計算花費過高、效率較低。在實踐中,還有更多次優的方法在效率上和擴展性上都更勝一籌。在這些方面有所提高,同時也不會太損失質量的方案在實踐中更受歡迎。
再次,如有可能,我們總是盡可能利用類似Hadoop及Spark這樣的大數據基礎架構來提供真正可縮放的文本挖掘功能。
最后但同樣重要的是可視化,可視化對于顯示文本挖掘的結果也很重要。例如,主題的顯示有許多選項,包括關鍵字云或主題餅狀圖等。而最佳的可視化解決方案可以快速有效地闡述結果,方便決策制定,這對于產品及用戶體驗的改進都很有好處。
總結
我們構建了一個可擴展的文本分析平臺,通過高級機器學習與自然語言處理技術,實現了創新性的文本挖掘解決方案。通過這樣的平臺,我們得以聆聽社區的反饋意見,為更好的商業決策給出可執行的見解,最終為用戶帶來改善。
英文: Voices: a Text Analytics Platform for Understanding Member Feedback
譯者: 孫薇 @Verawala