最近,“大數據”已經取代了“云技術”,成為了新技術的熱門話題,各類“大數據”的書籍層出不窮,文章更是琳瑯滿目,仿佛你要是不和“大數據”扯上點關系,你就OUT了!筆者對這些文章也略有涉獵,但覺徒掛“大數據”虛名者多,而真知者寡。為了讓大家更容易理解大數據的內涵?請允許我先簡單地介紹一下大數據的定義和背景。
麥肯錫的報告是這樣定義的:大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集合。(Big data refers to datasets whose size is beyond the ability oftypical database software tools to capture, store, manage, and analyze.)
大數據這個概念又是怎么來的呢?2011 年5 月,EMC 舉辦了一次主題“云計算相遇大數據”的大會,首次拋出了“大數據”(Big Data)概念;6 月,由EMC 贊助,IDC 編制的年度數字宇宙研究報告《從混沌中提取價值》 (Extracting Value from Chaos) 發布;緊接著,IBM、麥肯錫等眾多國外機構發布“大數據”相關研究報告,予以積極跟進。
從背景我們可以看到EMC(全球最大的外置存儲硬盤供應商)是推動“大數據”這個概念的主謀,他這么做,當然是想多賣點硬盤。這種軟廣告式炒作不但沒引起反感和吐槽,反而被社會各界認可與接收,也是跟其社會背景密不可分。由于近年數據產生成本急速下降,人類產生的數據量正在呈指數級增長,其中80%以上都是傳統數據庫無法處理的非結構化數據。這些數據到底有多大呢?根據IDC 的監測,全球在2010 年正式進入ZB 時代,預計到2020 年,全球將總共擁有35ZB 的數據量,如果把35ZB 的數據全部刻錄到容量為9GB 的光盤上,其疊加的高度相當于在地球與月球之間往返三次……在這么直觀的比喻面前,其他語言也要蒼白無力了!
也許你會說大數據這種現象不用說,我們早就看出來了,不就是數據大么,能給我們的社會帶來什么實質性的影響啊,或者我怎么沒看到它的應用?關于大數據的應用,我在這里就不贅述了,市面上各種“大數據”的書已經談了很多案例了。我只想說“剖析歷史可以洞察未來”,幾年前說“云技術”還很遙遠的那些人,卻在將自己的文檔、照片、視頻上傳至“iCloud”,使用著“搜狗云輸入法”,登陸Dropbox、Yelp、Zynga等網站(這些網站正托管于亞馬遜的"云平臺")......那片飄在天上的“云”早已不是“觸不可及”。
根據麥肯錫全球研究所的研究報告《Big data: The next frontier for innovation, competition, andproductivity》,大數據將給醫療服務、公共管理、定位服務、零售和制造各個行業帶來顯著的應用價值,例如,對美國的醫療服務業每年創造價值3000億美元,約0.7%的年增長率,對美國制造業最高可下降50%的產品研發和裝配成本。麥肯錫的這份報告詳致地闡明了大數據對各行各業的利好,推薦大家閱讀,我這里只談大數據對客戶服務領域的影響。
在云時代,淘寶推出的一種極具“云”特色的客戶服務模式——云客服,云客服把社會上喜歡幫助人且有能力幫助人的淘寶人聚集在一起,使客服人員在家里或學校對客戶提供遠程服務,實現了“HO(Home Office,駐家辦公)”,并充分利用了客服人員的零散時間,不僅降低了成本,還提高了效率。當然,這個“云”并不是真正意義上的云技術,只是一種概念和噱頭。而在大數據時代,又將會給客戶服務帶來哪些商業價值呢?
我認為,大數據將對客戶服務帶來一次變革,給客戶服務帶來極大的想象空間和無限的發展前景。甚至可以使客服部門從原來的成本中心(高成本、低價值)轉型為利潤中心(提升品牌價值,創造收入)。在這里我舉三個例子跟大家探討一下,展望一下客戶服務的未來。
一、智能語音客服
目前,通信運營商等在客服領域比較先進的企業已經實現了智能文字客服,通過文字識別技術和智能匹配算法對通過短信和網站文字客服提出的服務訴求智能匹配答案,不需人工判斷。要實現智能語音客服,也要通過識別和匹配這兩關。
我們先說說識別吧。早在Siri之前,就已經有很多語音識別工具問世,最早的基于電子計算機的語音識別系統是由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字,現在AT&T的語音系統 Watson已經可以實現在線德語和英語的實時口譯。以現在的技術,語音的識別依然比較困難,主要面臨的難點有2個:
1.算法
算法是軟件的核心,目前的語音識別算法使用的語言模型仍是一種概率模型,還未發展成以語言學為基礎的文法模型,算法不突破,效果無法取得突飛猛進的進展。算法的優化不是一朝一夕的事情,需要慢慢不斷地進行,尤其語音這種非結構化數據(不便用數據庫二維邏輯表來表現的數據),但隨著大數據分析技術(用于非結構化數據的管理分析)的發展,也會對新算法開發帶來福音。一些核心算法如特征提取、搜索算法和自適應算法也都在一步步改進,且隨著數據源的不斷豐富,算法的識別效果也就越來越精準。
2.適應性
由于方言、語氣、環境和音色等因素的影響,限制了語音識別算法的效果,這就需要語言識別系統具有一定的自適應性,不同口音、方言的識別都需要以一個龐大的語音數據庫為基礎,對這些非結構化數據的管理分析就更加指望大數據技術了。至于排除環境噪音、音色等因素,個人感覺要依賴半導體傳感技術的進步,留待硬件領域的專家進一步探討。
接下來就說到匹配了。目前,匹配的算法已經相對比較成熟了,也許和大數據技術沒有直接聯系,不過其準確性也有賴于數據源的豐富程度,同時要在不斷產生的“交互數據”中動態地調整匹配結果。
綜上所訴,隨著數據源越來越多,大數據技術的不斷進步,語音識別系統也在持續地完善之中,說到底,算法依然是核心,而數據則是基礎,對于這類非結構化數據,也許傳統的數據庫技術Handle不住,但大數據技術卻大有可為。相信不久,語音識別的技術的突破不僅可以實現智能語音客服,還將變革人與物之間的交互方式。
二、語音文本轉換
因為這個功能的核心也是語音識別,所以大數據技術對的轉換準確度的保障支撐就不用再說了。之所以單列出來談呢,是因為其對客戶服務別有一番作用。
對于呼叫中心而言,客服人員與用戶的通話都是要錄音備份的,這些語音數據可真的不小哦,僅以廣東移動為例,廣東移動客服中心每年就要新增約60T的數據存儲,這個體量對于一般的企業來說已經是“大數據”了。據悉,這些數據是用磁帶來保存的,而且這些要保存幾十年不能銷毀,想想到時候光這些磁帶所占用的房間租金就是不少錢啊,更何況是其他成本。而如果能將這些語音準確地轉換成文本之后,文本存儲所占用的空間就小的多(一個移動硬盤都可以存儲一個圖書館的數據量了),存儲成本簡直就是直線下降,不僅實現了低成本高效,對自然環境也是一種利好。
有人會質疑這些錄音是為了便于追溯留證的,不是原始的錄音記錄,客戶不認賬怎么辦?當然,我要聲明不是所有的錄音都要轉換成文本,對于客戶投訴或辦理業務的來電,仍然保留錄音記錄,一則便于企業對客服人員的服務態度(說話語氣什么的還真要靠語言才能判斷)和質量進行抽檢,二則備份留證。而對于更多的咨詢或查詢類來電,通常不必留證,將這些語音轉成文本之后,不僅減少了存儲空間,這些文本數據還可用于后續的信息挖掘,用來改進服務或發現商機,畢竟文本的信息分析要比語音的容易得多。
三、客戶信息挖掘
在互聯網時代,除了用戶數、營業額等,數據已經被認為是未來的核心資源。我記得馬云曾說過類似這樣的話“你知道全國哪個省份的女人胸圍最大么?你知道哪個城市的男人最喜歡用什么牌子的衣服、香水么?你們都不知道,淘寶知道。”每年有多少企業關注《淘寶用戶行為報告》,以圖挖掘出一些數據來提升自己的銷量,從這里,數據的價值可見一斑。
而客服部門作為企業前端的客戶直接接觸窗口,每天都可以從客戶身上獲取大量的信息,甚至可以在客戶比較滿意的時候,主動獲取一些愛好、職業等信息,積少成多,某些時候,這些數據將為企業巨大的價值。當然,這些數據的錄入也不能僅靠人工,其中更涉及客戶視圖和標簽的問題,待下文再進行剖析思考。對客戶信息挖掘的應用,我在此舉兩個簡單的例子。比如,通過數據的挖掘,可以發現哪些用戶是高爾夫球愛好者,進行精準營銷,避免盲目營銷導致的客戶反感及投訴。再如,隨著定位技術成為了手機的標配,個人位置信息已經成了客戶服務領域待被開采的金礦,國外運營商已經開始分析這些個人位置信息的數據,并將洞察結果面向政企客戶提供,這些位置信息可以為企業的實體店、營業廳選址提供依據。