主持人:運營商,尤其是中國電信,在國內政企市場是當之無愧的老大。拜BAT所賜,老大也不閑著,中國電信政企部門一直在探索著通道以外的新型的模式。
接下來我們將請出中國電信上海研究院楊震博士為我們帶來自然語音處理技術在語言大數據分析中的應用,大家掌聲歡迎!
楊震:非常開心,非常高興有機會參加這次大會,感謝會議主持人給我安排了一個比較好的時間位置。我代表中國電信說一下電信在自然語言處理領域和語音大數據分析領域做了什么。
中國電信上海研究院 楊博士
我今天給大家匯報的是三個主要方面。第一、時代背景及呼叫中心大數據需求分析。第二、整個技術架構和研究思路。第三、中國電信在這方面的工作積累。
大家可以看到,語音大數據這件事情,其實它現在是提起來了,但是本質上它對內部的基礎研究一直在做,而且它是屬于互聯網發展起來的。我們看到,比如有兩個,有一個就是搜索引擎,我個人感覺這和語音大數據比較類似,尤其是驅動技術比較類似。搜索引擎出現之后,整個互聯網才真正的蓬勃發展起來。現在進入產業互聯網爆發的時期,這個時期現在大家談了很多概念,很多技術,也有很多應用在做這個事。但是迄今為止沒有看到一個很有突破性,或者很有震撼力的應用出來。通過我們電信的研究和業界的一些資深的專家,或者一些有研究積累的機構進行分析來看,就是語音大數據這件事,對語音的處理這件事,可能是今后十年,或者今后二十年影響企業形態和生態的一個主要的技術。
為什么這么看呢?頭幾年有幾個技術熱點,這幾個技術熱點隨著現在的發展越來越被人們認識。第一、云計算,解決了計算資源的調度問題。以前我們做學生的時候,PC機處理性能很有限,現在我能通過云計算技術把很多的服務器集成在一起,處理大規模的問題。
第二、大數據。它提供了一種技術思路和方法,解決了處理大規模數據集的問題。而云計算、大數據,其實剛才我們說到了,搜索引擎的出現,它對互聯網還是以整體信息處理這樣一個研究的思路。
第三、再加上物聯網解決的各類應用系統通信問題,我們今后的發展可以對海量的數據進行處理,按照企業的應用模型,把所有的問題解決出來。
最后一個最關鍵的技術就是人工智能技術,我們說的最多的語音識別,包括科大訊飛的技術,其實它都是人工智能技術一個基本的體驗和應用。我們外面看有人機交互、智能控制等等這些東西。而它的基本內涵的理論研究,說實話基本有幾十年的歷程,而只是在現在有云計算、大數據和物聯網的基礎上,能夠達到一個很好的應用。
最核心的兩個技術就是自然語言處理技術,自然語言處理技術包括云識別,還有包括一個語音理解。語音識別是聲音到字的轉換,云理解是轉化成字,它本身這個學術界大概研究了五六十年,而它作為信息的三種最基本載體其中兩樣,圖像、聲音進行文字的處理。而這個處理的目的是干嗎?搜索引擎的目的其實就是為了決策,企業用自然語言處理技術也是為了決策,我用信息,怎么獲得這個信息,這個信息從哪來,這個信息對我有什么用。
互聯網、移動互聯網和社會化媒體的出現,剛才大會主持人也說到了,微信出現了之后,它搭建了一個很好的信息流動平臺,這個流動平臺上面,唱戲的就是信息怎么應用,能改變你信息的交互方式,能使決策信息更準確,而且通過這個信息的流動,帶來一個新的模式,比如做廣告也好,或者參與決策過程中,或者參與付費也好等等。
從這個圖我們能看出來,為什么我們干語音大數據這件事?它從跟Google的對比和搜索引擎的對比其實很像。傳統的互聯網出現之后,一開始是門戶網站,大家什么都有,用戶上去找。其次是雅虎分類目錄,因為門戶網站上的網,網站太多了,我就得有一個分類目錄出來,之后通過分類目錄達到我的應用的網站。之后搜索引擎出現了,因為分類目錄需要人工整理,怎么整理這么多海量的信息,人類是不能窮盡的,而且網站互聯網信息在變。
所以我們看下來,搜索引擎的出現之后,才真正的把互聯網的產業,互聯網的發展推到一個極致,它就是處理一個海量的信息。而我們做語音大數據是怎么想的呢?我們中國電信怎么想?第一、所有的文字和聲音信息,企業,我們呼叫中心也好,或者企業的視頻網站也好,它首先本企業的信息和外網是互聯的,其次所有真正的應用,語音和語義的應用是跟業務相關的,這個業務相關的理解只有企業才能理解,早期的互聯網門戶網站,進入那個網站才知道,而我如果有一個辦法把這些信息連在一塊,或者使信息流動起來,同行業之間的信息有一定交互關系,而且基于一些分類統計,或者大數據計算的方法,能夠把所有的信息讓它有價值和有向的流動,我就能產生一個新的價值,這就是我們電信考慮這個語音大數據的事。
前面是一個鋪墊,看電信語音大數據,我在電信領域做了幾年的研究,我要服務電信的業務,服務電信的收入。我們做技術研究和電信相關的業務怎么結合?現在就是企業的營銷和運營問題。因為現在郵件也好,微博也好,微信也好,數據也好,產生的數據量是相當大的。而且企業不同的OA系統產生的信息量也很大,作為一個企業,每個具體的執行者無法融合這么多信息,他有需求,但是不知道哪塊滿足這些需求,完成這些東西。所以,我們要通過語音大數據,或者大數據分析解決企業的營銷和運營這個問題,這是一個基本的出發點。
具體著手,就是呼叫中心這個事。說到呼叫中心,中國電信做呼叫中心可以說是中國歷史上最悠久的。在上海,大家從電信博物館可以看到,老的上海的查號的,就是現在的114,那時候114的接線員都是坐黃包車去上班的,是最有學問的,最有價值體現的,或者最有身份的一些女性,因為她要掌握技能,還要懂外語。
隨著信息技術的發展,呼叫中心一代一代的發展起來,它通過一個傳統的呼叫中心,以語音為主,就是打電話進來,查一個什么東西,后面有數據庫。之后結合方式,IP這種,視頻的東西,能起到一個作用。最后到今天大家看到聯絡中心,各種都有,包括E-Mail、微信、微博、短信、易信等等,都能接到呼叫中心上來,而且我都能表達我的訴求,騰訊的QQ也可以。之后后面有各種信息處理系統,對聲音和文字的處理系統。
我要做兩件事,第一、使我處理效率更高,用戶來投訴,或者來解決的時候,有一個更好的解決方案。另一件事,使我前面接到的信息主要的熱點能及時的反饋到后面的生產和服務系統里。所以,從這件事來看,中國電信做這個事,第一、服務資深企業,第二、中國電信有外包呼叫中心業務,我們對整個呼叫中心的建議和經驗積累可以服務各個企業。中國電信是做通信運營商,它立足出發點是服務整個中國企業把信息技術應用好,使企業降低通信成本、節約勞動成本,提升生產效率。
呼叫中心引入新技術干嘛?第一、告訴我有什么功能,知道產品怎么升級。之后,對企業的增量價值來看,我能有什么商機。后面會介紹,呼叫中心、大數據到底價值在那里,前面就是有什么商機。第三、人力成本的競爭,現在中國人力成本越來越貴,中國電信坐席成本越來越貴的,還有最新的,向移動互聯網、互聯網轉型,通過各種接入手段帶來的信息,使信息流動更好的來動。
其實傳統的大數據特別大,它的種類形態很多,而且產生的速度很快,這幾點跟呼叫中心大數據都比較類似。拿Google為例,每天會處理很多信息,或者更大的數據資源,流動的信息,它會很容易抓取,因為它有一個數據處理架構,它的信息演變出來就是現在的大數據跟云計算。但是,呼叫中心大數據其實有一個基本的特點,跟傳統大數據是不太一樣。它的數據價值含量其實很高。大家可以想一想,打114,或者各個企業的客服,他肯定是帶著一定的問題才去打電話,每一通通話都有實際的價值在里面,互聯網的信息和企業大數據的信息不一樣,它的價值很高。能夠很實際的提升企業的服務效率,如果很有效的挖掘出來,也很實際的找到企業產品的一些弱點。所以,這個事是驅動我們中國電信做這個事的一個主要的出發點。它的應用方向,第一、找到新商機。第二、節約人力成本,其實最次的,把許多數據結構化出來,用語音識別和語音理解技術,形成一種自動的人工的問答系統,其實大數據一個基本的處理特點,處理目標是把非結構化的信息變成結構化的統一表達和存儲的一個方式或者應用。
從呼叫中心大數據能獲得什么?客戶訴求、意見建議、市場活動、客戶情緒、競爭對手、服務質量提升和坐席技能。我們畫這個塊,是我們上海電信研究院和集團公司現在主要做的一個事,其他就是客戶訴求,還有客戶情緒分析,還有競爭對手,是我們在研究下一步主要要做的事情。因為我們中國電信想提供一個普性的,對大數據處理的平臺,然后把一些信息技術集成起來,給企業客戶進行應用。
稍微具體一點,語音大數據頭幾年在做什么?首先,以質檢這個事為例,因為服務質量肯定要提升。傳統是有質檢員的,會派50個質檢員,質檢員每天要聽電話。我去上海問他,一個質檢員一天最多聽多少通電話?一天最多聽十幾到二十通,因為打客服系統的人多了,可能要打一個小時投訴。質檢員聽這個電話,要對坐席服務進行評價,哪句話該說,哪句話不該說,所以要反復聽,所以這個效率又低了。有一些質量不好的電話,質檢員沒有聽到就過去了,但是如果聽到了,要給坐席進行反饋,這個事不應該這么說,我要扣你錢,即便這么做,大概只能做到1%,可能1%都不到,由于我們有上千個坐席。
怎么針對這個事進行解決呢?主要用兩個技術,一個是語音識別,一個是語音理解。語音識別,其實也不是很神秘,上個世紀五六十年代就開始做這個事,其實語音識別這個事,背后還有很多的特征技術,包括情感、聲音、圖片,進行檢測等等這些技術,都是對整個的自然語言的發音的一個升學特征進行提取和分析。
但是,為什么還有語義理解呢?如果文本轉寫每個字都不錯,是用還是不用呢?這是第一點。比如我們有另外的項目,做IPTV智能控制,我要看中央一套,一個字都不錯,給IPTV播放平臺,他也辦不了事,我要播控指令才能干這個事,這個就是語音理解干的事。語音理解還要干什么事呢?行業特征分析,因為不同行業的專有名詞專有特征,有不同企業的專有名詞,專業特征,也是不一樣的,只有企業內部的人都知道。我們做呼叫中心語音大數據分析和語音理解技術。
現在看通過聲學特征信號聽取,和語義分析技術到底能干幾件事。從技術最成熟的角度看,第一、語音轉文本,把語音轉變為準確的文字。第二、關鍵詞檢出。關鍵詞檢出其實它更基于兩種,一種轉文本,另外一種相當于本身就用這個關鍵詞去檢,在語音模式和聲音模式上,就檢100個,或者200個關鍵詞。第三、情緒檢測,其實正常的服務質量,語音如果有一些異常的情況下,音調和語速會變快,比如音調突然升高,語速一分鐘說多少個字,我說話字數就是比較快,一分鐘超過240個字,一般人說話,200-220個字之間,尤其坐席,經過培訓,控制的字數和語速更有一定的控制力。所以,怎么分析情緒也是一個。第四、靜音檢測,由于有的時候該說話,有的時候不該說話。第五、語速檢測。第六、話者分離,對存儲的數據基本都不成一塊,就是怎么能把坐席和打電話的話分開,它是通過聲文識別的技術,聲文識別也是我們下一步要主要研究的,一個是用戶認證,還有多語種識別。
后面有案例介紹到中國電信在整個語音識別都做了什么。這就是我們做客服質監產品功能產品的一個示圖,就是我能干什么事?所有的這些事是底下的技術一點點堆起來的,并不是我拿過來就用,就是我要切入到某一個行業中的時候,肯定需要一些新的東西完善我后面的搜索引擎。否則它要解決幾個事,一個事是錄音格式,聲音格式,還有識別結果,同音字,同音詞,這些怎么去轉換的事。
這個是市場機會,其實它也有很多的市場機會。其實現在整個是“互聯網+”,還有“一帶一路”,還有企業轉型,其他所有企業,所有產品都牽扯到一個服務的事。像騰訊、微信和微博,這樣的互聯網企業也要客服用戶的投訴。在網站上遇到什么問題,你怎么給我介紹。生產具體產品的企業,肯定要解決用戶投訴的,質量有問題肯定要找個地方來說。所以,市場機會其實還是蠻大的。中國電信提供整個的一個解決方案,包括基礎架構。
這是我們現在在做的一個產品,拿出來給各方面匯報的。成單錄音分析,電話外呼的那種,提高成單率。熱點追蹤,比如上海的12345,有一年一些熱點事情突然出現,用戶打到12345這個電話里來,接電話的都是坐席,叫個體的行為,其實他接到用戶投訴的一件事情。另外一個中心也接到這個事情,但是他們倆之間不互相通話,領導怎么知道這個通話率的識別很高,就用這個熱點追蹤,下面是整個對外呼系統的一個作用,比如首次通話的解決率等等。
說了那么多,其實這個事,中國電信說的很好,到底自己做了什么?因為我是上海研究院的,來電信十來年了,一直做自然語言處理相關的技術。早期的搜索引擎,大家知道114,是我們做的,之后還有一些國家“863項目”,這是第一個應用成果。它項目來源就是國家“863項目”,它服務于世博會,是我們這個項目組參與的。用到電信里是IVR智能語音交互,就是一個小規模的語音識別項目,打電話進來,語音提問的方式找電信的語音營業廳、網點和找他的每天工作時間和他坐的交通,這是我們2010年之后做的。2010年之前,世博會962010中英日法自動語音交互,這個也是我們上海電信我們這個技術團隊做的。這個是情緒感測,這是我們內部的項目,就是怎么分析坐席在通話過程中的異常情緒,系統也是在跑,坐席的語音材料,先看哪些是正常的,看現在來的語音是不是正常,發現其實前面我們說的語音建模的事,如果建的好,大概有20%的提升,就是能發現他的情緒電話。
自動轉聽這個事,在中國電信里大概有三個,第一大家如果是中國電信的手機,現在不是中國電信手機也可以做到,就發118、114這個短信號,查一些目標航班。現在大家說百度也好,但是我們做這個項目的時候是在2010年,那時候百度他們沒有,中國電信一直做的最早的就是118和114,結合自助語音的時候,我們技術研究都是走的很早的,而且上線,也被別人引用了,但是對于它技術本身的應用可能稍微落后一點,這就是短信的語義理解,我花費也好,辦套餐也好,跟業務相關的,我們有一個自然語言處理這個能力,這個平臺現在在上海,上海電信跟指令碼對應起來,而且還有一些上下文交互的邏輯,也放在這里了。
熱點分析技術,語音識別之后的文字,進行語音特征收集,怎么跟業務相匹配,出了這些東西。我們2010年主要是微博這塊的信息全做掉了,我們上海電信內部也看整個網上的信息,看跟中國電信相關的進行分析。
多媒體客服交互技術,解決視頻也好,語音也好,E-mail也好,各種媒體交互手段跟呼叫中心進行語音通信的問題,這個我們技術驗證也做過了,這個也都做的很早,大概2011-2012年之間,應該更早。
我們電信的網絡平臺應用常用是采用生態鏈,在整個國內呼叫中心是做的最好的,而且我們各個地方有很好的集成公司實施這個東西,集成公司本身是在中國電信內部的118也好,114號,我們自己已經練了很久了,應用的需求,開發,或者怎么應用,跟我們研究院已經互動的很好。它是在我們內部用好了之后,才給大家用。所以,我們自己就是這個小白鼠,試好之后,再給大家用。
這個是我們對于整個呼叫中心全媒體概念的一個定義,它解決各種易信、微信、微博各種語音信息識別和處理的問題,之后找到用戶關心的和用戶未來可能會關心的東西,為用戶提供更好的服務,產品模式。
863的項目全稱是多語言識別,項目是應用示范,2012年上海市科技進步一等獎。2015年獲得上海市技術發明三等獎,在客戶,呼叫中心,或者全媒體呼叫中心這個領域,或者業務聯絡中心這個領域,一句話只有幾十個字,幾十個字表達一個特定的概念,這個事是2015年參加的這個大會。還有2010年的三等獎,最早給結構化寫文本的那個搜索引擎進行推廣,這些都是中國電信自己來開發和應用的。2008年是二等獎,整個呼叫中心的二等獎,呼叫中心各種技術集成的一個二等獎,在上海市。下面有上海市的優秀發明選拔賽的獎勵,我們這個授權和社會專利大概十來項,論文也十來篇,團隊專利和論文寫的還不算多,因為我們大部分是實踐,開發,標準現在是在做國家的標準。這是我們電信已有的一些項目的情況。MTV也好,車聯網也好等等,我們這個團隊做的這些項目。這個是中國電信在呼叫中心服務行業認可度的一些獲獎。
總結一下,語音大數據,語音識別,語音理解,云計算和社會化媒體五個方面要結合在一起來運用。謝謝大家!