VoiceXML背景簡介
自從Web誕生以來,Web的每一步發展、技術成熟和應用領域的拓展,都離不開W3C(World Wide Web Consortium,W3C理事會或萬維網聯盟)[1]的努力。W3C于1994年10月在麻省理工學院計算機科學w實驗室成立,創建者是萬維網的發明者Tim Berners-Lee。W3C組織是對網絡標準制定的一個非贏利組織,像HTML、XHTML、CSS、XML的標準就是由W3C來制定。W3C會員(大約500名)包括生產技術產品及服務的廠商、內容供應商、團體用戶、研究實驗室、標準制定機構和政府部門,一起協同工作,致力在萬維網發展方向上達成共識。W3C是專門致力于創建Web相關技術標準并促進Web向更深、更廣發展的國際組織。
創建伊始,W3C就開始以引領Web技術的發展和促進為己任。其宗旨概括為7點:推進Web的普及、解決語義網絡(Semantic Web)問題、Web應該是可信任的網絡、協同工作、可持續發展問題、權利的分散問題和支持多媒體??傊琖3C以開發“Web事實標準”的各種技術規范作為其核心任務,目前已開發了超過50個技術規范。這些技術規范中大部分是由各個功能組開發的各種功能性規范,同時也包括WWW的核心體系結構。W3C的這些成果基本上已由企業和研究機構進行了實現。
W3C的已有工作成果和工作框架如圖1所示,該圖展示了萬維網的基礎框架及W3C的工作重點。W3C技術架構圖描繪了一個兩層的模型:萬維網體系結構(被標注為“One Web”)建立在互聯網(Internet)體系結構之上。圖中豐富的Web層顯示了W3C關心的領域和發展的技術。在頂層包含著六個框,分別與W3C主要的活動組相對應:Web Applications、Mobile、Voice、Web Services、Semantic Web和Privacy Security。其中的“Voice”框中所羅列的VoiceXML、SRGS、SSML、CCXML和EMMA則標示著語音領域的重要工作。
VoiceXML[2]最初由VoiceXML論壇[3]創建,現由W3C主持,是W3C開發的基于XML的語言,用來創建為電話應用刻畫合成語音、數字音頻、話音與DTMF鍵入識別和音頻錄制的語音會話。其宗旨在于為用戶定義一種新方法,運用基于Web的服務通過口頭指令和DTMF鍵盤實現交流,通過事先記錄的話音、合成話音或音樂流獲取信息。為了迎接這種挑戰,W3C定義了一套在設計上與網頁編寫標準相類似的標記語言,以規范應用程序的語音問題,例如用戶對話流、自動語音識別與相關語法、語音合成與呼叫控制等。它將傳統的專用與密閉式IVR系統提升成開放式可編程體系結構,并且通過提供類似于HTML表單或CGI腳本的可編程會話把Web技術的優點延伸到電話用戶。
為什么要用VoiceXML?
VoiceXML的推出給電話語音系統帶來全新的應用和開發概念,使傳統的CTI技術從繁瑣、封閉的模式中走了出來,使廣大的語音系統開發人員可以用極其簡單的方法實現復雜系統的開發。
完全替代傳統CTI:傳統的電話語音系統典型的工作方式是接受用戶的按鍵輸入和語音文件播放、跟據用戶的需求為用戶提供相應服務。基于VoiceXML開發的電話語音系統完全可以替代傳統CTI系統所能提供的功能。
語音識別功能:基于VoiceXML開發的電話語音系統除了接受用戶的按鍵輸入之外,還可以接受用戶的語音輸入。系統通過語音識別功能實現對用戶輸入語音到文本的轉換。這對于許多僅用按鍵輸入方式而無法解決或解決起來很繁瑣的應用領域很有實用意義。
語音合成功能:基于VoiceXML開發的電話語音系統除了能夠播放預先錄制的語音文件之外,還可以將系統中的文本轉換成語音的方式播放給用戶。這對于那些需要播報即時消息和可變信息等的應用領域很有實用價值。
與互聯網聯結:長期以來,公用電話網和互聯網是分離的。隨著互聯網技術的迅速發展,互聯網信息與日俱增,以及互聯網相關服務的日新月異,將互聯網與公用電話網整合為一體,使廣大的電話用戶也能享受到互聯網提供的信息和服務顯得越來越有吸引力。VoiceXML使公用電話網與互聯網有機地結合,使兩網的信息能夠相互流動。例如,電話語音留言可以通過互聯網以電子郵件的方式傳送到目的地;互聯網上的新聞可以通過電話播放給用戶等。
靈活的數據庫接口:許多電話語音應用系統離不開數據庫訪問。VoiceXM通過腳本方式提供靈活的數據庫接口,使得應用系統可以方便地訪問各種數據庫,如:Microsoft SQL Server、Oracle、Sybase、Microsoft Access、MySQL等。
簡化開發過程:用VoiceXML將電話語音應用系統開發人員從繁瑣的編碼細節中解脫了出來。開發人員不需要了解相關軟件(如語音識別和語音合成)和硬件(如語音卡)API的編程接口,只需要把精力放在應用領域的業務流程上。開發過程輕松快捷、開發周期大大縮短(7-10倍)。VoiceXML使開發人員得以用簡單的方法實現復雜的工作。
除此之外,基于VoiceXML開發的語音應用系統具有很高的系統可擴展性、可維護性、可移植性、可重用性和開放性。
圖1. W3C技術架構圖
VoiceXML論壇認證計劃
VoiceXML論壇已經開展了對VoiceXML應用開發人員和平臺認證計劃,前者主要是檢驗VoiceXML的開發技能,而后者則是就廠商所實現的VoiceXML平臺對W3C VoiceXML 2.0規范的遵從進行認證,包括以下內容:
- 平臺、語音服務提供商、工具和應用之間的互操作性
- 減少消費者對語言支持和兼容性的混淆
- 整個業界適用的公共測試套件
- 經過認證的第三方獨立測試
VoiceXML平臺認證計劃[5]由測試套件、測試控制和獨立測試項目組成,目的是認證所實現的平臺能通過VoiceXML測試套件所需的所有測試。該測試套件基于W3C VoiceXML 2.0規范[6]和W3C VoiceXML 2.0執行報告測試套件[7]。
測試項目的主要目的是通過提供一種測試一致性和互操作性的程序,來促使并認可廠商和用戶充分利用VoiceXML論壇所創建的有價值的標準。帶有“通過VoiceXML認證”(VoiceXML Certified)字樣的應用是指的滿足一致性需求,并且通過VoiceXML認證計劃對其兼容性進行了認證的應用。整個認證計劃擁有一套嚴格而細致的流程,如圖2所示。
具體的認證政策和認證過程請參閱VoiceXML論壇提供的官方資料:
- VoiceXML認證政策:http://www.voicexml.org/platform_certification/VoiceXML_
CertificationPolicy_CC001_20030930_v10.pdf
- VoiceXML認證計劃指南:http://www.voicexml.org/platform_certification/VoiceXML_
CertificationProgramGuide_CC002_20030930_v10.pdf
VoiceXML論壇官方認證平臺
下面列出已經通過了針對VoiceXML 2.0規范和VoiceXML Forum Test Suite v1.0測試套件的VoiceXML論壇平臺認證計劃的一些代表廠商,如表1所示。完整的列表請參閱VoiceXML論壇網站:http://www.voicexml.org/platform_certification/certified_platforms.html。
表1. 通過VoiceXML平臺認證計劃的代表廠商(按字母順序排列)
廠商 | 認證測試報告(CTR) | 產品名稱 | 產品版本 | 操作系統 | 電話接口 | ASR 引擎 | TTS引擎 | 認證日期 |
Aspect Software | CTR | Aspect Customer- Selfservice |
7.2 | Windows 2003 | T1 (通過PSTN進行遠端測試) | SpeechWorks OSR3.0.9 | SpeechWorks Speechify 3.0.1 | 2006年6月 |
Avaya, Inc. | CTR | Avaya Voice Portal | 3 | Red Hat Enterprise Linux ES release 3 | SIP | SpeechWorks OSR3.0 | SpeechWorks Speechify 3.0.1 | 2006年7月 |
Avaya, Inc. | CTR | Avaya Interactive Response | 1.3 | Solaris | 信道化T1 (Robbed-bit) |
SpeechWorks OSR3.0 | SpeechWorks Speechify 3.0.1 |
2005年5月 |