■ 您的公司需要語音技術(shù)嗎?
算法的改進和新應(yīng)用的出現(xiàn)(例如語音門戶和Web 消息等),使得語音技術(shù)成為市場主流。語音門戶可以使得用戶通過電話線使用語音命令訪問基于Internet的信息,而Web
消息是統(tǒng)一消息新孕育出的業(yè)務(wù),可以使用傳統(tǒng)的電話技術(shù)接入網(wǎng)絡(luò),像語音mail,email和傳真等等。加上新出現(xiàn)的自動語音應(yīng)答為企業(yè)提供整合了WEB的接口,您會發(fā)現(xiàn)所有的相關(guān)技術(shù)和市場都在快速增長。簡而言之,語音技術(shù)的巨大潛力已經(jīng)使其成為個人電腦、電話以及其他電子設(shè)備的下一個關(guān)鍵的接口。
■ 發(fā)展的機遇在哪里?
語音門戶對使用語音技術(shù)的應(yīng)用開發(fā)商而言是巨大的發(fā)展機遇。Frost & Sullivan*預(yù)計在以后的6年里,語音門戶的市場將會保持
54%增長率**,公共網(wǎng)絡(luò)提供商、本地交換運營商(LECs) 、競爭性的本地交換運營商(CLECs)、Internet
服務(wù)提供商(ISPs)都正在尋找該領(lǐng)域的閃光點,期望從中能找出能夠帶來豐厚回報的增值服務(wù)。
企業(yè)級的統(tǒng)一消息應(yīng)用可以利用包括語音,email和傳真消息等交互消息平臺獲取利潤, Web消息在功能上是其自然的發(fā)展,。網(wǎng)絡(luò)公司則可引入語音技術(shù)來訪問它的Web服務(wù)器和分布式數(shù)據(jù)庫,以得到更高程度上的業(yè)務(wù)集成。這種向語音技術(shù)的發(fā)展將會有更大的市場需求,移動電話用戶會更喜歡語音撥號取代手動撥號,蜂窩電話尺寸的減少使得這種語音技術(shù)的優(yōu)越性將會更加明顯。
■ 持續(xù)語音處理- 使得消息更加宏亮和清晰
增強語音技術(shù)平臺的結(jié)果是持續(xù)語音處理(CSP),Dialogic? Dialogic?板卡和CSP技術(shù)將會開發(fā)基于語音的應(yīng)用,這種應(yīng)用通過整合新技術(shù)和提供高質(zhì)量的語音命令的傳輸,達到最好的精確度和最好的性能。
CSP 給開發(fā)商帶來5個方面的好處:
- 節(jié)省成本 - 系統(tǒng)平臺的成本更低
- 性能好 - 減少系統(tǒng)延遲提高響應(yīng)時間
- 準確性高 - 更高的識別準確度
- 適用范圍廣 - 適用從小型到大型的的各種系統(tǒng)
- 密度高 - 每一個板卡上具有經(jīng)濟合算的端口密度
我們將在后面談及這些好處,下面分析一下CSP的關(guān)鍵支撐技術(shù)
■ 解開神秘的面紗
CSP構(gòu)建在輔助有新算法的增強型語音技術(shù)之上,它的一個關(guān)鍵組件是話音插入(barge-in),即允許用戶說話來打斷提示語,同時中斷期間語音識別器依然可以識別話音。在大多數(shù)電話的應(yīng)用環(huán)境中,到達的信號是用戶話音、從提示語過來的回聲和線路噪聲的混合體。考慮到包括各種類型和質(zhì)量的線路的變化,同時考慮到說話者的聲音,開發(fā)出話音插入技術(shù)意味著將面臨艱巨的技術(shù)挑戰(zhàn)。為了能使其工作,系統(tǒng)必須為真實電話環(huán)境的回聲特征建模,并從接收信號中減去提示語回聲。利用CSP技術(shù),這種極其消耗CPU資源的功能將不再使用系統(tǒng)主機的CPU,而轉(zhuǎn)向使用語音板卡上的DSP來進行高效地語音檢測。針對基于主機的語音資源處理,CSP技術(shù)可優(yōu)化其性能,例如駐留在主機上的大詞匯量的自動語音識別(ASR)引擎
。CSP可以實現(xiàn)語音數(shù)據(jù)在電話板卡和主機處理器之間的流式預(yù)處理。
CSP功能具有幾個關(guān)鍵特征,這些關(guān)鍵特征對于應(yīng)用和擴大市場份額至關(guān)重要。
- 回聲消除 (EC) - 在語音識別、Internet電話、DTMF/音頻檢測技術(shù)中使用,用來在到達信號中消除提示語的影響。
- 全雙工操作 - 該應(yīng)用使每個電話端口都能夠同時發(fā)送和接收話音數(shù)據(jù)
- 語音激活檢測器 (VAD) - 檢測線路上是否有語音能量信號
- 話音插入 - 在給定話路上進行語音檢測時,CSP可以通過編程自動中止話路上的提示語,通過快速中止提示語和識別呼叫者的輸入,可以改善識別精度。沒有提示語的快速停止,呼叫者的說話可能會斷斷續(xù)續(xù)或者不清晰,降低識別性能。
- 語音驅(qū)動信令 - 當(dāng)檢測到語音信號時,不需要停止提示語播放,CSP通過編程發(fā)送信號給處理器,允許ASR引擎中止提示語已達到更好的質(zhì)量。
- 預(yù)話音緩沖器- 到達的話音數(shù)據(jù)存儲在一個250ms的緩沖器中,當(dāng)檢測到語音信號時,緩沖器中的話音會被轉(zhuǎn)發(fā)給ASR資源進行處理,這種預(yù)語音包含高精度識別所需的關(guān)鍵信息。
- 統(tǒng)一的應(yīng)用編程接口 (API) - 為保留系統(tǒng)的靈活性,應(yīng)用編程接口必須一致,而且與底層的硬件無關(guān)
■ CSP 優(yōu)點
如果我們對具有CSP的系統(tǒng)和沒有CSP的系統(tǒng)的呼叫流程做一個比較,CSP的優(yōu)點就會很清楚。沒有CSP的系統(tǒng),主機不斷地從DSP接收數(shù)據(jù),包括所有的端口,這對CPU和主機的壓力很大,會降低系統(tǒng)性能。當(dāng)DSP不斷地將語音包發(fā)給CPU時,這些輸入數(shù)據(jù)將占用CPU的90-100%的處理能力。而且,DSP沒有對無用的數(shù)據(jù)(例如:非語音信息)進行過濾,而直接送給CPU進行處理,這將進一步降低系統(tǒng)性能。結(jié)果,必須安裝高性能的平臺以補償對CPU和主機負荷的增加。
當(dāng)呼叫者在基于CSP的語音平臺上交互操作時,將會有提示語播放,呼叫者可以在提示語播放期間隨時說話來發(fā)出命令。這種方式通過使用語音菜單來加速引導(dǎo)過程,使用戶功能輕而易舉的找到目標。同樣系統(tǒng)可以高效地進行后臺處理,平臺只在語音輸入時才要求主機系統(tǒng)進行處理,通常只需要其它應(yīng)用程序的10-15%的處理時間。通過使用DSP上的VAD,只有當(dāng)由語音輸入時才提交流數(shù)據(jù),CSP可以大大節(jié)省CPU的處理時間。使用CSP時,板上DSP的語音檢測模塊就可以完成這種工作。

◎ 預(yù)話音緩沖器的解釋
使用預(yù)語音緩沖器和VAD的話音插入組件后,可以將主機從繁重的持續(xù)語音處理的任務(wù)中釋放出來,并減少系統(tǒng)的復(fù)雜度。只有當(dāng)有事件發(fā)生時系統(tǒng)才會工作,例如語音檢測。這樣做有很多好處,負載減輕后可以將系統(tǒng)擴展到上百個端口,因為主機CPU不再需要處理一些無用的數(shù)據(jù)。此外,預(yù)語音緩沖器使應(yīng)用開發(fā)商可以提高系統(tǒng)的可靠性和準確性。
使用話音插入組件的語音系統(tǒng)將經(jīng)過回聲消除處理的數(shù)據(jù)裝在很小的數(shù)據(jù)包中(小于100 MS),從語音卡傳送到主機的ASR引擎。這樣意味著檢測和識別呼叫者的話音數(shù)據(jù)將會花費很少的時間,進而轉(zhuǎn)換為更高的精度。呼叫者會發(fā)現(xiàn)系統(tǒng)更友好,因為只要一說話,提示語就會停止。
選擇已經(jīng)十分清楚了,具有預(yù)語音緩沖器的語音檢測系統(tǒng)裝配在板卡上,而不是主機上,這是建立一個可擴展的和高密度的現(xiàn)代系統(tǒng)的所不可缺少的。
■ 利潤再現(xiàn)
Internet的成功和電子商務(wù)的持續(xù)發(fā)展為語音技術(shù)提供了巨大的商機,同樣也會刺激像CSP這樣的語音平臺的需求。除了構(gòu)架的概念以外,應(yīng)用開發(fā)商可以使用CSP的關(guān)鍵優(yōu)點開發(fā)出新功能并投放市場。
◎ 準確性
利用話音插入組件、預(yù)語音緩沖器和回聲消除技術(shù),能夠提高CSP的準確性, 可以滿足用戶的需要,特別是對那些由于使用了語音技術(shù)而遭受挫折的用戶。背景噪聲、靜電噪聲、線路質(zhì)量差等影響可以通過配置噪聲門限得以減小或者消除,假如開發(fā)商打算介入各種市場應(yīng)用,那么這種平臺可以應(yīng)用在各種電話環(huán)境中。
◎ 密度/可擴展性
CSP 每個卡可以提供4-120個話路的端口密度,因為語音識別的關(guān)鍵組件可以由板上的功能完成,將主CPU從連續(xù)的流數(shù)據(jù)中解放出來。如果在在一個機箱中安裝多個高密度板卡組件,語音平臺可以很容易地擴展到每系統(tǒng)上百個端口。
◎ 節(jié)約成本
通過在實施和運行維護方面降低成本,CSP可以節(jié)省開支。因為語音門戶和Web消息常常是布署在一個共享的主機站點,空間方面的考慮是十分重要的。高密度的系統(tǒng)可以將系統(tǒng)配置在一個緊湊的計算機機箱中,使得系統(tǒng)占用的空間最小。
此外,板卡級的組件減少了對高成本平臺的需求,只需使用較低價位的處理器就可以得到相當(dāng)好的性能。像運行成本,話音插入組件,預(yù)語音緩沖器和回聲消除之類的高級特征有助于減少呼叫持續(xù)時間,從而增加處理呼叫的數(shù)量。
應(yīng)用提供商也可以節(jié)省開支,通常通過一個免費號碼就能訪問語音應(yīng)用,如果呼叫持續(xù)的時間變短,電話的費用也會相應(yīng)減少。
最主要的好處是能夠提高的服務(wù)質(zhì)量,獲得一個新客戶是很非常昂貴的。使用CSP提高精確度和簡化引導(dǎo)方式,您就能留住這個老顧客,從而可以集中精力和時間去發(fā)掘更賺錢的服務(wù),并招攬更多新的顧客。
◎ 增強的性能
CSP 提供的高性能是其他平臺所不能提供的。話音插入組件對于一個話音驅(qū)動的系統(tǒng)是至關(guān)重要的一個因素。讓用戶和計算機進行步調(diào)一致的對話,用戶將得到很好的體驗。沒有話音插入組件,呼叫者就會變得不耐煩或者感覺被計算機控制。話音插入組件的準確度也很重要,性能低下的系統(tǒng)往往將插入的話音視為背景噪聲或者其他的非語音事件。如果話音插入組件不準確,呼叫者往往會等待已經(jīng)被錯誤的語音事件所中斷的提示音或選擇。高級的系統(tǒng)在終止提示語之前會使用精密的話音檢測器,以避免提示語不被無意識的輸入打斷。在沒有硬件輔助的系統(tǒng)中,要完成這種高級的處理,大量的主機處理資源將被消耗,這樣將限制系統(tǒng)的規(guī)模和性能。
CSP將使得呼叫者感到輕松。板卡上語音檢測器和預(yù)語音緩沖器的結(jié)合,允許板卡級的語音處理組件擋住本應(yīng)流向主機CPU的數(shù)據(jù)流,只有語音才能夠被檢測和捕獲,結(jié)果是CPU的負荷大大減輕,語音事件的捕獲更為精確并能夠直接送到識別器進行處理。最終得到的是更準確的識別和客戶的滿意。
■ 您希望全世界都聽到您的聲音嗎?
如果您的業(yè)務(wù)是提供這種前沿的語音處理應(yīng)用,你應(yīng)當(dāng)關(guān)注持續(xù)語音處理(CSP)平臺。CSP在這個產(chǎn)業(yè)中可以提供最好的語音應(yīng)用的支持,像語音門戶和Web消息,F(xiàn)在就來利用這種激動人心和前景誘人的創(chuàng)新技術(shù)吧!
|