首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音合成(TTS)  語(yǔ)音合成產(chǎn)品

不僅是技術(shù)—語(yǔ)音門(mén)戶專題系列(一)

核心技術(shù)與流程設(shè)計(jì) 語(yǔ)音門(mén)戶的兩扇門(mén)

郭連頗 2002/01/30

語(yǔ)音識(shí)別是關(guān)鍵

  語(yǔ)音識(shí)別技術(shù)是語(yǔ)音門(mén)戶的核心技術(shù),掌握好這項(xiàng)技術(shù),是語(yǔ)音門(mén)戶獲得成功的第一步。

  1.識(shí)別引擎

  語(yǔ)音識(shí)別引擎是語(yǔ)音門(mén)戶的核心。語(yǔ)音識(shí)別引擎不僅要聽(tīng)懂用戶的語(yǔ)音,還要完成語(yǔ)言理解、語(yǔ)法分析、對(duì)話(包括人機(jī)對(duì)話和流程)控制和語(yǔ)音輸出等工作。識(shí)別引擎可以識(shí)別不同的語(yǔ)言,但需要不同的語(yǔ)音庫(kù)來(lái)支持。例如,在同一個(gè)引擎下,外掛中文或英文語(yǔ)音庫(kù)就可以識(shí)別中文或英文語(yǔ)音。

  語(yǔ)音識(shí)別技術(shù)的成熟和商品化,依賴于軟件算法的進(jìn)步,更依賴于硬件性能的提高。20世紀(jì)90年代末,計(jì)算機(jī)硬件性能的飛速提高和價(jià)格的急劇降低,使語(yǔ)音識(shí)別技術(shù)從實(shí)驗(yàn)室走向了市場(chǎng)。

  識(shí)別率是語(yǔ)音識(shí)別引擎成功與否的關(guān)鍵,為了在電信網(wǎng)絡(luò)上提高識(shí)別率,要有針對(duì)性地處理以下問(wèn)題:

 。1) 回聲:在電信系統(tǒng)中,語(yǔ)音傳輸過(guò)程中的回聲將極大地影響識(shí)別率。要將回聲抑制掉,必須在硬件和軟件上對(duì)信號(hào)進(jìn)行處理。

 。2) 噪聲:包括用戶環(huán)境噪聲和系統(tǒng)中的電子噪聲,前者需要語(yǔ)音識(shí)別引擎軟件來(lái)處理,后者一般由硬件處理。

 。3) 語(yǔ)音中斷:用戶不必聽(tīng)完系統(tǒng)播報(bào),可以隨時(shí)說(shuō)出新的服務(wù)需求,系統(tǒng)將中斷播報(bào),并為用戶提供新的服務(wù)。目前,主流的語(yǔ)音卡都提供了語(yǔ)音中斷功能。為達(dá)到更好的效果,識(shí)別引擎還必須提供專門(mén)的接口,以保證兩者能夠更好地結(jié)合。

  2.自然語(yǔ)言處理

  只有提供自然語(yǔ)言識(shí)別功能,語(yǔ)音門(mén)戶的用戶才能享受到親切、快捷的服務(wù)。在一些復(fù)雜應(yīng)用中(如查詢航班/火車時(shí)刻表,股票買賣等),采用自然語(yǔ)言對(duì)話,才能發(fā)揮出其替代按鍵的優(yōu)勢(shì)。除了識(shí)別引擎要具備自然語(yǔ)言理解能力外,在應(yīng)用開(kāi)發(fā)中也有大量的工作要做。

  自然語(yǔ)音識(shí)別技術(shù)使計(jì)算機(jī)能夠聽(tīng)懂和理解人的語(yǔ)言,用戶不必用固定的語(yǔ)序講話。系統(tǒng)能夠幫助用戶明確其需求,并提供準(zhǔn)確的服務(wù)。系統(tǒng)應(yīng)該能夠聽(tīng)懂自然的語(yǔ)言,并到數(shù)據(jù)庫(kù)查詢出信息,再播報(bào)給用戶。對(duì)于一些不太規(guī)范的語(yǔ)句,系統(tǒng)同樣應(yīng)該聽(tīng)懂,并逐步引導(dǎo)用戶,以便向用戶提供服務(wù),這才是真正的自然語(yǔ)言識(shí)別。目前,有一些承諾提供自然語(yǔ)言識(shí)別的系統(tǒng),往往要求用戶一次說(shuō)清全部需求,這不是真正的自然語(yǔ)言識(shí)別,在現(xiàn)實(shí)應(yīng)用中,也是無(wú)法使用的。

  3.TTS

  TTS是語(yǔ)音門(mén)戶中的一個(gè)重要技術(shù),它提供了系統(tǒng)向用戶輸出的語(yǔ)音界面。

  與拼音文字不同,中文的“詞”由一個(gè)或多個(gè)漢字組合而成,如何斷詞并正確地發(fā)音,需要有一個(gè)非常大的、及時(shí)更新的詞庫(kù)來(lái)支持,還需要對(duì)上下文進(jìn)行判斷。因此,中文TTS的開(kāi)發(fā)難度要比英文大得多。

  經(jīng)過(guò)長(zhǎng)期研究,中文TTS取得了非常大的進(jìn)步,也有了一些專門(mén)支持電信級(jí)應(yīng)用的系統(tǒng)。在現(xiàn)有的技術(shù)水平下,TTS能夠滿足一般的閱讀要求。但讀時(shí)事新聞、電子郵件(尤其是包含許多縮略語(yǔ)和中外文混合的文本)和文學(xué)作品時(shí),其效果還不能令人滿意。

  要判斷TTS的水平,不要用開(kāi)發(fā)商提供的樣本,也不要讓開(kāi)發(fā)商代勞輸入漢字,建議用戶隨意摘錄網(wǎng)上的新聞,直接粘貼到TTS文本窗口中,然后直接進(jìn)行測(cè)試。TTS是給普通用戶聽(tīng)的,不是給專家聽(tīng)的,其直觀的效果最重要。

流程是人性化服務(wù)的保證

  流程設(shè)計(jì)是質(zhì)量控制的核心,即使語(yǔ)音識(shí)別的準(zhǔn)確率再高,也不可能達(dá)到100%。因此,設(shè)計(jì)一個(gè)好的流程來(lái)幫助和引導(dǎo)用戶,并克服語(yǔ)音識(shí)別的新問(wèn)題,是提高語(yǔ)音門(mén)戶服務(wù)質(zhì)量的核心。同時(shí),一個(gè)好的流程,也是為運(yùn)營(yíng)商創(chuàng)造價(jià)值的基礎(chǔ)。

  1.有別于IVR的流程

  受電話按鍵的束縛,傳統(tǒng)的按鍵信息服務(wù)系統(tǒng)(IVR)必須把各種服務(wù)分成多層,或者開(kāi)設(shè)多個(gè)電話號(hào)碼。

  (1)新的“層”概念

  由于引入了自然語(yǔ)言識(shí)別技術(shù),在語(yǔ)音門(mén)戶中,“層”被授予了新的內(nèi)容。它不是一個(gè)機(jī)械的分類標(biāo)準(zhǔn),而是幫助用戶的導(dǎo)航界面。它將引導(dǎo)新用戶一步步接近目標(biāo),并幫助老用戶直接達(dá)到目標(biāo)。語(yǔ)音門(mén)戶可以在原有結(jié)構(gòu)的技術(shù)上引入語(yǔ)音導(dǎo)航,也可以打破原有結(jié)構(gòu),建立新的、更適用于語(yǔ)音導(dǎo)航的流程。

 。2)實(shí)現(xiàn)任意跳轉(zhuǎn)

  傳統(tǒng)的IVR系統(tǒng)中,如果用戶通過(guò)多次按鍵,進(jìn)入了某項(xiàng)服務(wù),就很難訪問(wèn)另一個(gè)服務(wù)。這時(shí),用戶要么必須根據(jù)系統(tǒng)提示,逐層返回、逐層進(jìn)入;要么已經(jīng)在系統(tǒng)中迷路,無(wú)法進(jìn)入其他路徑,只能掛斷電話,再次撥入。而語(yǔ)音導(dǎo)航能夠聽(tīng)懂用戶的需求,可直接跳入另一欄目或服務(wù),不必逐層返回和進(jìn)入。

  2.語(yǔ)言學(xué)處理

  語(yǔ)言是“活”的,因此,語(yǔ)音門(mén)戶也必須能夠靈活地處理用戶需求。

 。1)多音詞和同義詞:系統(tǒng)必須能夠自動(dòng)處理多音詞/字和同義詞,才能滿足不同的客戶需求,保證識(shí)別率和服務(wù)品質(zhì)。

 。2)無(wú)義詞:系統(tǒng)必須能夠自動(dòng)過(guò)濾沒(méi)有意義的詞/字,減少對(duì)用戶的約束,提高人機(jī)對(duì)話的自然度。

  (3)口音適應(yīng):中國(guó)地域廣大,人口眾多,方言和口音十分復(fù)雜。因此,除為特定區(qū)域的用戶提供專用的語(yǔ)言引擎外,普通話引擎要適應(yīng)帶有一定口音的用戶。系統(tǒng)集成商還需要根據(jù)使用情況對(duì)系統(tǒng)進(jìn)行調(diào)整,建立自學(xué)系統(tǒng),不斷提高系統(tǒng)的識(shí)別率。

  3.人性化提示和錯(cuò)誤處理

 。1)不同的提示和幫助:要根據(jù)不同的情景提供提示和幫助界面,如,有時(shí)需要嚴(yán)肅,有時(shí)需要活潑。

  (2)人性化引導(dǎo):要提供人性化的提示和引導(dǎo),才能發(fā)揮語(yǔ)音導(dǎo)航和服務(wù)的優(yōu)勢(shì)。

 。3)錯(cuò)誤處理:在聽(tīng)覺(jué)上,機(jī)器不如真實(shí)的人,不可能有100%的識(shí)別率。如何處理錯(cuò)誤,讓用戶理解并愉快地接受,就需要制定錯(cuò)誤處理原則并靈活地運(yùn)用技巧;镜南到y(tǒng)應(yīng)該對(duì)用戶沒(méi)有講話、用戶講錯(cuò)了話、系統(tǒng)只聽(tīng)懂一部分等現(xiàn)象具有判斷能力。

語(yǔ)音門(mén)戶的弱點(diǎn)

  語(yǔ)音門(mén)戶不是萬(wàn)能的,它在一段時(shí)間內(nèi)沒(méi)有得到大面積的普及和推廣,是由于其自身尚存在著一些弱點(diǎn),其中,主要是信息量有限的問(wèn)題。

  語(yǔ)音門(mén)戶主要提供語(yǔ)音服務(wù),但聽(tīng)覺(jué)能夠接收的信息量是有限的,遠(yuǎn)遠(yuǎn)小于視覺(jué)能夠提供的信息量。有些語(yǔ)音服務(wù),如讀E-mail、語(yǔ)音上網(wǎng)等,僅僅是應(yīng)急時(shí)的需要,不能替代傳統(tǒng)的電子郵件和瀏覽器。同時(shí),并不是所有的信息發(fā)布和服務(wù)都適用于語(yǔ)音門(mén)戶,那些信息量大、更適合視覺(jué)瀏覽的信息就不適用于語(yǔ)音門(mén)戶。

計(jì)算機(jī)世界報(bào) 2002/01/30



相關(guān)鏈接:
語(yǔ)音合成——燦爛的前景 巨大的商機(jī) 2002-01-30
語(yǔ)音合成技術(shù)及國(guó)內(nèi)外發(fā)展現(xiàn)狀 2002-01-30
Evoice有聲電子郵件系統(tǒng) 2002-01-30
語(yǔ)音合成系統(tǒng)的關(guān)鍵技術(shù) 2002-01-30
語(yǔ)音合成技術(shù)應(yīng)用實(shí)例 2002-01-30

分類信息:  語(yǔ)音合成TTS_與_語(yǔ)音識(shí)別ASR     技術(shù)_語(yǔ)音合成_文摘   技術(shù)_語(yǔ)音識(shí)別_文摘