重慶巨佳科技語音網(wǎng)關(VoiceGateway)
2005/08/25
VoiceGateway是TTS與ASR的集成產(chǎn)品,完成TTS、ASR的集成與功能擴展,系統(tǒng)的TTS核心可以支持多個廠家的產(chǎn)品,包括清華、科大、IBM、捷通等廠商的產(chǎn)品。ASR可以采用InfoTalk、Nuance、IBM的產(chǎn)品。VoiceGateway最主要的功能是完成TTS與ASR的集成,將底層變化封裝,不管采用那一家的的TTS與ASR產(chǎn)品,都與IVR服務器(VoxServer)無關。其次,VoiceGateway可以多機運行,支持負載均衡控制,可以把TTS,ASR的處理能力提高到成百上千線。各種不同的TTS產(chǎn)生的Voice編碼文件還可能由VoiceGateway統(tǒng)一處理、重要編碼,然后送到IVR服務器。
語音合成網(wǎng)關
語音合成網(wǎng)關是新一代的語音處理中間系統(tǒng)。其核心技術TTS(Text to Speech)系統(tǒng)采用了國內(nèi)外最新的第二代文語轉(zhuǎn)換技術,支持多語言的語音合成,音速、音質(zhì)及韻律均可靈活調(diào)整,合成質(zhì)量貼近自然話務播音員。
系統(tǒng)接收其他系統(tǒng)模塊(如IVR系統(tǒng))的文字信息,通過TTS合成對應的語音文件,然后傳送到相應的系統(tǒng)模塊。
系統(tǒng)可以與其他網(wǎng)關進行接口,成為系統(tǒng)中的中間件模塊。
系統(tǒng)支持內(nèi)建排隊功能,支持多模塊調(diào)用。
系統(tǒng)采用中心控制管理,可以擴展到多臺主機運行,支持負載平衡技術。
語音合成網(wǎng)關將TTS包裝成一個開放的系統(tǒng)功能模塊,用戶不需要了解TTS的具體技術細節(jié),通過語音網(wǎng)關提供的開發(fā)工具就可以在自己的程序里實現(xiàn)TTS的功能。語音網(wǎng)關支持多種平臺,底層通信建立在TCP/IP協(xié)議上,可以運行在復雜的網(wǎng)絡環(huán)境中。
可擴展性:語音合成網(wǎng)關可以運行在任意一臺主機上,單主機支持32個并發(fā)請求,通過系統(tǒng)的負載平衡控制,可以在網(wǎng)絡中加入任意數(shù)量的語音網(wǎng)關系統(tǒng),通過主系統(tǒng)中的中央調(diào)度模塊,可以根據(jù)當前各網(wǎng)關的工作量,把數(shù)據(jù)處理分配到最佳的語音網(wǎng)關中處理。通過這種系統(tǒng)模式,理論上可以支持任意數(shù)量的系統(tǒng)擴展,甚至可以將語音網(wǎng)關擴展到Internet的任意地方。
移植性:語音合成網(wǎng)關可以運行在多種系統(tǒng)環(huán)境,包括Windows NT/2000、Linux、SCO OpenServer、及Solaris,可以根據(jù)用戶需求選用。
實用性:實際開發(fā)過程中,可以采用語音網(wǎng)關的軟件開發(fā)包(SDK),也可以采用TCP/IP數(shù)據(jù)包方式調(diào)用系統(tǒng)功能。
高可靠性:
采用多種容錯機制,具有自動恢復功能。
結(jié)構(gòu)說明:
在系統(tǒng)應用中,語音網(wǎng)關與其他應用程序處在一個網(wǎng)絡中。
其他應用程序可以是IVR(交互式語音應答系統(tǒng))、Email網(wǎng)關,以及其他的各種應用程序。只要采用語音網(wǎng)關的SDK(應用程序開發(fā)包)或者符合語音網(wǎng)關底層的SOCKET通信協(xié)議,都可以向網(wǎng)關發(fā)送中英文語音合成請求。
對于任意一個應用程序,當需要語音合成時,只要把文字信息發(fā)送到語音網(wǎng)關,語音網(wǎng)關就可以將合成后的語音信息發(fā)送回相應的應用程序。在負載平衡的系統(tǒng)中,有時主語音網(wǎng)關需要將合成的數(shù)據(jù)發(fā)送到其他網(wǎng)關進行處理,但對于應用程序而言,不需要知道其中的處理細節(jié),主語音網(wǎng)關會進行相應的控制,當從語音網(wǎng)關把數(shù)據(jù)處理完成后,會直接把合成的語音數(shù)據(jù)發(fā)送回相應的應用程序。
語音識別網(wǎng)關
語音識別正逐步成為信息技術中人機接口的關鍵技術,語音識別技術與語音合成技術結(jié)合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術的應用已經(jīng)成為一個具有競爭性的新興高技術產(chǎn)業(yè)。
識別網(wǎng)關系統(tǒng)集成了中科院自動化所的語音識別引擎,支持非特定人語音,采用有限詞匯模式,識別率高達98%以上,達到國內(nèi)外領先的技術水平。
ASR支持自己定義的語法規(guī)則,語音識別所需要用到的語法規(guī)則,遵循ABNF范式(Augmented BNF),兼容W3C語法定義。
語音識別網(wǎng)關系統(tǒng)把ASR進行封裝處理,以網(wǎng)關中間件的方式把功能開放給其他服務系統(tǒng)。封裝后的網(wǎng)關系統(tǒng)簡化了ASR系統(tǒng)的應用,并對CTI系統(tǒng)做了大量工作,如語音編碼處理,語音分析處理。
語音識別網(wǎng)關采用合成網(wǎng)關相同的結(jié)構(gòu),所有在很多特性上與合成網(wǎng)關相似:
系統(tǒng)支持內(nèi)建排隊功能,支持多模塊調(diào)用。
系統(tǒng)采用中心控制管理,可以擴展到多臺主機運行,支持負載平衡技術。
系統(tǒng)支持多種平臺,底層通信建立在TCP/IP協(xié)議上,可以運行在復雜的網(wǎng)絡環(huán)境中。
可擴展性:語音合成網(wǎng)關可以運行在任意一臺主機上,單主機支持32個并發(fā)請求,通過系統(tǒng)的負載平衡控制,可以在網(wǎng)絡中加入任意數(shù)量的語音網(wǎng)關系統(tǒng),通過主系統(tǒng)中的中央調(diào)度模塊,可以根據(jù)當前各網(wǎng)關的工作量,把數(shù)據(jù)處理分配到最佳的語音網(wǎng)關中處理。通過這種系統(tǒng)模式,理論上可以支持任意數(shù)量的系統(tǒng)擴展,甚至可以將語音網(wǎng)關擴展到Internet的任意地方。
移植性:語音合成網(wǎng)關可以運行在多種系統(tǒng)環(huán)境,包括Windows NT/2000、Linux、SCO OpenServer、及Solaris,可以根據(jù)用戶需求選用。
實用性:實際開發(fā)過程中,可以采用語音網(wǎng)關的軟件開發(fā)包(SDK),也可以采用TCP/IP數(shù)據(jù)包方式調(diào)用系統(tǒng)功能。
高可靠性:采用多種容錯機制,具有自動恢復功能。
重慶巨佳公司供稿 CTI論壇編輯
相關鏈接: