亚洲视频在线视频,在线视频免费观看一区

首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識(shí)別(ASR)　　語音識(shí)別產(chǎn)品

語音識(shí)別的發(fā)展現(xiàn)狀

俞鐵城 2005/03/03

語音識(shí)別基礎(chǔ)

　　讓機(jī)器聽懂人類的語音，這是人們長期以來夢(mèng)寐以求的事情。語音識(shí)別是一門交叉學(xué)科，關(guān)系到多學(xué)科的研究領(lǐng)域，不同領(lǐng)域上的研究成果都對(duì)語音識(shí)別的發(fā)展作了貢獻(xiàn)。
語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。

　　計(jì)算機(jī)語音識(shí)別過程與人對(duì)語音識(shí)別處理過程基本上是一致的。目前主流的語音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。一個(gè)完整的語音識(shí)別系統(tǒng)可大致分為三部分：

　�。�1）語音特征提取：目的是從語音波形中提取隨時(shí)間變化的語音特征序列。

　　（2）聲學(xué)模型與模式匹配（識(shí)別算法）：聲學(xué)模型是識(shí)別系統(tǒng)的底層模型，并且是語音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型通常由獲取的語音特征通過訓(xùn)練產(chǎn)生，目的是為每個(gè)發(fā)音建立發(fā)音模板。在識(shí)別時(shí)將未知的語音特征同聲學(xué)模型（模式）進(jìn)行匹配與比較，計(jì)算未知語音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大小（字發(fā)音模型、半音節(jié)模型或音素模型）對(duì)語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率，以及靈活性有較大影響。

　�。�3）語義理解：計(jì)算機(jī)對(duì)識(shí)別結(jié)果進(jìn)行語法、語義分析。明白語言的意義以便作出相應(yīng)的反應(yīng)。通常是通過語言模型來實(shí)現(xiàn)。

語音識(shí)別技術(shù)的應(yīng)用

　　語音識(shí)別過程實(shí)際上是一種認(rèn)識(shí)過程。就像人們聽語音時(shí)，并不把語音和語言的語法結(jié)構(gòu)、語義結(jié)構(gòu)分開來，因?yàn)楫?dāng)語音發(fā)音模糊時(shí)人們可以用這些知識(shí)來指導(dǎo)對(duì)語言的理解過程。對(duì)機(jī)器來說，識(shí)別系統(tǒng)也要利用這些方面的知識(shí)，只是鑒于語音信號(hào)的多變性、動(dòng)態(tài)性、瞬時(shí)性，語音識(shí)別技術(shù)與人類的大腦還有一定的差距。因此在語言識(shí)別技術(shù)選擇，其應(yīng)用模式和系統(tǒng)開發(fā)上，都需要專業(yè)的設(shè)計(jì)和調(diào)試，以實(shí)現(xiàn)最好的應(yīng)用效果。

　　1996年9月，Charles Schwab開通了首個(gè)大規(guī)模商用語音識(shí)別應(yīng)用系統(tǒng)：股票報(bào)價(jià)系統(tǒng)。該系統(tǒng)有效地提高了服務(wù)質(zhì)量和客戶滿意度，并減少了呼叫中心的費(fèi)用。不久，Schwab又開通了語音股票交易系統(tǒng)。

　　美國主要電信運(yùn)營商Sprint的PCS部門以卓越和有創(chuàng)新的客戶服務(wù)著稱。自2000年來為客戶開通了語音驅(qū)動(dòng)系統(tǒng)，提供客戶服務(wù)、語音撥號(hào)、查號(hào)和更改地址等業(yè)務(wù)。2001年9月開通的可以自然方式對(duì)話的咨詢系統(tǒng)，更實(shí)現(xiàn)了以自然、開放的詢問方式實(shí)時(shí)獲得所需要的信息。

　　Bell Canada，加拿大最大的電信運(yùn)營商，也擁有多個(gè)語音驅(qū)動(dòng)系統(tǒng)，提供從客戶服務(wù)，增值業(yè)務(wù)和資訊服務(wù)多種功能。這些系統(tǒng)不但減少了用戶的投訴，也為無線網(wǎng)絡(luò)服務(wù)增值，增強(qiáng)了客戶的忠誠度并開辟了新的收入來源。

　　仔細(xì)分析這些案例不難發(fā)現(xiàn)，一個(gè)成功的語音應(yīng)用首先是基于詳細(xì)準(zhǔn)確的用戶需求調(diào)查。只有詳細(xì)了解客戶需求，才能根據(jù)需要選用不同類型的產(chǎn)品。目前市場上的語音識(shí)別產(chǎn)品基本可分為：

　　特定人/非特定人：是按照聲學(xué)模型建立的方式來劃分。特定人識(shí)別的聲學(xué)模型是針對(duì)某一特定用戶訓(xùn)練的。一般來說用戶需要先訓(xùn)練系統(tǒng)，然后才能識(shí)別該用戶的發(fā)音。而非特定人識(shí)別的聲學(xué)模型是針對(duì)某一種特定的語言來訓(xùn)練的，發(fā)音人不需要訓(xùn)練既可使用。雖然在建立模型時(shí)需要大量的語料，對(duì)用戶來說卻提供了更大方便，他們甚至不需要了解該過程。

　　嵌入式/服務(wù)器模式：嵌入式是將語言識(shí)別軟件及模型，寫在設(shè)備(如手機(jī))的存儲(chǔ)器里，識(shí)別過程在終端完成。在服務(wù)器模式，終端只負(fù)責(zé)收集和傳導(dǎo)語音信號(hào)，由服務(wù)器負(fù)責(zé)完成識(shí)別。因此，對(duì)于大規(guī)模，多用戶和有大量識(shí)別需求的系統(tǒng)，服務(wù)器模式提供了有效的方式。

　　目前運(yùn)營商和企業(yè)用戶的需求多數(shù)適合采用非特定人服務(wù)器模式的服務(wù)。例如上面提到的Charles Schwab，SprintPCS和Bell Canada都選用了Nuance Communications提供的語音識(shí)別軟件。加之專業(yè)的系統(tǒng)集成方案及Nuance技術(shù)服務(wù)所提供的良好的語音用戶界面設(shè)計(jì)和后期優(yōu)化，使得應(yīng)用系統(tǒng)獲得了很高的客戶滿意度。在很多方面超過了接線員。

語音識(shí)別應(yīng)用系統(tǒng)的相關(guān)技術(shù)

　　在語音識(shí)別應(yīng)用領(lǐng)域，有許多相關(guān)技術(shù)直接影響著客戶的最終體驗(yàn)并關(guān)系到應(yīng)用系統(tǒng)的使用效果，也就是自動(dòng)化率（automation rate），即系統(tǒng)毋須人工干預(yù)獨(dú)自完成的比例。例如端點(diǎn)檢測(cè)及相關(guān)問題，噪音環(huán)境下的語音處理，系統(tǒng)結(jié)構(gòu)，對(duì)口音的適應(yīng)性及語音界面的設(shè)計(jì)，都是語音識(shí)別整體應(yīng)用系統(tǒng)需要考慮的。在本系列隨后文章中，將分別為就這些問題作一些介紹。后面稿件，我們會(huì)圍繞語音識(shí)別應(yīng)用涉及的相關(guān)技術(shù)進(jìn)行介紹。

通訊世界(www.tele.com.cn)

相關(guān)鏈接:

聽話要聽音—情感語音處理技術(shù) 2005-02-04

"得意"口語對(duì)話系統(tǒng)開發(fā)包與"得意"智能互動(dòng)信息服務(wù) 2004-11-25

"得意"聲紋識(shí)別技術(shù)常見問題解答 2004-11-25

語音技術(shù)應(yīng)用的現(xiàn)狀和未來 2004-09-30

“得意”聲紋加密鑰匙常見問題解答 2004-08-31

分類信息: 文摘技術(shù)_語音識(shí)別_文摘