首頁>>廠商>>語音識(shí)別與合成>>中科模識(shí)

Pattek語音識(shí)別產(chǎn)品:找一條走得通的路

2002/08/08

長期以來,我國很多基礎(chǔ)性的技術(shù)研究都靠國家投資在支撐著。這些項(xiàng)目如何更快地走出實(shí)驗(yàn)室?guī)砩鐣?huì)和經(jīng)濟(jì)效益將對其能否更快地發(fā)展具有重要意義。語音識(shí)別技術(shù)的研發(fā)面臨著同樣的問題,中科院自動(dòng)化所在如何能更快地帶來回報(bào),獲得社會(huì)資源的支持方面選擇了一條捷徑,其Pattek語音識(shí)別產(chǎn)品由此誕生……

當(dāng)我們發(fā)現(xiàn)一條路因施工而很難走,甚至無法通行時(shí),我們面臨著兩種選擇:按原計(jì)劃繼續(xù)走,而不管前路是否通暢,或是退回去找一條能夠繞過施工地段的路。這種選擇對語音識(shí)別技術(shù)也同樣存在。

艱難語音路

1997年9月,IBM在國內(nèi)發(fā)布了一款語音識(shí)別產(chǎn)品——ViaVoice,這款產(chǎn)品的到來令整個(gè)計(jì)算機(jī)行業(yè)為之沸騰,厭倦了鍵盤輸入的人們看到了一線希望。但是,5年時(shí)間過去了,我們幾乎看不到有人用語音來輸入文字,可以說,用語音聽寫的思路在過去這個(gè)時(shí)段的市場上敗得一塌糊涂。

ViaVoice的每一步都吸引著每一個(gè)關(guān)注語音識(shí)別技術(shù)和產(chǎn)品的人的密切關(guān)注。它在市場上遭受的挫折同樣引人注目。于是,有人便開始思考:語音識(shí)別技術(shù)在聽寫方面的應(yīng)用是否已經(jīng)成熟?語音識(shí)別技術(shù)的應(yīng)用是否非得定位于聽寫應(yīng)用?

從ViaVoice的字面意義看,這是一條“語音通道”,但I(xiàn)BM已經(jīng)在這條語音通道里走了40年的時(shí)間,早在20世紀(jì)60年代初,IBM及其他一些力圖在語音識(shí)別領(lǐng)域有所作為的大型企業(yè)就開始了語音識(shí)別技術(shù)的研究。40年的努力讓計(jì)算機(jī)從“稀世珍寶”變成了普通百性的必備之物,卻沒有讓語音識(shí)別技術(shù)走入人們的視野。于是,有人說:“語音識(shí)別技術(shù)從目前來看,食之無味,棄之可惜。”

“從目前的技術(shù)水平來看,語音識(shí)別技術(shù)要滿足聽寫應(yīng)用的需要的確還有困難,但語音識(shí)別技術(shù)的應(yīng)用不僅僅在聽寫,其他一些方面的應(yīng)用要求相對較低一些。因此,在某些領(lǐng)域的應(yīng)用,語音識(shí)別技術(shù)已經(jīng)可以實(shí)現(xiàn)具有應(yīng)用價(jià)值的產(chǎn)品!痹谡Z音識(shí)別領(lǐng)域工作了14年的徐波提出他的看法。

這種思路直接影響了中科院自動(dòng)化所Pattek語音識(shí)別產(chǎn)品的出臺(tái)。

今年6月底,中科院自動(dòng)化所在北京發(fā)布了四款語音識(shí)別產(chǎn)品,這些產(chǎn)品的出臺(tái)既是研發(fā)人員10多年努力的結(jié)晶,同時(shí)標(biāo)志著國內(nèi)語音技術(shù)發(fā)展完全依靠國家投資的狀況將有所改變。

路漫漫其修遠(yuǎn)

1987年,中科院自動(dòng)化所模式識(shí)別實(shí)驗(yàn)室在國家領(lǐng)導(dǎo)的關(guān)心下成立。其后,有關(guān)語音識(shí)別技術(shù)的研究工作隨即展開。這與世界語音識(shí)別技術(shù)研究的發(fā)展進(jìn)程相比已經(jīng)晚了20多年!皠倓偝闪r(shí)的語音識(shí)別技術(shù)研究項(xiàng)目組僅有3個(gè)成員,當(dāng)時(shí)我們開展的研究主要在于針對特定人的單音節(jié)語音識(shí)別!毙觳ㄔ诨貞浤嵌窝芯抗ぷ鲿r(shí)說,“我們都看不懂國外的論文資料,因?yàn)樗麄兊难芯吭缫艳D(zhuǎn)移到連續(xù)語音的識(shí)別上了(國外連續(xù)語音識(shí)別技術(shù)的研究工作在20世紀(jì)70年代就已經(jīng)開始)。”從這個(gè)小小的細(xì)節(jié),我們可以感受到技術(shù)研究的差距。

盡管如此,課仍需一節(jié)一節(jié)地補(bǔ)。語音識(shí)別項(xiàng)目組在1990年時(shí)建立了一個(gè)特定人的單字語音識(shí)別系統(tǒng)。當(dāng)時(shí)就有企業(yè)想把這一系統(tǒng)產(chǎn)品化,但從事后的結(jié)果來看,市場上并沒有看到相應(yīng)的產(chǎn)品。這個(gè)時(shí)期的技術(shù)離產(chǎn)品化尚有相當(dāng)長的距離。

補(bǔ)完了特定人、單音節(jié)語音識(shí)別的課,項(xiàng)目組迅速進(jìn)入到了下一個(gè)階段的研究工作中。1991年,項(xiàng)目組開始了連續(xù)語音的非特定人識(shí)別技術(shù)研究。這時(shí),項(xiàng)目組與國際上的語音識(shí)別技術(shù)研究距離開始縮短。經(jīng)過一年的努力,項(xiàng)目組拿出了一個(gè)小詞表的連續(xù)語音特定人識(shí)別系統(tǒng)。這個(gè)系統(tǒng)擁有2000個(gè)語音識(shí)別詞匯,它在一些特定領(lǐng)域的應(yīng)用開始成為可能。他們將這一技術(shù)應(yīng)用在了中關(guān)村公交路線的查詢系統(tǒng)上。

從非連續(xù)語音到連續(xù)語音的研究面臨著很多完全不同的技術(shù)難點(diǎn),非連續(xù)語音的識(shí)別是一些孤立的聲波片段,但連續(xù)語音則面臨著如何切分聲波的問題。諸如此類的新問題使連續(xù)語音識(shí)別率的提高比非連續(xù)語音更加困難。

另外,由于實(shí)際應(yīng)用中的語音識(shí)別應(yīng)該是面對非特定人的——作為一種語音識(shí)別產(chǎn)品,它可能面對各種各樣的人。這些人可能來自北京、上海、廣東、四川、新疆等全國各個(gè)角落,他們的口音存在著很大的差別,要很好地“聽”懂這些有著巨大差別的語音,識(shí)別技術(shù)就必須相當(dāng)?shù)亍奥斆鳌。在ViaVoice產(chǎn)品中,IBM為其加入了“學(xué)習(xí)”功能來解決這一問題,即根椐具體使用者的口音對語音模板進(jìn)行修正。但這種方式下使用者因?yàn)楦忻盎蚱渌蛴绊懓l(fā)音都將使識(shí)別率發(fā)生大幅度波動(dòng)。

為了獲得具有更強(qiáng)適應(yīng)性的語音模板,自動(dòng)化所通過合作的方式在全國各地建立了7個(gè)采樣點(diǎn),收集全國各地不同口音的樣板,用于修正語音模板。這樣的采集工作已經(jīng)持續(xù)了10年之久。據(jù)徐波介紹,迄今為止,他們已經(jīng)擁有了4000個(gè)人的語音樣本,這些樣本更加準(zhǔn)確地反映了各地不同口音的發(fā)音特點(diǎn)。

隨著研究的深入,工作的復(fù)雜度也逐漸提升。1995年,項(xiàng)目組拿出了一個(gè)非特定人的大詞匯量語音識(shí)別系統(tǒng)。這一系統(tǒng)能處理4.6萬以上的字詞,但它是非連續(xù)的孤立詞的識(shí)別。就像鍵盤輸入一樣,我們可以輸入系統(tǒng)內(nèi)含的單字或詞語,但用戶無法連續(xù)地整句輸入。

有了以上一些研究工作的基礎(chǔ),項(xiàng)目組于1996年開始著手全力攻克集語音識(shí)別三大難點(diǎn)于一身的非特定人大詞匯量連續(xù)語音識(shí)別。也就在這一工作展開一年后,IBM推出了ViaVoice產(chǎn)品。ViaVoice的推出不僅給研究組很大的震動(dòng),也讓他們看到了語音識(shí)別技術(shù)真正推向市場,成為一種普及技術(shù)的曙光。

ViaVoice像有人在黎明前劃亮的一根火柴,它讓很多人以為是曙光已經(jīng)來臨,但這根火柴很快熄滅了。于是,有人開始悲觀,但也有人發(fā)現(xiàn)真正的曙光正在東方顯露出來。

期待曙光



“2000年的時(shí)候,我們非常圓滿地解決了在大詞匯量非特定人的連續(xù)語音識(shí)別中遇到的關(guān)鍵問題。我們在此基礎(chǔ)上發(fā)表的論文在中文口語信息處理國際會(huì)議中榮獲了一等獎(jiǎng),這一技術(shù)在同等條件下已經(jīng)優(yōu)于國外一些著名研究機(jī)構(gòu)公開發(fā)表的準(zhǔn)確率!毙觳▽@一成果相當(dāng)?shù)貪M意。與此同時(shí),他們的語音識(shí)別技術(shù)更多地把上下文相關(guān)等語義分析技術(shù)加入到了其中。正如我們聽別人說話一樣,我們聽懂的不是字詞,而是整句話的語義,以至于我們常常理解了語義卻并不記得原話。因此,一句話中每個(gè)字詞的識(shí)別與上下文密切相關(guān)。

雖然技術(shù)已經(jīng)有了大幅度地突破,而且計(jì)算機(jī)的處理能力也已經(jīng)今非昔比,但“真正實(shí)用的聽寫應(yīng)用仍是個(gè)瓶頸”。徐波對語音識(shí)別技術(shù)的應(yīng)用有他自己的看法。

聽寫應(yīng)用不夠成熟并不意味著語音識(shí)別技術(shù)的產(chǎn)品化就應(yīng)該等待技術(shù)的成熟。徐波提出了目前可行的語音識(shí)別技術(shù)應(yīng)用方向。“我們覺得目前的語音識(shí)別技術(shù)最主要的應(yīng)用不在于PC上,而在移動(dòng)通信設(shè)備和嵌入式產(chǎn)品中!痹谶@種思路的指導(dǎo)下,自動(dòng)化所開始了技術(shù)的產(chǎn)品化嘗試。他們在中文大詞匯量、非特定人、連續(xù)語音識(shí)別技術(shù)的基礎(chǔ)上開始了三個(gè)方向的產(chǎn)品化工作。PC應(yīng)用、嵌入式應(yīng)用、移動(dòng)通信和網(wǎng)絡(luò)應(yīng)用。

但是,一直以技術(shù)研究為核心能力的研究所在面對市場時(shí)將面臨很多的問題。畢竟,長期以來我國基礎(chǔ)研究與市場化運(yùn)作的嚴(yán)重脫節(jié)難以在短時(shí)間內(nèi)得到連接。而即便是一項(xiàng)成熟的技術(shù),它要在市場上獲得成功也仍有很長的路需要走。因此,自動(dòng)化所的語音識(shí)別技術(shù)想在市場上獲得期望的效果就必然要有更廣泛的社會(huì)力量的支持。

為此,自動(dòng)化所一方面成立了下屬公司,對比較成熟的技術(shù)進(jìn)行市場化運(yùn)作;另一方面,他們與國內(nèi)外眾多的企業(yè)開展了技術(shù)合作。通過與社會(huì)資源的聯(lián)合,自動(dòng)化所終于在6月底推出了基本成型的語音識(shí)別產(chǎn)品。正如自動(dòng)化所所長譚鐵牛在會(huì)議上所說的:“這是一件大事,中國人的聲音必須由中國人掌握。”它不僅僅標(biāo)志著自動(dòng)化所在語音識(shí)別領(lǐng)域10多年的努力開始有了成果,更重要的是它趟出了一條從國家支持的技術(shù)研究項(xiàng)目走向市場的道路。

語音識(shí)別技術(shù)能夠走出實(shí)驗(yàn)室,及時(shí)地進(jìn)行產(chǎn)品化,其中很重要的一點(diǎn)在于如何把研究所的技術(shù)研究能力、企業(yè)的產(chǎn)品化和市場化能力結(jié)合起來。自動(dòng)化所的嘗試填補(bǔ)了研究與市場之間的鴻溝。

合作出產(chǎn)品

6月27日,眾多的新聞媒體和IT業(yè)人士把北京大運(yùn)村天鴻科園大酒店的鴻運(yùn)廳擠得水泄不通。自動(dòng)化所的四款語音識(shí)別產(chǎn)品在這里發(fā)布引起了廣泛的關(guān)注。這四款產(chǎn)品包括三款語音識(shí)別SDK(軟件開發(fā)包)和一款DSP語音識(shí)別板卡。這些產(chǎn)品都還不是可以直接拿到市場上賣的終端產(chǎn)品,但它將通過與大量的產(chǎn)品開發(fā)商合作最終實(shí)現(xiàn)這些產(chǎn)品的巨大價(jià)值。如DSP可以被電器廠商加入到它們的電器中,使電器能夠接收主人用語言下的指令。

把它用在電視中,用戶就可以直接告訴它開機(jī)、關(guān)機(jī)或切換頻道。

三款SDK產(chǎn)品中,分別面向通信/網(wǎng)絡(luò)、嵌入式系統(tǒng)和PC環(huán)境。它們可以讓手機(jī)、掌上電腦、PC軟件開發(fā)商輕易地在相應(yīng)的設(shè)備中加入語音控制功能。

“2000年下半年,我們開始考慮語音識(shí)別的應(yīng)用問題,最初的考慮是把語音識(shí)別技術(shù)做成SDK,通過許可證的方式讓各軟件開發(fā)商使用。”也就在這個(gè)時(shí)候,自動(dòng)化所下屬的北京中科模識(shí)科技有限公司(簡稱模識(shí)科技)成立了。“我們的想法是把一些可以在半年左右推向市場的技術(shù)通過模識(shí)科技的市場化運(yùn)作,把它推出去!毙觳ǖ南敕ê苤苯樱埠軇(wù)實(shí)。

此后,模識(shí)科技與市場上的其他企業(yè)也展開了一系列的合作,如針對具有語音識(shí)別能力的XML平臺(tái)的開發(fā),自動(dòng)化所就與中文之星及Intel展開了全面的合作。它們?nèi)咧校WR(shí)科技負(fù)責(zé)語音識(shí)別引擎的開發(fā),中文之星負(fù)責(zé)XML平臺(tái)級的軟件開發(fā),而Intel負(fù)責(zé)架構(gòu)的設(shè)計(jì)和應(yīng)用市場的支持。這種合作為產(chǎn)品的順利出臺(tái)鋪平了道路。

2001年,自動(dòng)化所開始考慮開發(fā)一種獨(dú)立于軟件平臺(tái)的硬件語音識(shí)別產(chǎn)品。它們通過與上海廣電信息股份有限公司和粵TCL聯(lián)合開發(fā)完成了語音遙控器。它將使人們可以用語音來控制家用電器!跋乱徊轿覀儗袲SP板卡做成語音識(shí)別芯片,這樣一方面可以降低成本,另一方面也將促進(jìn)語音識(shí)別技術(shù)的大規(guī)模應(yīng)用!毙觳ǖ脑捯衾锿嘎冻隹吹较M麜r(shí)的興奮,“語音識(shí)別技術(shù)是一種基礎(chǔ)性技術(shù),它現(xiàn)在也是一種戰(zhàn)略性技術(shù)。未來的各種隨身設(shè)備都將允許人們用語音來控制和操作,它不僅僅是在PC的輸入方法中一種‘錦上添花’的技術(shù),而是不可或缺的技術(shù)!毙觳ǘ啻螐(qiáng)調(diào)信息設(shè)備的多模態(tài)交互能力,在他的心目中,人們在使用設(shè)備時(shí)往往希望借助畫面、聲音、手寫、鍵盤等多種方式,以便人們更方便地使用它。

對自動(dòng)化所來說,這僅僅是一個(gè)開頭,它的語音識(shí)別技術(shù)還有很多的應(yīng)用領(lǐng)域,而這些領(lǐng)域的應(yīng)用要求它更加廣泛地開展合作。事實(shí)也正是如此,模識(shí)科技與更多企業(yè)在不同領(lǐng)域的合作也正在商洽之中。也許,這是一條走得通的路。

產(chǎn)品檔案

Pattek語音識(shí)別產(chǎn)品

Pattek是今年6月底中科院自動(dòng)化所推出的語音識(shí)別產(chǎn)品,它包括了Pattek ASR/C2.0、Pattek ASR/T2.0、Pattek ASR/P2.0和Pattek DSP/A1.3四款產(chǎn)品。其中Pattek ASR/C2.0是面向計(jì)算資源要求較為苛刻的嵌入式系統(tǒng)的SDK,Pattek ASR/T2.0是面向通信和網(wǎng)絡(luò)應(yīng)用的SDK,Pattek ASR/P2.0是面向PC平臺(tái)的SDK,Pattek DSP/A1.3則是面向嵌入式環(huán)境的硬件語音識(shí)別板卡。

這些產(chǎn)品的特點(diǎn)在于識(shí)別率高,對環(huán)境噪聲和口音有很強(qiáng)的適應(yīng)能力。其中,面向嵌入式系統(tǒng)的Pattek ASR/C2.0對系統(tǒng)要求很低,它對內(nèi)存資源的占用小于1MB,能運(yùn)行于所有基于Windows CE操作系統(tǒng)的嵌入式產(chǎn)品中。Pattek ASR/T2.0可以支持多服務(wù)器和分布式語音識(shí)別應(yīng)用,單個(gè)服務(wù)器CPU可以同時(shí)處理16路語音輸入,它將主要應(yīng)用于各種行業(yè)的呼叫中心,代替一些人工服務(wù)。面向PC環(huán)境的Pattek ASR/P2.0可以應(yīng)用于基于PC的各種應(yīng)用,如語音玩具、語音教學(xué)、語音多媒體信息查詢等。Pattek DSP/A1.3可以獨(dú)立地嵌入到不同設(shè)備和系統(tǒng)中,提供完整的嵌入式語音識(shí)別解決方案。

計(jì)算機(jī)世界(www.ccw.com.cn)


相關(guān)鏈接:
愛可信與模識(shí)科技攜手 推動(dòng)語音識(shí)別技術(shù)應(yīng)用 2006-08-02
模識(shí)科技推出跨平臺(tái) "天語"語音識(shí)別引擎 3.0 2003-03-24
新一代智能語音總機(jī)PATTEK VoiceSwitch 2.0 2002-08-29
電話撥號(hào)不按鍵 中文語音識(shí)別技術(shù)大突破 2002-07-20
中文語音識(shí)別技術(shù)取得突破 2002-06-28

分類信息:     文摘   技術(shù)_語音識(shí)別_文摘