亚洲人成免费,国产精品色在线网站,亚洲精品久久久一线二线三线,国产欧美久久久,中文字幕av一区二区三区人,三级国产毛片,美女被麻豆免费网站

 首頁 > 技術(shù) > 技術(shù)文摘 > 擒獲未來:下一代的語音識(shí)別技術(shù)

擒獲未來:下一代的語音識(shí)別技術(shù)

2004-02-17 00:00:00   作者:   來源:   評(píng)論:0 點(diǎn)擊:



  “也許不需要那么長(zhǎng),”美國(guó)喬治亞理工學(xué)院的電子計(jì)算機(jī)工程系教授Fred Juang說,“下一代的語音識(shí)別機(jī)可能在五到十年內(nèi)成為現(xiàn)實(shí)!盝uang教授是語音識(shí)別研究領(lǐng)域的專家,他曾參與自動(dòng)電話接線語音識(shí)別技術(shù)的開發(fā),F(xiàn)在這一技術(shù)已經(jīng)廣泛的用于各行業(yè)。
  他在正在西雅圖召開的美國(guó)科學(xué)促進(jìn)協(xié)會(huì)(AAAS)的年會(huì)上說,為了制造出能夠真正和人自然交流的機(jī)器來,需要對(duì)現(xiàn)在的語音識(shí)別技術(shù)所依賴的理論進(jìn)行根本的改造。
  現(xiàn)在的語音識(shí)別技術(shù)基本上是由機(jī)器對(duì)人的語音進(jìn)行信號(hào)處理,然后將其與預(yù)先設(shè)計(jì)的文字?jǐn)?shù)據(jù)庫進(jìn)行比對(duì),將與收到的語音信號(hào)最相匹配的文字挑選出來,然后按照預(yù)先設(shè)定的一些語法規(guī)則排列,從而實(shí)現(xiàn)從語音到文字的轉(zhuǎn)變。如果得到的文本和人原來表達(dá)的意思相同或相近,那么,我們就可以說,機(jī)器完成了語音識(shí)別。完成這一過程的主要數(shù)學(xué)基礎(chǔ)就是一種叫做隱含馬爾可夫模型的算法。
  研究者們發(fā)現(xiàn),基于這種算法的語音識(shí)別技術(shù)對(duì)于一些簡(jiǎn)單的人機(jī)對(duì)話能夠達(dá)到不錯(cuò)的效果,但對(duì)于達(dá)到自如的相互交談來說還遠(yuǎn)遠(yuǎn)不夠。通常來說,對(duì)于設(shè)定的場(chǎng)景,設(shè)定主題的對(duì)話,語音識(shí)別機(jī)會(huì)有比較好的表現(xiàn)效果。例如,定票服務(wù),電話接駁,聽寫等等。實(shí)際上,語音識(shí)別技術(shù)在這些方面的應(yīng)用已經(jīng)日漸廣泛。特別是隨著移動(dòng)通信的發(fā)展,諸如語音撥號(hào),語音郵件已經(jīng)開始或者將要開始進(jìn)入應(yīng)用領(lǐng)域。但是,困擾語音識(shí)別多年的根本性問題仍然沒有得到解決。華盛頓大學(xué)的瑪麗·奧斯騰多夫說道。一個(gè)重要的方面是,目前的人機(jī)交流仍然出于一種非自然的,非談話的狀態(tài)。“我們會(huì)時(shí)刻注意到,我們是在和機(jī)器,而不是和人在說話,”她說。簡(jiǎn)而言之,你無法期待它完全像人一樣反應(yīng)。一旦你想要和它聊天一樣說話,它就無法應(yīng)對(duì)了。
  人講話中經(jīng)常出現(xiàn)的停頓,重復(fù),發(fā)音不清,“嗯”,“啊”,等等,對(duì)機(jī)器來說無異于一場(chǎng)惡夢(mèng)。再考慮到方言,口音的影響,語音識(shí)別機(jī)的出錯(cuò)率往往讓任何一個(gè)使用者喪失信心。
  另一方面的挑戰(zhàn)是,人講話往往并非在非常安靜的環(huán)境,外界環(huán)境的噪聲,其他人的插話,等等,會(huì)極大影響語音識(shí)別的準(zhǔn)確性。正是由于這種環(huán)境對(duì)聲音的扭曲和人類交談的隨意性的特點(diǎn),使得語音識(shí)別準(zhǔn)確率的提高困難重重。
  科學(xué)家們嘗試了各種辦法,包括設(shè)計(jì)各種新算法,改進(jìn)受話麥克風(fēng)的設(shè)計(jì),以及開發(fā)具有學(xué)習(xí)和糾錯(cuò)能力的識(shí)別機(jī),等等。試驗(yàn)已經(jīng)證明,通過改進(jìn)受話麥克風(fēng)的設(shè)計(jì),可以比較明顯的“過濾”噪音,提高識(shí)別的質(zhì)量。但這還遠(yuǎn)遠(yuǎn)不夠。而開發(fā)具有學(xué)習(xí)和糾錯(cuò)能力的識(shí)別機(jī)還處于起步階段。而另外一種,更加前沿的探索則是,使語音識(shí)別機(jī)具有人類的“常識(shí)”。通過賦予機(jī)器人類語言的語義學(xué)知識(shí),語法知識(shí),模擬人識(shí)別語音的過程,從而企望達(dá)到更好的識(shí)別率和更自然的交流。
  Juang所說的下一代語音識(shí)別機(jī)正是這一前沿探索之一。
  他說,當(dāng)人們?cè)诮徽剷r(shí),往往對(duì)某些指稱的內(nèi)容已經(jīng)有了共識(shí)。例如,如果一群電子工程師在交談時(shí),他們可能會(huì)使用“它”來指代剛剛談到的歐姆定律。但對(duì)機(jī)器來說,卻完全不知道它指稱為何,更不用說理解其真正含義了!叭绻恳淮斡懻摃r(shí)都需要對(duì)其進(jìn)行指定的話,交流就會(huì)變得極其笨拙了!彼f!澳軌蚶斫馍舷挛闹械闹阜Q對(duì)自然語言交流來說是關(guān)鍵的。如果機(jī)器能作到這點(diǎn),就能夠和人自然的交流了。”他設(shè)想一套框架,由一些所謂的“信息探測(cè)器”組成,旨在收集,分析話音中的“意思”,而非簡(jiǎn)單的字詞。這種識(shí)別機(jī)將能夠自己學(xué)習(xí),能夠像人一樣,在沒聽懂時(shí)說:“我沒聽懂”。要求進(jìn)一步說明。
  而要實(shí)現(xiàn)這一設(shè)想,Juang認(rèn)為需要研究新的,超越隱含馬爾可夫模型的算法。而實(shí)際上,包括他在內(nèi)的世界各國(guó)的不少研究者正在這方面努力!拔覀冋幵诎l(fā)展新模式的起步階段,可以說,我們已經(jīng)有了所需框架的百分之六十了。其它的一些問題并不是不可解決,”Juang說。
  也許。
  但剩下的百分四十的部分也許不像看起來的那么簡(jiǎn)單。語音技術(shù)發(fā)展的經(jīng)驗(yàn)似乎表明,每當(dāng)研究者前進(jìn)一步,離最終的目標(biāo)似乎就“似近實(shí)遠(yuǎn)”。我們對(duì)基本問題——例如人的語音識(shí)別過程——的了解越深入,讓我們感到困惑無力的地方似乎也越多。Juang和許多的同行是樂觀派,不過可能也有同樣數(shù)量的其它研究者沒有這么樂觀.“也許,在我們真正了解人自身識(shí)別語言的全部秘密之前,我們只能接受不那么像人的機(jī)器語音識(shí)別。”微軟研究院的阿塞羅說.

新浪科技(tech.sina.com.cn)

相關(guān)閱讀:

分享到: 收藏

專題