亚洲人成免费,国产精品色在线网站,亚洲精品久久久一线二线三线,国产欧美久久久,中文字幕av一区二区三区人,三级国产毛片,美女被麻豆免费网站

您當(dāng)前的位置是:  首頁(yè) > 資訊 > 國(guó)際 >
 首頁(yè) > 資訊 > 國(guó)際 >

亞馬遜Alexa再出黑科技:推出新語(yǔ)音識(shí)別系統(tǒng)能使準(zhǔn)確率提升9.5%

2019-04-03 14:08:40   作者:吳宇    來(lái)源:語(yǔ)音雜談微信公眾號(hào)   評(píng)論:0  點(diǎn)擊:


 
  亞馬遜Alexa部門(mén)的研究人員最近發(fā)布了兩篇關(guān)于語(yǔ)音識(shí)別的論文,遠(yuǎn)程語(yǔ)音識(shí)別的頻域多聲道聲學(xué)模型和遠(yuǎn)程語(yǔ)音識(shí)別的多幾何空間聲學(xué)模型,(這兩篇論文將于下月在布萊頓舉行的第44屆ICASSP國(guó)際聲學(xué)、語(yǔ)音與信號(hào)處理會(huì)議上發(fā)表)。論文中他們提出了一種新的聲學(xué)建?蚣埽ㄟ^(guò)優(yōu)化語(yǔ)音增強(qiáng)和語(yǔ)音識(shí)別并統(tǒng)一其優(yōu)化過(guò)程,從而達(dá)到提高性能的目的。在實(shí)驗(yàn)中,當(dāng)使用新模型的雙麥克風(fēng)系統(tǒng)相對(duì)于使用現(xiàn)有波束成形技術(shù)的七麥克風(fēng)系統(tǒng),語(yǔ)音識(shí)別誤差率降低了9.5%。
  多麥克風(fēng)陣列的優(yōu)劣勢(shì)
  據(jù)悉目前通過(guò)多麥克風(fēng)陣列提高語(yǔ)音識(shí)別準(zhǔn)確率已然流行許久。這也是目前最行之有效的一個(gè)方式,但是有利就有弊,傳統(tǒng)的多麥克風(fēng)陣列僅解決語(yǔ)音增強(qiáng)問(wèn)題,或者將語(yǔ)音與噪聲分離。而語(yǔ)音識(shí)別這個(gè)問(wèn)題則被單拎出來(lái)獨(dú)立解決。相關(guān)實(shí)驗(yàn)結(jié)果表明,這種方法所取得的效果并不太好。
  亞馬遜研究人員開(kāi)發(fā)新聲學(xué)模型框架
  此次亞馬遜的研究人員開(kāi)發(fā)的新聲學(xué)模型框架,有望改寫(xiě)這一現(xiàn)狀,他們?cè)谡撐闹忻枋隽艘环N多傳聲器方法,它取代了確定波束形成器(在傳感器輸出上操作的空間濾波器,以增強(qiáng)波的振幅)方向和用單個(gè)神經(jīng)網(wǎng)絡(luò)識(shí)別語(yǔ)音信號(hào)的單獨(dú)的手工編碼算法。亞馬遜目前的回聲揚(yáng)聲器系列可以動(dòng)態(tài)調(diào)整波束形成器以適應(yīng)新的聲學(xué)環(huán)境。但是,通過(guò)在不同環(huán)境下的大型語(yǔ)料庫(kù)上訓(xùn)練單個(gè)模型,研究人員能夠去掉適應(yīng)步驟。
  傳統(tǒng)技術(shù)旨在將單個(gè)[聲束]轉(zhuǎn)向任意方向,但這是一種計(jì)算密集型的方法,”Alexa語(yǔ)音小組的語(yǔ)音科學(xué)家Kenichi Kumatani在一篇博客文章中解釋道。“使用Echo智能揚(yáng)聲器,我們將多個(gè)波束形成器指向不同的方向,并確定產(chǎn)生最清晰語(yǔ)音信號(hào)的波束形成器……這就是為什么Alexa可以理解您的天氣預(yù)報(bào)請(qǐng)求,即使電視噪音就在離你很近的地方。”
  單神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)模型都將波束形成器的輸出以對(duì)數(shù)濾波器組能量的形式傳遞給特征提取器,或者以多個(gè)不規(guī)則頻段的信號(hào)能量快照進(jìn)行傳遞。在傳統(tǒng)模型中,它們根據(jù)背景噪聲的估算進(jìn)行歸一化,抽取器的輸出被傳遞給一個(gè)人工智能系統(tǒng),該系統(tǒng)用于計(jì)算不同語(yǔ)音信息的短單位相對(duì)應(yīng)的特征。
  根據(jù)論文作者的觀(guān)點(diǎn),如果模型的每個(gè)組件(例如,特征抽取器和波束形成器)分別初始化,性能就會(huì)提高。他們補(bǔ)充說(shuō),不同的培訓(xùn)數(shù)據(jù)使模型能夠處理不同設(shè)備類(lèi)型的麥克風(fēng)配置范圍。
  Kumatani說(shuō):“除其他優(yōu)點(diǎn)外,這意味著新設(shè)備的ASR系統(tǒng),或使用較少的設(shè)備,可以從更廣泛采用的設(shè)備生成的交互數(shù)據(jù)中獲益。”
  論文地址:(回復(fù)亞馬遜也可直接獲取百度云鏈接)
  https://arxiv.org/pdf/1903.06539.pdf
  https://arxiv.org/pdf/1903.05299.pdf
  當(dāng)然更多技術(shù)細(xì)節(jié)可以點(diǎn)擊下方原文鏈接
  https://developer。amazon。com/zh/blogs/alexa/post/c47b5538-732c-4cb9-980f-14d79f91c6b9/joint-training-on-speech-signal-isolation-and-speech-recognition-improves-performance
【免責(zé)聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀(guān)點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

評(píng)論排行

專(zhuān)題

CTI論壇會(huì)員企業(yè)