(以下為演講實錄,略有刪減)
劉志:大家下午好!感謝CTI論壇提供這樣一個機會給大家講講我們在做的事情,以及為什么要做這件事,我的演講題目是“智能化背景下語音前端技術的新挑戰(zhàn)”,這個題目大家看著可能會比較疑惑,希望隨著我的演講和大家一起來探討和交流這個課題。
說到語音識別相信大家都不陌生,現場做個調查,家里有語音識別設備的希望舉一下手,基本上都舉手了,覺得好用的請舉手,這就少了很多啊。我本人2000年就開始做語音識別,是國內比較早做語音識別的一批,07年我們轉到其他的方向了,當時發(fā)現語音識別領域坑太多了,但今天我還在做和語音相關的方向,還有很多和我一起的人在看好這個行業(yè),在不斷的投入,為什么?因為聲音真的太重要了!心理學研究表明,聲音傳遞的信息和視覺傳遞的信息是可比的,很大程度上它們二者是交融在一起的,在人類感知世界當中,單純由聲音傳遞的信息占了25%,而和圖像加在一起相結合的又有40%,可以說聲音傳遞的信息是感知世界獲取信息非常重要的手段,但是今天聲音的價值遠遠沒有發(fā)揮出來。
今天,在呼叫中心和企業(yè)辦公領域,智能語音技術對企業(yè)開始帶來很多新的價值,它可以幫助消除繁重的電話量、幫助企業(yè)保持品牌輸出一致性,一旦員工在打電話的時候沒有傳遞出品牌所需要的信息,可以及時提醒他,還可以幫助企業(yè)管理合規(guī)性問題,幫助企業(yè)有效利用數據資產,以前很多企業(yè)掌握了大量的聲音數據,但是卻不知道如何應用,客戶在這些聲音當中到底表達了什么、他們想傳遞什么信息、想獲得什么等等,過往的信息無法用,今天語音分析都可以幫助企業(yè)創(chuàng)造這些價值。而語音分析對于客戶價值更大,它可以幫助客戶更好的解決問題,任何一個人都不是萬能的,我們能夠記住的問題是有限的,企業(yè)厚厚的FAQ一個人都想背下來是不可能的,但是AI可以做得更好;語音分析還可以創(chuàng)造價值,從用戶聲音信息當中傳遞了用戶面臨的問題,通過虛擬客服可以發(fā)掘這些問題背后的價值,最終對于客戶來說語音分析可以幫助提升體驗,客戶最終看重的是我被服務的感受好不好、體驗好不好、是不是解決問題了,今天我們很多服務系統會讓用戶選擇:十分滿意請按1、不滿意請按2,但通過語音分析,我們可以在整個服務過程中就自然的得出結論,用戶是否真的滿意。
這些都是我們認為語音智能可以帶來的價值,我們也堅信未來這些都是可以做到的,但是今天的實際場景中會是怎么樣呢?
我們播放一些噪聲場景中錄制的真實語音,有多少人可以聽出里面說了什么呢?這段錄音中分別有四段噪聲,第一段是白噪聲,第二段是工廠噪聲、第三段是多人說話場景噪聲、第四段是音樂噪聲。在這樣的噪聲場景中,語音識別的準確率會怎樣,可以請大家看看。這是一個語音識別系統對上面語音識別后的結果,我們說的是“現在是白噪聲,現在是工廠噪聲,現在是babble噪聲、黃鸝智能,用聲音智能改善人類生活與工作品質”,但識別的結果就如圖所示了,可以看到,有噪聲之后語音識別的準確率直線下降。
這個場景雖然是一個模擬的場景,但是實際上我們日常工作和生活中這樣的場景無時無處不在。我跑過很多高峰期的職場,實際觀察了人們工作的環(huán)境,發(fā)現大家坐在一起都在給客戶通話,這種多人說話場景,大家相互干擾的情況很普遍;在公交車、地鐵上、路過廣場大街的時候,這些場景其實在身邊每天都存在著。我們想從這樣的聲音中把想要的內容提取出來,是不是面臨著很大的困難?這就需要聲音前端處理的技術。什么是聲音前端處理技術,我們說平時我們接觸到的聲音價值發(fā)揮大部分是后端的部分,比如語音識別、聲紋識別、通過聲音識別情感,聲音通信也可以看做聲音的后端應用,但是很少會關注前端的部分,前端通俗來說就是降噪,但實際上遠遠不止降噪,因為除了降噪還要做信息的增強;而噪聲種類非常多,包括廣義上的回聲、混響都可以看成是噪聲,對于前端的工作而言,最核心的就是兩點,一是把不想要的噪聲清除掉,二是保留原來聲音當中的有用信息,保證有用的聲音盡可能不失真,這是兩個最核心的目的。
噪聲背景下怎么樣把有用的聲音提取出來,這是前端所要處理的最核心的功能。那么復雜噪聲場景怎么把聲音提取出來,面臨著怎樣的挑戰(zhàn)?首先第一個挑戰(zhàn),也是做聲音前端處理工作中我感受到的最大的挑戰(zhàn),就是要解決強降噪和低失真之間的矛盾。一方面要把噪聲降下來、要強降噪,很多噪聲場景,性噪比達到了負的分貝,噪聲能量和我說話的聲音能量是相當的、甚至更高,這種情況下如何降噪,但更重要的是,降噪的同時也要保證聲音的低失真,因為降噪容易對目標信號造成影響,很多噪聲降得非常好、但是失真也很嚴重,這樣在通信和人機交互場景是遠遠不行的,這是前端處理的第一個挑戰(zhàn),在我看來也是最大的一個挑戰(zhàn)。
第二個挑戰(zhàn)是噪聲的種類帶來的挑戰(zhàn),處理噪聲的很多方法對于某一種或某幾種類型的噪聲是管用的,但是對于其他的噪聲就束手無策了。尤其困難的是人聲干擾的問題,因為和說話人聲音是同樣的頻段如何消除人聲,這是第二個挑戰(zhàn),在各種場景下都要適用的話,要求提升了不止一個量級。
第三個挑戰(zhàn),處理速度與通信交互實時性的矛盾。今天很多新的方法出現,但是效果比較好的同時也面臨著處理速度的挑戰(zhàn),用聲音來傳遞聲音傳遞價值都有實時性要求,說完一句話之后過五分鐘機器才有反應,這是實際應用無法接受的。
接下來我播放一下今天主流的前端技術對剛才同樣場景的處理結果(播放音頻),這是處理后的效果:第一確實降噪了,各種噪聲都有一定程度上能量的降低;第二不同噪聲也有不同的效果,前面兩種噪聲降得比較好,后面兩種噪聲殘留比較多一些;第三是強噪聲的地方聲音有失真。這是人的感受,那么看看機器的感受(也就是機器的識別結果),我們看到,前兩種噪聲環(huán)境處理后識別準確率提升了,但是對于后面兩種噪聲,前端處理還產生了反作用,識別出來的內容已經和原來說話的含義完全無關了。
這是今天聲音前端處理中非常常見的情況,也就是說,降噪的同時引入了失真,會導致機器的識別甚至比不降噪效果更差,還是達不到我們想要的結果。
那么黃鸝智能的解決方案是什么?我們瞄準最核心的點是在強降噪的同時保證聲音低失真。我在做語音識別的時候就身受噪聲的困擾,我們在實驗室環(huán)境做得非常好,拿到實際應用場景中識別率就慘不忍睹,從那時候開始我們團隊一直在研究怎么樣能夠把降噪和聲音保真這兩件事同時處理好。我們自己總結出了一套行之有效的方法,發(fā)現傳統的信號處理的方法更多模擬人耳的特性,深度學習更多的模擬大腦的特性,實際上它們各自有優(yōu)勢、也各自有缺點,需要有一套方法把二者整合在一起,這也是我們一直以來研究的方向。
把里面關鍵環(huán)節(jié)打通后,我們確實發(fā)現得到了不一樣的結果,幾個核心特點:
一是高降噪的同時保證低失真。
二是高可靠的同時保證低延時。
三是高性能同時保證是可以普及的方案。
這是我們的技術和其他技術測試對比的結果,我們關注的是兩個關鍵指標:一是降噪能力、二是失真程度。降噪用什么來衡量呢?用ANR指標衡量(環(huán)境噪聲抑制指標衡量),低失真衡量用“MOS分”衡量。我們的技術可以做到降噪達到40分貝的同時,保證不同噪聲環(huán)境下聲音的質量分能夠保持在4分左右,5分是滿分,MOS分在4到5分是優(yōu)秀。這個數字大家可能沒什么真實的感受,我們來聽一下我們技術采集的聲音效果(播放聲音)。這個聲音有幾個特點,第一是噪聲降得很干凈、第二失真雖然有,但是失真足夠低,讓人聽得很清楚,那機器能不能聽清楚呢?。我們看到僅有的錯誤在于把babble識別成了babu,所有其他部分的識別都是準確的。
所以說真正想要把聲音前端處理這個點做好,我們就必須同時關注噪聲降低以及聲音的保真這兩點,因為現在更多的應用不僅是人與人間的通信,也更多的在關注人機交互,而只有把 這兩點同時做好,才能同時保障人與人之間的通信是清晰傳達的,對于機器而言也可以保證更好的識別。
我們做了更多數據集上的測試,從圖中可以看到,今天典型的語音識別系統,安靜環(huán)境下識別率在90%以上,但性噪比在0分貝的時候,如果不做降噪處理的話,語音識別率就下降到70%左右,而使用了我們的技術進行聲音采集后,在0分貝的情況下識別準確率可以回到90%的水準上。這樣可以有效提升噪聲環(huán)境下語音識別的識別率,同時保證客戶只聽到提供服務人員清晰的聲音,提升客戶的體驗。
今天用語音識別設備的人很多,但滿意的有多少?我自己是語音領域深度的用戶,我家里面的智能音箱有七八個,但我的孩子都說這不是人工智能,這可能是人工智障(笑)!但我作為一個智能語音行業(yè)的從業(yè)者,知道語音智能系統中的難點,其中的每一點進步都需要大量的科研人員在各種不同場景下做各種各樣的測試,從而取得一點一點的進步,今天我們也能夠看到語音行業(yè)從業(yè)者這么多年依然在堅持不懈的努力,因為我們堅信聲音的價值。今天我們的技術也不是所有的噪聲場景都可以很好的解決,但是我們正在一個一個場景下取得突破和進步。
這就是我們,黃鸝智能!2019年8月份剛剛成立公司,很不幸就趕上了疫情,去年4月份才推出首款產品,但去年一年時間里,我們已經讓很多不同行業(yè)的客戶認識了我們、也認可了我們!去年我們推出了幾款有線耳機產品,今年我們會推出藍牙耳機,未來我們將繼續(xù)拓展拾音降噪的應用場景,也希望今后論壇當中可以不斷和大家分享我們的進展和新的收獲。
我們企業(yè)的小伙伴們都堅信聲音智能是能夠有效的改善人類生活和工作品質的,它真的是一項非常有前景、非常有價值的技術,也是非常好的發(fā)展方向,需要更多的人來投入、有更多人提意見、有更多人對這樣一項技術敢于嘗試。我們的愿望是和行業(yè)里面所有合作伙伴一起,讓聲音的智能化場景越來越落地、越來越多的被應用起來,因為只有應用才能發(fā)現問題、只有應用才能解決問題。
我們永不止步因為噪音無處不在!謝謝大家!