語音識別技術(shù)真有那么“風(fēng)花雪月”嗎?實(shí)際上,這項(xiàng)技術(shù)一直都是計(jì)算機(jī)研究領(lǐng)域內(nèi)的一個熱門課題,也一向倍受IBM、微軟等等IT巨頭器重,相關(guān)研究成果層出不窮。隨著語音識別技術(shù)在最近幾年逐漸向移動通訊、互聯(lián)網(wǎng)等領(lǐng)域,以及各種不方便通過手寫輸入與機(jī)器進(jìn)行“交流”的手持設(shè)備,如車載GPS定位系統(tǒng)、娛樂系統(tǒng)等硬件領(lǐng)域滲透,供其施展的舞臺日益寬廣起來。也許過不了多久,面貌煥然一新、同時蘊(yùn)藏巨大商機(jī)的語音識別應(yīng)用熱潮,將會徹底改變?nèi)藗兊乃季S定勢。
只需撥打一個號碼,就可以搞定問路、訂票、美食推薦、家政服務(wù)、娛樂休閑、火車時刻等等信息?對,這是中國電信最近推出的一項(xiàng)名為“號碼百事通”的新業(yè)務(wù),也是一款在挖掘和整合用戶號碼信息的基礎(chǔ)上,針對用戶的模糊查詢等信息服務(wù)需求提供的新產(chǎn)品。因?yàn)槭悄:樵,所以現(xiàn)行的“號碼百事通”業(yè)務(wù)還需要靠人工坐席來實(shí)現(xiàn),這必然需要投入大量資金來建設(shè)和不斷完善呼叫中心。為解決這一問題,中國電信找到了中科院聲學(xué)所。利用聲學(xué)所的技術(shù),中國電信不久后將在“號碼百事通”系統(tǒng)中引入語音搜索引擎,可以根據(jù)人們打入電話的聲音來識別、搜索出客戶需要查詢的信息并自動提供。
同樣是電信增值業(yè)務(wù),目前江蘇移動、山東移動等電信運(yùn)營商,已經(jīng)實(shí)現(xiàn)了用戶通過“哼”一段旋律,就能查找到自己聽過卻不知道名稱的歌曲或彩鈴,并且進(jìn)行點(diǎn)播和下載的新業(yè)務(wù)。這種大規(guī)模的商業(yè)應(yīng)用,已經(jīng)進(jìn)入了成熟階段。中科院聲學(xué)所語音實(shí)驗(yàn)室的潘接林副主任對《互聯(lián)網(wǎng)周刊》表示,在商業(yè)應(yīng)用上,這套系統(tǒng)最關(guān)鍵的部分是解決了計(jì)費(fèi)環(huán)節(jié)的問題,電信運(yùn)營商和聲學(xué)所,由此可以按照每條查詢的下載量來進(jìn)行按比例分賬。目前,聲學(xué)所正在與互聯(lián)網(wǎng)上的幾大音樂內(nèi)容提供商合作,不久后將可以實(shí)現(xiàn)在互聯(lián)網(wǎng)上,通過唱出一段旋律的方式來進(jìn)行音樂搜索!
抓住語音搜索的商機(jī)
今年4月11日,Google向美國專利署遞交了一份語音技術(shù)專利申請,其中涵蓋了Google在語音識別方面的大量技術(shù)發(fā)明。許多經(jīng)濟(jì)觀察家們認(rèn)為,Google有可能憑借此項(xiàng)專利,又一次牢牢控制住搜索引擎技術(shù)發(fā)展的前沿陣地。
而一直視Google為最大潛在競爭對手的微軟,從來都對語音識別技術(shù)格外重視。微軟CEO鮑爾默在5月22日訪華期間對記者說,在微軟的技術(shù)創(chuàng)新方向上,有四個重要的落點(diǎn),除了網(wǎng)絡(luò)服務(wù)、安全和新設(shè)備等領(lǐng)域之外,還包括了自然語言理解!罢Z音識別技術(shù)在今后幾年內(nèi)會變得越來越重要!滨U爾默解釋說。
其實(shí),也正因?yàn)槲④泴υ擃I(lǐng)域重兵布防,所以在去年發(fā)生了“李開復(fù)事件”之后,鮑爾默才會顯得分外惱怒。跳槽到Google的微軟原全球副總裁李開復(fù)在美國卡耐基梅隆大學(xué)讀書的時候,就選擇了語音識別技術(shù)作為研究方向,后來順理成章的成為國際知名的語音識別技術(shù)專家,進(jìn)入微軟后一直主導(dǎo)著微軟交互式語言及人機(jī)界面的研發(fā)工作。如此重要和關(guān)鍵的人物跑去了競爭對手那里,也難怪微軟要為此訴諸法庭。
在文字搜索已經(jīng)發(fā)展到幾乎沒有上升空間的時候,這些技術(shù)巨頭顯然已經(jīng)瞄準(zhǔn)了未來的語音、視頻搜索市場。微軟曾把語音識別的未來應(yīng)用重心放在計(jì)算機(jī)的聽寫機(jī)上,即類似于IBM ViaVoice的研究方向,希望把人的語音直接轉(zhuǎn)換成文字。微軟曾在其Word軟件中嵌入了這種功能,但并未實(shí)現(xiàn)商業(yè)化。而在2006年的“微軟亞洲研究院創(chuàng)新日”上,微軟一口氣介紹了11項(xiàng)與搜索相關(guān)的技術(shù),其中“點(diǎn)播視/音頻搜索”更是讓人眼前一亮?梢韵胍,在爭奪未來語音識別搜索技術(shù)話語權(quán)的問題上,微軟決不會坐視Google去申請專利而無動于衷!
下一座技術(shù)堡壘
對于微軟的語音識別技術(shù),中科院聲學(xué)所下屬的中科信利技術(shù)有限公司高級副總裁劉建認(rèn)為,目前微軟的語音識別技術(shù)還處于技術(shù)跟蹤階段,而在商用化的道路上,中科院的技術(shù)目前在國際上已經(jīng)走在了前列。目前世界上只有少數(shù)幾家公司能夠形成核心技術(shù),而中科院聲學(xué)所是國內(nèi)唯一完全擁有核心自主技術(shù)的單位,目前其最大的競爭對手主要是美國的Nuance公司。
Nuance由原來國際上的四大語音公司以及其它幾家在語音技術(shù)方面有特點(diǎn)的語音公司整合而成。自合并以來,Nuance已發(fā)展成為全球首屈一指的語音解決方案供應(yīng)商,它能夠提供從網(wǎng)絡(luò)到IVR(Interactive Voice Response,互動式語音應(yīng)答)的應(yīng)用方案。早在1996年9月,嘉信理財(Charles Schwab)公司所開通的首個大規(guī)模商用的語音識別應(yīng)用系統(tǒng):股票報價系統(tǒng),其背后的技術(shù)就是由Nuance提供的。
據(jù)劉建介紹,語音識別技術(shù)大致可以分為兩個發(fā)展方向:一是大詞匯量連續(xù)語音識別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽寫機(jī),以及與電話網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語音信息查詢服務(wù)系統(tǒng),這些系統(tǒng)都是在計(jì)算機(jī)平臺上實(shí)現(xiàn)的;另外一個重要的方向是小型化、便攜式語音產(chǎn)品的應(yīng)用,如手機(jī)撥號、汽車設(shè)備的語音控制、智能玩具、家電遙控等方面的應(yīng)用,這些應(yīng)用系統(tǒng)大都使用專門的硬件系統(tǒng)實(shí)現(xiàn),特別是近幾年來迅速發(fā)展的語音信號處理專用芯片和語音識別片上系統(tǒng)的出現(xiàn),都為語音識別的廣泛應(yīng)用創(chuàng)造了有利的條件。
現(xiàn)在,機(jī)器識別人的單詞式的命令和指令,已經(jīng)不再困難,并且已經(jīng)開始了商用,例如中科信利幾個月后將推出的具有語音識別功能的芯片,就可以應(yīng)用在家電遙控、手機(jī)、汽車GPS、智能玩具等各種小型設(shè)備中。中信科利稱,其2006年的預(yù)期收入將達(dá)到1000萬元,較上年度有100%的增長。而另一種則是連續(xù)語音識別系統(tǒng),比如說如果兩個人在聊天,那么這些連貫的句子,將很難被機(jī)器識別,這也是語音識別技術(shù)領(lǐng)域內(nèi)未來的研究重點(diǎn)。
互聯(lián)網(wǎng)周刊