首頁
>>>
技術(shù)
>>>
語音應(yīng)用
>>>
語音識別(ASR)
語音識別產(chǎn)品
語音識別領(lǐng)域的VC投資機會
周春兵 2009/06/23
一、行業(yè)簡單描述
語音是人類溝通和獲取信息最自然便捷的方式。自上世紀6、70年代作為殘障人士的輔助型技術(shù)產(chǎn)生,到今天已逐漸在各類實用領(lǐng)域嶄露頭角并發(fā)揮獨特效能的一項高科技,語音識別技術(shù)在業(yè)界正得到越來越廣泛的認可并予以密切的關(guān)注。在信息化時代,人們對信息獲取和信息溝通方式提出了更加智能的要求,輕松便捷地解決一切日常問題成為業(yè)界爭相尋求突破的著眼點。而語音識別技術(shù)以其得天獨厚的優(yōu)勢越來越多地進入到人們?nèi)粘I詈凸ぷ鞯姆椒矫婷妫鹤岆娔X、手機、玩具等各種機器設(shè)備能聽懂主人的命令,提供更為人性化的操作方式;在電話里對自動語音發(fā)出指令即能解決問題;用語音軟件進行文字輸入等等。在人們享受日益豐富的語音技術(shù)應(yīng)用所帶來的便利性、人性化和個性化的同時,語音技術(shù)廣闊的產(chǎn)業(yè)化前景正越來越清晰地展現(xiàn)在世人眼前。毋庸置疑,其可預(yù)見的應(yīng)用市場和潛在的無限商機正同時吸引著具有遠大目光的技術(shù)提供商和資本運營商。
語音識別技術(shù)根據(jù)識別對象的不同分為聲紋識別技術(shù)和語意識別技術(shù)。
聲紋識別:是根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù)自動識別說話人身份的一門技術(shù)。聲紋識別的作用主要有兩個方面:一是說話人辨認(Speaker Identification),主要用于判斷某一語音材料是由若干發(fā)音者中哪一人所說,屬于“多選一”的識別;二是說話人確認(Speaker Verification),主要用于確認某一語音材料是否由指定的某個人所說的,屬于“一對一”識別。聲紋識別賴以實現(xiàn)的基礎(chǔ)是蘊含于語音信號中的說話人發(fā)音特征,這一技術(shù)強調(diào)說話人的個性,而不考慮以語音為物質(zhì)外殼的話語意義。從本質(zhì)上說,聲紋識別技術(shù)屬于“生物因子”認證范疇。聲紋同指紋有著類似的屬性。每個人的指紋都是唯一的,而聲紋也是人的個性特征,很難找到兩個聲紋完全相同的人。
語意識別:是對語音材料所承載的實際意義的識別。它有別于聲紋識別,聲紋識別主要著眼于語音的物理屬性和生理屬性,以辨認或確認說話人為目的;而語意識別則著眼于語音的社會屬性,以識別語音信號所承載的話語內(nèi)容為目的。語意識別比聲紋識別要困難得多。說話人的語音通常會受到母語、方言、發(fā)音器官和發(fā)音狀態(tài)等諸多因素的影響,正是因為說話人語音特征各異,才為聲紋識別提供了可能性。但是,要將具有個性的聲紋與具有共性的語法和語義模型相匹配,要通過詞語切分、詞性標注、結(jié)構(gòu)分析和語境理解等程序,達到正確識別話語內(nèi)容,則是一個相當復雜的處理過程。
二、語音識別市場分析
語音識別技術(shù)是生物識別技術(shù)的一種,自上世紀6、70年代語音識別技術(shù)的產(chǎn)生,到如今該技術(shù)已日漸完善,并逐步走出實驗室在各領(lǐng)域進入實際應(yīng)用階段。語音比起其他交互方式有著更多獨特的優(yōu)勢,在生物識別領(lǐng)域,它以其靜態(tài)(聲紋)和動態(tài)(語意)的雙重屬性具有其他生物特征無可比擬的廣闊應(yīng)用前景,因而在許多發(fā)達國家已被廣泛接受和使用。而在中國,語音技術(shù)的應(yīng)用起步較晚,以至于有些在國外已經(jīng)十分常見的語音產(chǎn)品在國內(nèi)看來仍十分新鮮甚至令人不可思議。眾所周知,市場空白并不意味著零市場,相反,尚未被喚醒的市場需求經(jīng)過信息流動和共享后有可能得到“井噴”式的爆發(fā)增長。
語音識別技術(shù)根據(jù)其屬性,基本功能可歸為兩大類,一類是根據(jù)人本身的聲紋特征來進行身份認證,另一類是根據(jù)人發(fā)出特定的語音指令來進行命令控制。由此引出的應(yīng)用市場基本可以包括這幾個方面:桌面應(yīng)用、嵌入式應(yīng)用、電話系統(tǒng)、Web應(yīng)用以及特殊應(yīng)用領(lǐng)域等。
1. 桌面應(yīng)用
即語音識別技術(shù)集成在PC機上的應(yīng)用,不僅可以用語音識別來進行身份認證和編輯文本,而且可以通過聽取和響應(yīng)用戶講述的命令來運行程序并與操作系統(tǒng)實現(xiàn)交互。但是跨國IT巨頭如微軟、IBM等已介入該領(lǐng)域,且可以充分利用其成熟產(chǎn)品的協(xié)同性來進行市場滲透,如Windows XP、Vista及Office 2007等都內(nèi)嵌了語音識別功能,具有壟斷優(yōu)勢。
2. 嵌入式應(yīng)用
嵌入式應(yīng)用的范疇很廣,需要根據(jù)市場需求考慮不同的嵌入式硬件平臺,如手持或移動通訊設(shè)備及家用電器的語音控制和內(nèi)容輸入。從目前的市場來看,嵌入式語音識別系統(tǒng)最大的市場主要是針對玩具、手機、車載GPS、MP3/MP4等。
3. 電話系統(tǒng)應(yīng)用
語音識別技術(shù)應(yīng)用于企業(yè)自動語音服務(wù),可以為企業(yè)提供一種智能化的并且相對安全的自動服務(wù)方式。主要包括,企業(yè)的用戶服務(wù)中心(Call-Center),電話銀行,股票交易,電子商務(wù)等應(yīng)用領(lǐng)域,用戶可以在電話中進行身份認證及菜單流程的快捷選擇。
4.Web應(yīng)用
Web應(yīng)用是把語音技術(shù)與Web應(yīng)用結(jié)合,例如語音瀏覽器、語音搜索引擎、網(wǎng)上語音聊天室及語音網(wǎng)游等。
5. 行業(yè)特殊應(yīng)用領(lǐng)域
語音識別技術(shù)可以為有關(guān)部門提供應(yīng)用方案,幫助它們通過電話采集的語音進行自動的身份辨認,節(jié)省大量的人力,并大大提高工作效率和識別的成功率。
三、已開始處于商用化的市場
1、特殊行業(yè)市場
指國家安全、偵破等特殊領(lǐng)域,由于該市場專業(yè)性強,進入壁壘非常高,同業(yè)競爭者非常少。
2、民用市場
手機市場:中國近兩年在通訊業(yè)發(fā)展迅猛,工業(yè)和信息化部2009年1季度發(fā)布的統(tǒng)計顯示,截至2月底,全國手機用戶已逼近6.6億,這意味著國內(nèi)平均每2人就擁有1部手機。手機行業(yè)日趨成熟,而愈演愈烈的同質(zhì)化競爭必然促使商家在手機所提供的附加價值上翻花樣、做文章,以此來提高身價。隨著功能越來越強大的智能手機走紅市場,語音識別技術(shù)更有了發(fā)展的空間。研究表明,智能手機市場將在今后的數(shù)年里繼續(xù)保持增長勢頭,全球出貨量將從去年的1460萬部增長到2009年的1.25億部,2009年全球智能手機將增長至占全球手機市場的16%,而據(jù)預(yù)測中國智能手機2010年銷售量將達5190萬臺。按此數(shù)據(jù),以語音識別技術(shù)開發(fā)包應(yīng)用平均收入為7元/臺計算,相關(guān)市場規(guī)?蛇_3.5億元/年。
車載導航市場:在國內(nèi)市場當中,截止到2006年,中國汽車數(shù)量已經(jīng)超過3300萬輛,其中10萬元以下轎車占40%,10至30萬元之間的轎車占40%,30萬元以上的轎車大約占20%,但是車載GPS的安裝率卻僅為2%,遠遠低于日本59%、韓國40%、歐美25%的水平。根據(jù)計世資訊(CCW Research)最新研究報告《2007-2008年中國汽車電子市場發(fā)展趨勢研究報告》研究表明, 2007-2008年中國汽車GPS導航系統(tǒng)市場年增長率將超過80%。在不考慮車輛市場中每年新增量的前提下,以此潛在市場規(guī)模預(yù)測,GPS市場普及達到三者的平均水平41.3%,其中約70%的加裝語音識別人機交互系統(tǒng)。按此數(shù)據(jù),以嵌入式語音識別芯片平均收入為40元/套計算,相關(guān)市場規(guī)?蛇_3.8億元。
MP3/MP4:中國的MP3/MP4市場已趨成熟,整體產(chǎn)銷的增長量也逐漸下滑,但是語音識別技術(shù)在此領(lǐng)域的滲透率卻微乎其微,仍有很大的增長空間。據(jù)賽迪顧問預(yù)計,2009年中國MP3/MP4播放機市場銷售量將達到596.7萬臺,同比增長4.9%,到2011年MP3/MP4播放機市場銷售量將達到650.2萬臺,2009-2011年中國MP3/MP4播放機市場銷量年均復合增長率達到4.6%。以此為計算依據(jù)。按此數(shù)據(jù),以語音識別技術(shù)開發(fā)包應(yīng)用平均收入為7元/臺計算,相關(guān)市場規(guī)?蛇_0.46億元/年。
玩具市場:中國是世界重要的玩具生產(chǎn)及出口地,75%的世界玩具產(chǎn)量均來自國內(nèi),僅2006年,玩具生產(chǎn)的產(chǎn)值便達到770億元,出口達到70.55億美元。中國有13億人口,自身又是玩具消費的大市場,據(jù)有關(guān)部門預(yù)測,到2010年中國的玩具消費額有望超過千億元人民幣。近來智能玩具發(fā)展勢頭看好,每年以40%左右的速度遞增,估計未來幾年間將占到整個玩具市場1/5左右的市場份額,這是一個數(shù)百億產(chǎn)值的市場,語音識別智能玩具即便只占這個市場份額的1/3,每年也會有數(shù)十億到上百億的產(chǎn)值。由于玩具本身的生產(chǎn)成本較低,附加值不高,因此語音識別智能芯片將至少占到其中一半甚至3/4的市值。
行業(yè)應(yīng)用市場:除了以上個人消費品市場以外,利用我們的核心軟件,生產(chǎn)出語音平臺銷售給二次開發(fā)商,最終產(chǎn)品可以進入電信、銀行、網(wǎng)絡(luò)等客戶,具有不可估量的擴展市場容量。
四、行業(yè)主要品牌
國際品牌
Nuance:世界上最大的專業(yè)的語音識別軟件提供商,提供語音識別、語言理解和聲紋鑒定等一系列軟件,其產(chǎn)品被應(yīng)用于旅行預(yù)定、股票交易和企業(yè)門戶等眾多領(lǐng)域。公司在世界各地都設(shè)有分部或者合作伙伴,亞太總部設(shè)在香港,中國大陸地區(qū)的代理商為科大訊飛公司。Nuance的具體產(chǎn)品包括語音識別引擎,聲紋鑒定軟件,TTS引擎,SpeechObject組件(用于VXML以增強其功能),語音瀏覽器等等。
IBM:IBM公司在語音識別領(lǐng)域有很長的研究歷史,其著名的產(chǎn)品是ViaVoice。如今,IBM公司在這個領(lǐng)域中的努力主要體現(xiàn)在Voice Server及其SDK上,該服務(wù)器建立在VXML基礎(chǔ)上以幫助開發(fā)商建立廣泛的電話語音應(yīng)用。由于擁有多元化的產(chǎn)業(yè)和雄厚的資金實力,它作為語音識別市場的先驅(qū),通過花費大量資金培育市場,讓人們知道了什么是語音識別技術(shù)。
Microsoft:微軟作為世界上最大的軟件提供商,一直視語音識別技術(shù)為其優(yōu)先研究項目,也適時地推出過許多產(chǎn)品,近年推出的Windows Vista系統(tǒng)已經(jīng)內(nèi)嵌了語音控制軟件。微軟強大的品牌效應(yīng)、龐大的研究機構(gòu)、優(yōu)秀的市場整合能力使得它成為業(yè)界強有力的競爭對手。
國內(nèi)品牌有科大訊飛(以語音合成技術(shù)為主,當初的戰(zhàn)略投資者獲得了數(shù)十倍的回報)等少數(shù)幾家。
五、項目公司的優(yōu)勢
:
項目公司是國內(nèi)專業(yè)從事語音識別技術(shù)研究、軟件開發(fā)和銷售的高科技公司。經(jīng)過多年的努力,公司發(fā)明了擁有完全自主知識產(chǎn)權(quán)的語音識別核心技術(shù),并以此內(nèi)核為基礎(chǔ),由公司的技術(shù)團隊開發(fā)出專用的聲紋識別系統(tǒng)、語音關(guān)鍵詞識別系統(tǒng)和語音搜索引擎,將語音識別技術(shù)推廣到市場的同時,也獲得了市場的認可,在該專用領(lǐng)域占領(lǐng)了相當?shù)氖袌龇蓊~。公司自成立以來,一直致力于從事聲紋識別技術(shù)及產(chǎn)品的研究、開發(fā)和銷售,利用其在身份識別上獨有的特性,深耕挖掘其使用價值。公司的聲紋識別技術(shù)現(xiàn)包括ATD聲紋識別技術(shù)和TI聲紋識別技術(shù)。開集區(qū)間技術(shù)實用化測試,以行業(yè)標準相等錯誤率(EER指標)測試出其結(jié)果為0.6%,識別性能超過了指紋識別技術(shù)的識別水平,成為業(yè)內(nèi)唯一一家實現(xiàn)利用聲紋識別技術(shù)作為身份識別的唯一依據(jù),而非輔助依據(jù)的公司。公司正準備啟動下一步的發(fā)展計劃,在已有產(chǎn)品的基礎(chǔ)之上,利用在語意識別技術(shù)上的新突破,開發(fā)針對于各種移動設(shè)備的語音識別軟件開發(fā)包、可進行二次開發(fā)的軟件工具包,以及通用型的語音識別芯片,將語音識別技術(shù)與具有更廣泛市場基礎(chǔ)的領(lǐng)域相結(jié)合。
項目公司技術(shù)優(yōu)勢與特色:
仿生性——模擬人對語音和說話人的聽辨功能,而不是使用統(tǒng)計的方法。
可學習性——與人相類似,識別能力和準確性隨著樣本量的增加而提高。
實時性——對瞬間語音信號的感知,而不是對固定長度的語音信號進行處理。
強魯棒性〔robustness〕——在充分訓練的情況下,識別能力具有極強的穩(wěn)定性和可靠性。
識別速度快——識別過程是一種快速的并行過程,實際上是一種輸入到輸出的映射,不需要在一個龐大的語音庫中進行搜索。
強分辨能力——神經(jīng)網(wǎng)絡(luò)的非線性映射,比概率方法有更強的分辨能力;平均識別分辨度已接近或超過人耳分辨度。
開集識別——建立在高識別分辨度及無關(guān)性訓練基礎(chǔ)上。
博銳管理在線
相關(guān)鏈接:
3G時代語音識別成本仍然是“攔路虎”
2009-06-10
自動語音識別決定呼叫中心未來
2009-06-02
紫金礦業(yè)視頻會議系統(tǒng)備份需求
2009-05-21
吳曉如:語音技術(shù)助力更智能更安全的新一代呼叫中心
2009-04-22
VoiceXML論壇官方認證平臺
2008-12-10