中文語(yǔ)音語(yǔ)言處理技術(shù)與中國(guó)無(wú)線互聯(lián)
清華大學(xué)語(yǔ)音技術(shù)中心主任 北京得意音通技術(shù)有限責(zé)任公司總裁
鄭方博士 2003/03/14
鄭方博士是漢語(yǔ)語(yǔ)音識(shí)別與語(yǔ)言理解方面國(guó)際知名的學(xué)術(shù)帶頭人之一,他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授,智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室語(yǔ)音技術(shù)中心主任。他分別于1990年、1992年和1997年獲得清華大學(xué)計(jì)算機(jī)應(yīng)用專(zhuān)業(yè)學(xué)士學(xué)位(優(yōu)良畢業(yè)生)、碩士學(xué)位(北京市計(jì)算機(jī)學(xué)會(huì)優(yōu)秀論文)和博士學(xué)位(答辯委員會(huì)界定優(yōu)秀論文)。他從1988年開(kāi)始從事語(yǔ)音識(shí)別與理解等方面研究,他負(fù)責(zé)或作為骨干人員參與研發(fā)過(guò)20余項(xiàng)國(guó)家重點(diǎn)項(xiàng)目和國(guó)際合作項(xiàng)目,并獲得教育部(委)、科技部(委)、北京市獎(jiǎng)勵(lì)和其他獎(jiǎng)勵(lì)10余次。他在國(guó)內(nèi)外知名刊物和學(xué)術(shù)會(huì)議上發(fā)表了110多篇學(xué)術(shù)論文,多篇獲優(yōu)秀論文獎(jiǎng)。
他服務(wù)于一些國(guó)際著名會(huì)議、刊物和組織,包括:中國(guó)計(jì)算機(jī)學(xué)會(huì)人工智能與模式識(shí)別專(zhuān)業(yè)委員會(huì)委員、中文信息學(xué)報(bào)編委、2000年ISCSLP程序委員會(huì)聯(lián)席主席、2000年ICSLP技術(shù)委員會(huì)委員、2000年?yáng)|方COCOSDA國(guó)際會(huì)議的組織委員會(huì)委員、2001年全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC)程序委員會(huì)委員、2002年ISCA的PMLA(發(fā)音變異建模和詞典自適應(yīng))國(guó)際會(huì)議科學(xué)委員會(huì)委員、2002年SNLP-O-COCOSDA聯(lián)合國(guó)際會(huì)議的組織委員會(huì)委員和國(guó)際顧問(wèn)、2003年?yáng)|方COCOSDA國(guó)際會(huì)議總主席、東方COCOSDA核心成員、IEEE會(huì)員、ISCA會(huì)員等。他是IEEE
Trans. on SAP、J. of Computer Science & Technology、中國(guó)計(jì)算機(jī)學(xué)報(bào)、聲學(xué)學(xué)報(bào)、中文信息學(xué)報(bào)、計(jì)算機(jī)研究與發(fā)展、Association
of Computational Linguistics (ACL)等的審稿人,他還應(yīng)邀審議國(guó)家自然科學(xué)基金項(xiàng)目。
聯(lián)系方式:fzheng@d-Ear.com fzheng@sp.cs.tsinghua.edu.cn
無(wú)論在國(guó)內(nèi)還是在國(guó)際,無(wú)線互聯(lián)都是技術(shù)和市場(chǎng)的熱點(diǎn),中國(guó)的無(wú)線互聯(lián)產(chǎn)業(yè)也有了突飛猛進(jìn)的發(fā)展。分析現(xiàn)在,展望未來(lái),可以預(yù)見(jiàn)中文語(yǔ)音和語(yǔ)言處理技術(shù)在中國(guó)的無(wú)線互聯(lián)產(chǎn)業(yè)中將起到非常大的作用,無(wú)線互聯(lián)的發(fā)展反過(guò)來(lái)也將帶動(dòng)語(yǔ)音和語(yǔ)言處理技術(shù)的進(jìn)一步發(fā)展。
中文語(yǔ)音和語(yǔ)言處理技術(shù)
自從1960年代IBM開(kāi)始從事語(yǔ)音識(shí)別的研究以來(lái),經(jīng)過(guò)人類(lèi)數(shù)十年的艱苦努力,語(yǔ)音和語(yǔ)言處理技術(shù)有了很大的發(fā)展。尤其是在1990年代中,IBM的Via
Voice在全球發(fā)布以后,無(wú)論是個(gè)人用戶還是產(chǎn)業(yè)界,無(wú)不對(duì)此刮目相看:語(yǔ)音的世紀(jì)來(lái)臨了。美國(guó)眾多著名大學(xué),包括MIT、CMU、JHU等的教授們,還有包括Microsoft、IBM、Intel等業(yè)界的佼佼者,都眾口一詞地認(rèn)為,"二十一世紀(jì)是語(yǔ)音的世紀(jì)",并為此從學(xué)術(shù)研究和應(yīng)用開(kāi)拓各方面積蓄力量,希望在這幅美麗的圖畫(huà)中占據(jù)一席之地。
在中國(guó),語(yǔ)音和語(yǔ)言處理技術(shù)的研發(fā)略晚于國(guó)外。中國(guó)科學(xué)院聲學(xué)研究所的俞鐵城教授應(yīng)該說(shuō)是中國(guó)最早涉足這一領(lǐng)域的人之一,他于1977年在《物理學(xué)報(bào)》發(fā)表了全國(guó)第一篇關(guān)于語(yǔ)音識(shí)別的論文。清華大學(xué)語(yǔ)音技術(shù)中心緊隨其后,語(yǔ)音界老前輩方棣棠教授、吳文虎教授于1979年創(chuàng)立語(yǔ)音技術(shù)中心(原名語(yǔ)音實(shí)驗(yàn)室),現(xiàn)已有24年的歷史。隨后,全國(guó)各地從事這方面研究的機(jī)構(gòu)越來(lái)越多,比較著名的有清華大學(xué)電子工程系、中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科技大學(xué)、中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所(在語(yǔ)音學(xué)研究方面,吳宗濟(jì)先生的起步更早)、北京大學(xué)、哈爾濱工業(yè)大學(xué)等等。在這些頂尖的學(xué)術(shù)機(jī)構(gòu)的帶動(dòng)下,中國(guó)的語(yǔ)音和語(yǔ)言處理技術(shù)得到很大發(fā)展,并逐步在國(guó)際上引起注意。
到上個(gè)世紀(jì)末這個(gè)世紀(jì)初,一些擁有自主知識(shí)產(chǎn)權(quán)的公司也相繼成立,包括得意音通、天朗語(yǔ)音、中科模式;科大訊飛、北京捷通華聲、炎黃新星等等。雖然國(guó)外許多公司,如Microsoft、IBM、Nuance、InfoTalk等,也都在盯著中國(guó)這個(gè)巨大的市場(chǎng),然而國(guó)內(nèi)公司擁有獨(dú)特的優(yōu)勢(shì):低成本、高性價(jià)比、可定制化程度高等,也取得了很好的成績(jī),從而有足夠的條件與國(guó)外的公司進(jìn)行多方面的競(jìng)爭(zhēng)以及合作。
語(yǔ)音和語(yǔ)言處理涉及的技術(shù)包括很多方面。簡(jiǎn)單地講有:(1)語(yǔ)音識(shí)別(ASR):把聲音變成文字(相當(dāng)于耳朵的功能);(2)語(yǔ)言理解(NLU):把文字變成語(yǔ)義(相當(dāng)于大腦之語(yǔ)言區(qū)的功能);(3)語(yǔ)音合成(TTS):把文字變成聲音(相當(dāng)于嘴巴的功能);(4)聲紋識(shí)別(VPR):通過(guò)聲音對(duì)人的身份進(jìn)行辨認(rèn)和/或確認(rèn)(耳朵的功能);……
中國(guó)的學(xué)術(shù)界和產(chǎn)業(yè)界在這些領(lǐng)域都有很大的成績(jī)。清華大學(xué)智能技術(shù)和系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室連續(xù)三次在全國(guó)國(guó)家重點(diǎn)實(shí)驗(yàn)室評(píng)比中被評(píng)為A類(lèi)(信息類(lèi)國(guó)家重點(diǎn)實(shí)驗(yàn)室的唯一),其屬下的清華大學(xué)語(yǔ)音技術(shù)中心,在以上四項(xiàng)技術(shù)有著20多年的研發(fā)積累;得意音通公司和清華大學(xué)語(yǔ)音技術(shù)中心有著密切合作關(guān)系,并致力于建立無(wú)縫"產(chǎn)學(xué)研"的通道,經(jīng)過(guò)努力,更是實(shí)現(xiàn)了以上四種技術(shù)的應(yīng)用編程接口(API)和軟件開(kāi)發(fā)工具(SDK)。
然而,"語(yǔ)音的世紀(jì)"除了蘊(yùn)含無(wú)限的商機(jī)以外,也表明它們存在發(fā)展的空間。概括地講,有這樣一些問(wèn)題急需解決:
第一個(gè)是語(yǔ)音識(shí)別的方言和口音問(wèn)題。中文有八大方言區(qū),現(xiàn)在很多語(yǔ)音識(shí)別系統(tǒng),對(duì)標(biāo)準(zhǔn)普通話的識(shí)別性能很好,但是一旦有方言或者口音,性能就會(huì)馬上下降。但是怎么攻克這個(gè)問(wèn)題呢?這在國(guó)際上就是一個(gè)Open
Issue。比如美國(guó)的自然科學(xué)基金(NSF)、國(guó)防高級(jí)研究規(guī)劃局(DARPA)和國(guó)防部(DoD)每年在美國(guó)的Johns Hopkins University
(JHU)召開(kāi)一次研討會(huì)。該研討會(huì)面向全世界,征集具有前瞻性的研究課題,全球較為知名的研究機(jī)構(gòu)或者企業(yè)都可以向它提交一些提案,希望和來(lái)自全球的專(zhuān)家一起共同研究以找到解決問(wèn)題的方法。今年我提了一個(gè)提案就是關(guān)于方言和口音的問(wèn)題,它在全球十幾家提案中勝出,并成為最終被選定的三四家之一,屆時(shí)將會(huì)有來(lái)自得意音通、清華大學(xué)、JHU、Microsoft、IBM、AT&T、科羅拉多大學(xué)、香港大學(xué)等的學(xué)者和業(yè)界人士一道去探討這一問(wèn)題。這個(gè)問(wèn)題之所有能夠勝出,說(shuō)明它的重要性,也說(shuō)明人們對(duì)它的關(guān)注,必須下力氣解決好這個(gè)問(wèn)題。
第二個(gè)是信道問(wèn)題。我們知道在無(wú)線互聯(lián)應(yīng)用中,涉及到的信道種類(lèi)可能會(huì)很多,比如固定電話、手機(jī)、IP、網(wǎng)絡(luò)、車(chē)載系統(tǒng)等等,各種各樣的信道都有不同的特性。語(yǔ)音識(shí)別、聲紋識(shí)別和語(yǔ)音理解怎么去適應(yīng)不同信道的差異呢?這是一個(gè)不得不面對(duì)的問(wèn)題。我們既需要解決多信道的問(wèn)題,也要解決跨信道的問(wèn)題(在一個(gè)信道上學(xué)習(xí),在另一個(gè)信道上識(shí)別)。
第三個(gè)問(wèn)題,就是背景噪音。語(yǔ)音識(shí)別、聲紋識(shí)別、語(yǔ)音理解等系統(tǒng)往往在有背景噪音時(shí)就不能正常工作了,這是因?yàn)楸尘霸胍羝茐牧嗽颊Z(yǔ)音的頻譜,或者說(shuō)把原始語(yǔ)音部分或全部掩蓋在噪音當(dāng)中,因而無(wú)法準(zhǔn)確地分離出來(lái)的緣故。這個(gè)時(shí)候就得解決好背景噪音的問(wèn)題,這也是我們?cè)诩夹g(shù)上面臨的挑戰(zhàn)之一。
第四個(gè)是自然語(yǔ)音理解領(lǐng)域,我們也有很多的問(wèn)題需要解決。我國(guó)很多學(xué)術(shù)單位在語(yǔ)言理解這方面都有很好的成就,比如北大的俞士汶教授、清華的黃昌寧教授(現(xiàn)在在微軟研究院)、東北大學(xué)的姚天順教授、北京語(yǔ)言大學(xué)的宋柔教授等等。和語(yǔ)音識(shí)別面臨的復(fù)雜的隨意發(fā)音現(xiàn)象類(lèi)似,當(dāng)我們面對(duì)的不是語(yǔ)法比較規(guī)范、語(yǔ)序比較正常等的書(shū)寫(xiě)文本的時(shí)候,語(yǔ)義的分析和理解就很困難了。我們必須有很好的理論和技術(shù)去解決口語(yǔ)語(yǔ)言現(xiàn)象,比如口語(yǔ)中的重復(fù)、改正、強(qiáng)調(diào)、倒敘、省略、拖音、韻律等等。
第五個(gè)是語(yǔ)音合成。應(yīng)該說(shuō)現(xiàn)在的語(yǔ)音合成技術(shù)做得相當(dāng)不錯(cuò),把一個(gè)文本給它以后,它能夠把聲音發(fā)出來(lái),而且你感覺(jué)到還比較好。但是其中存在著一個(gè)很大的問(wèn)題,就是它雖然對(duì)每一個(gè)音都發(fā)得很標(biāo)準(zhǔn),但是對(duì)一句話,你不敢非常有把握地說(shuō)它做得非常自然。因?yàn)榫鸵痪湓挾裕瑺可娴胶芏嗟膯?wèn)題:如韻律,不同的韻律有不同的意思;比如把"你好(問(wèn)候)"說(shuō)成"你好呀(譏諷)",就變了另外一個(gè)意思。所以在語(yǔ)音合成當(dāng)中,怎樣能夠很好地把感情色彩、情緒等正確地表達(dá)出來(lái),也需要我們進(jìn)一步研究。這里面有一個(gè)問(wèn)題首先要解決,就是必須先對(duì)這句話(甚至整個(gè)段落)進(jìn)行理解,理解之后才能夠知道如何把韻律加進(jìn)去,如何表達(dá)感情和情緒等。
然而,和人類(lèi)進(jìn)步過(guò)程中其他任何一種技術(shù)的發(fā)展歷程一樣,語(yǔ)音和語(yǔ)言處理技術(shù)在任何一個(gè)不同的成熟階段都有一個(gè)不同的應(yīng)用形式和不同的市場(chǎng)定位。在這種技術(shù)到市場(chǎng)再到技術(shù)的螺旋式上升的過(guò)程中,技術(shù)越來(lái)越成熟,市場(chǎng)也越來(lái)越成熟,從而讓技術(shù)更好地為人類(lèi)服務(wù)。
中國(guó)的無(wú)線互聯(lián)業(yè)務(wù)及其新的增長(zhǎng)點(diǎn)
有人說(shuō),信息時(shí)代人和人之間的關(guān)系會(huì)越來(lái)越淡化,人和人的交往漸漸會(huì)被"人機(jī)"交往所取代。這雖然有點(diǎn)偏激卻不無(wú)道理,現(xiàn)實(shí)在印證著這一點(diǎn)。那些在網(wǎng)上有過(guò)親密接觸的年輕一代,那些遍布在城市各個(gè)角落的"大哥大"侃爺,那些在計(jì)算機(jī)面前時(shí)不時(shí)大笑不已的QQ族,那些低著頭差點(diǎn)撞到電線桿的手指操舞蹈者(打短信)……等等,都是在以自身的實(shí)際行動(dòng)實(shí)踐、支持這一理論。
在這種新的"人--機(jī)(網(wǎng))--人"交往模式中,無(wú)線互聯(lián)模式逐步成型并形成規(guī)模。無(wú)線互聯(lián)產(chǎn)業(yè)中,用戶、網(wǎng)絡(luò)運(yùn)營(yíng)商、設(shè)備和終端制造商、增值應(yīng)用服務(wù)商、內(nèi)容提供商相互關(guān)聯(lián)、共生共存,構(gòu)成完整的產(chǎn)業(yè)鏈。產(chǎn)業(yè)鏈良性循環(huán)是無(wú)線互聯(lián)產(chǎn)業(yè)成功的關(guān)鍵,圓滿解決用戶、電信運(yùn)營(yíng)商、內(nèi)容和服務(wù)提供商之間的利益關(guān)系是形成無(wú)線互聯(lián)事業(yè)良性循環(huán)的核心。產(chǎn)業(yè)價(jià)值鏈的基礎(chǔ)是為最終用戶提供更加便利和完善的服務(wù)。中國(guó)無(wú)線互聯(lián)產(chǎn)業(yè)發(fā)展最迫切、最重要也是終極的目標(biāo),就是要讓用戶享受到最好的應(yīng)用和服務(wù)。
目前在無(wú)線互聯(lián)方面更多的是低層次的、點(diǎn)對(duì)點(diǎn)的。無(wú)論是用手機(jī)打電話,還是收發(fā)短信,更多的只是用戶之間通過(guò)網(wǎng)絡(luò)運(yùn)營(yíng)商進(jìn)行交互。那么是否可能把這種應(yīng)用的層次再提高一些呢?
我們可以先看一下無(wú)線互聯(lián)產(chǎn)業(yè)鏈中用戶以外的其他環(huán)節(jié)。網(wǎng)絡(luò)運(yùn)營(yíng)商提供基本的數(shù)據(jù)通道,設(shè)備和終端制造商提供用戶使用的終端設(shè)備,而內(nèi)容提供商收集整理大量的、用戶感興趣的信息,由增值應(yīng)用服務(wù)商集成,可以為用戶提供非常豐富的多領(lǐng)域信息服務(wù)。
我們看到,為了更好地服務(wù)用戶,中國(guó)移動(dòng)、中國(guó)聯(lián)通相繼推出"移動(dòng)夢(mèng)網(wǎng)"和"聯(lián)通在線"角逐無(wú)線互聯(lián)市場(chǎng)。這兩家網(wǎng)絡(luò)運(yùn)營(yíng)商在無(wú)線互聯(lián)生存模式的探索中創(chuàng)造了各方有利的盈利模式,吸引了產(chǎn)業(yè)鏈各環(huán)節(jié)的積極參與。但是直到2002年初,他們?cè)谄脚_(tái)的技術(shù)標(biāo)準(zhǔn)上互不相讓?zhuān)率箖删W(wǎng)之間的互聯(lián)互通問(wèn)題遲遲無(wú)法解決,各自都失去了數(shù)億元的業(yè)務(wù)量。經(jīng)過(guò)曠日持久的對(duì)峙,在主管部門(mén)的敦促和調(diào)和下,特別是在可觀的市場(chǎng)利益和強(qiáng)大的用戶壓力作用下,中國(guó)移動(dòng)和中國(guó)聯(lián)通終于達(dá)成網(wǎng)間短消息互通協(xié)議。
除此之外,這兩家無(wú)線網(wǎng)絡(luò)運(yùn)營(yíng)商忽視了處于這條產(chǎn)業(yè)鏈的核心地位所應(yīng)承擔(dān)的諸多責(zé)任,他們還沒(méi)有起到像日本NTT DoCoMo那樣的核心作用。NTT
DoCoMo雖然從移動(dòng)互聯(lián)市場(chǎng)的收入分成中只抽取很少的份額,但它作為整個(gè)鏈條的核心,承擔(dān)了大量的投入和銜接工作,扮演了產(chǎn)業(yè)鏈主宰者的角色,而中國(guó)移動(dòng)和中國(guó)聯(lián)通在制定移動(dòng)互聯(lián)產(chǎn)業(yè)鏈的游戲規(guī)則、技術(shù)標(biāo)準(zhǔn)方面雖然也做出了不少努力,但與NTT
DoCoMo相比還存在著一些欠缺。
NTT DoCoMo具備強(qiáng)大的對(duì)整個(gè)網(wǎng)絡(luò)的管理能力。運(yùn)營(yíng)商不只是單純地提供通信平臺(tái),還要統(tǒng)攬全局,眾多的服務(wù)商和軟硬件提供商共生于一條產(chǎn)業(yè)鏈上,良莠不齊,需要運(yùn)營(yíng)商進(jìn)行判別和管理。其次,DoCoMo自身也通過(guò)合作等方式與銀行、音樂(lè)公司等聯(lián)合開(kāi)展應(yīng)用服務(wù)。DoCoMo與幾百家銀行合作,用戶可以通過(guò)網(wǎng)上銀行轉(zhuǎn)賬、炒股;DoCoMo與相關(guān)機(jī)構(gòu)合作,提供地圖導(dǎo)航,如餐館、咖啡館、酒吧、泊車(chē)等實(shí)時(shí)信息,深受遠(yuǎn)足的旅客所喜愛(ài)。
國(guó)外的經(jīng)驗(yàn)給我們提供了很好的借鑒。隨著手機(jī)用戶的日益增長(zhǎng),運(yùn)營(yíng)商的利益空間將越來(lái)越大。雖然商機(jī)無(wú)限,運(yùn)營(yíng)商還是要在整個(gè)鏈條上給自己準(zhǔn)確定位,也只有承擔(dān)起更多的責(zé)任,創(chuàng)造出"多贏"的局面,才能最大程度上實(shí)現(xiàn)自身的利益。
我們呼吁中國(guó)的網(wǎng)絡(luò)運(yùn)營(yíng)商能夠提供一個(gè)開(kāi)放的平臺(tái),這是實(shí)現(xiàn)多贏局面的根本。在一種開(kāi)放的心態(tài)和平臺(tái)下,在這個(gè)產(chǎn)業(yè)鏈上任何一個(gè)環(huán)節(jié)做好了,對(duì)其他環(huán)節(jié)尤其是網(wǎng)絡(luò)運(yùn)營(yíng)商都是一個(gè)極大的促進(jìn),使其能夠得到更好的發(fā)展和鞏固。一個(gè)健康、良性的無(wú)線互聯(lián)產(chǎn)業(yè)鏈形成時(shí),也就是中國(guó)的無(wú)線互聯(lián)產(chǎn)業(yè)"萬(wàn)紫千紅春滿園"之際,可以把無(wú)線互聯(lián)應(yīng)用提高到一個(gè)更高的層次,創(chuàng)造更大的價(jià)值。
設(shè)備和終端制造商不斷推出招人喜愛(ài)、功能豐富但小巧玲瓏的無(wú)線互聯(lián)設(shè)備,也讓人們?cè)絹?lái)越認(rèn)識(shí)到,在那些設(shè)備上,我們沒(méi)有鍵盤(pán),或者鍵盤(pán)很。ㄖ挥袛(shù)字鍵盤(pán)),或者只有軟鍵盤(pán)(用觸摸屏),文字的輸入成為一個(gè)很大的障礙。用戶們呼喚自然語(yǔ)言,因?yàn)樗侨藱C(jī)交互的最高境界,是人機(jī)交互最自然的方式。尤其是對(duì)中文,常見(jiàn)的多音字、同音字現(xiàn)象,制約著中文短信的輸入速度。得意音通公司提供了很好的解決方案,有基于拼音的整句輸入法、基于數(shù)字的整句輸入法、基于筆劃的整句輸入法,以及基于語(yǔ)音的輸入法,等等。這些技術(shù)既可以由增值服務(wù)提供商(如Sina等)集成到服務(wù)器中以間接服務(wù)用戶,也可以由設(shè)備和終端制造商集成到新型手機(jī)(如Nokia
9210、Dopoda等)中去直接服務(wù)用戶。
另一方面,內(nèi)容提供商必須努力才能把用戶的點(diǎn)對(duì)點(diǎn)模式拓展到整個(gè)產(chǎn)業(yè)鏈,F(xiàn)今的無(wú)線互聯(lián),尚缺乏很好的內(nèi)容提供商,也沒(méi)有用到一些很好的解決方案讓用戶享受那些內(nèi)容。得意音通的語(yǔ)言理解技術(shù)可以為此提供技術(shù)保障。人們?cè)谙硎茳c(diǎn)對(duì)點(diǎn)模式帶來(lái)的好處的同時(shí),更希望能在任何時(shí)間、在任何場(chǎng)所、在任何設(shè)備享受到無(wú)線互聯(lián)服務(wù)帶來(lái)的好處。怎么去享受?
舉一個(gè)例子說(shuō),旅游。一個(gè)人到一個(gè)新的城市,如北京,他想了解有關(guān)旅游的信息。但初來(lái)乍到,不知道在哪個(gè)地方去問(wèn)。但他有手機(jī),他就可以用手機(jī)打到一個(gè)特服號(hào)碼。他可以直接用自然語(yǔ)言去問(wèn)一個(gè)擁有海量信息的服務(wù)器:北京有哪些好玩的地方,哪些地方能夠提供很好的餐飲服務(wù),哪些地方可以購(gòu)物,那些地方可以享受文化娛樂(lè)等等。用戶可以通過(guò)自然語(yǔ)言的方式享受周到的服務(wù)。在這樣的例子中,需要用到很多技術(shù),如語(yǔ)音識(shí)別、語(yǔ)言理解和語(yǔ)音合成;也需要多方面的參與,如網(wǎng)絡(luò)運(yùn)營(yíng)商、內(nèi)容提供商、增值服務(wù)提供商等。而如果要詢問(wèn)交談狀況,比如我想問(wèn)從清華大學(xué)到上地怎么走,那么就涉及到多家內(nèi)容提供商。首先必須有一個(gè)北京市的電子地圖,它給出北京市的道路、街道、建筑物、單位等靜態(tài)信息;其次還必須有交通部門(mén)的動(dòng)態(tài)信息,它瞬時(shí)提供各個(gè)道路的交通擁擠情況。有了這兩個(gè)內(nèi)容提供商的內(nèi)容服務(wù),增值服務(wù)提供商就可以集成語(yǔ)音理解技術(shù)和數(shù)據(jù)計(jì)算技術(shù),動(dòng)態(tài)給出最佳的行車(chē)路線。
很顯然,在無(wú)線互聯(lián)產(chǎn)業(yè)鏈中,任何一環(huán)的發(fā)展和提升,都給用戶帶來(lái)極大的方便,也給自己和其他環(huán)節(jié)帶來(lái)利潤(rùn)增長(zhǎng)點(diǎn)。在產(chǎn)業(yè)鏈中,"單贏"是不能長(zhǎng)久的;"多贏"才可以維護(hù)長(zhǎng)期的、穩(wěn)定的、良性的局面。
這種"多贏",有時(shí)是縱向貫串整個(gè)產(chǎn)業(yè)鏈,有時(shí)則跨平臺(tái)橫向聯(lián)合。Microsoft以及其他一些著名的國(guó)際大公司共同制定的SALT(Speech
Application Language Tag)規(guī)范;Microsoft的.NET Speech以及其他公司的成熟的語(yǔ)音和語(yǔ)言處理技術(shù)等;……都為這種跨平臺(tái)的無(wú)線互聯(lián)應(yīng)用,提供了技術(shù)保證。人們有理由相信,在不遠(yuǎn)的將來(lái),任何人、在任何時(shí)刻、在任何場(chǎng)所、在任何設(shè)備上,都可以通過(guò)自然語(yǔ)言方便瀏覽網(wǎng)頁(yè)、互相傳遞信息,實(shí)現(xiàn)無(wú)線互聯(lián)的目標(biāo)。
無(wú)線互聯(lián)在數(shù)字奧運(yùn)中的商機(jī)
北京申奧成功,不但給中國(guó)人爭(zhēng)了光,而且給中國(guó)帶來(lái)了"奧運(yùn)經(jīng)濟(jì)"的大好契機(jī);而無(wú)線互聯(lián)產(chǎn)業(yè)也將面臨很大的商機(jī)。
北京奧申委在申奧時(shí)莊嚴(yán)承諾,"在2008北京奧運(yùn),Any Time, Any Where, Any One, Any Device都能方便地獲取奧運(yùn)的信息,分享奧運(yùn)的喜悅。"《北京奧運(yùn)行動(dòng)規(guī)劃》中提出"到2008年,基本實(shí)現(xiàn)任何人、在任何時(shí)間、任何場(chǎng)所都能夠安全、方便、快捷、高效地獲取可支付得起的、豐富的、無(wú)語(yǔ)言障礙的、個(gè)性化的信息服務(wù)。"
"數(shù)字奧運(yùn)"將成為2008年北京奧運(yùn)會(huì)的一大特色。屆時(shí),來(lái)自全世界各個(gè)國(guó)家和地區(qū)的、說(shuō)各種語(yǔ)言的運(yùn)動(dòng)員、教練員和體育官員,各自有各種不同的信息咨詢需求,我們需要提供各種不同的信息。比如有的想及時(shí)了解賽事的信息,有的可能想了解比賽場(chǎng)館的信息,有的想了解從住處到場(chǎng)館的交通路線信息,有的則想了解其他與競(jìng)賽相關(guān)的信息。然而,除此之外,在運(yùn)動(dòng)員比賽完之后,運(yùn)動(dòng)員、教練員或體育官員,可能想在北京旅游、觀光、購(gòu)物等等。我們需要提供一個(gè)很好的多語(yǔ)言的語(yǔ)音識(shí)別系統(tǒng)和智能信息查詢系統(tǒng)。
這給我國(guó)的語(yǔ)音和語(yǔ)言處理技術(shù)的學(xué)術(shù)界及產(chǎn)業(yè)界提供很好的發(fā)展機(jī)會(huì)。我們面臨很多問(wèn)題需要解決,比如多語(yǔ)言識(shí)別問(wèn)題。然而更重要的是混合語(yǔ)言識(shí)別問(wèn)題,這可能比多語(yǔ)言要麻煩一點(diǎn)。因?yàn)閷?duì)多語(yǔ)言識(shí)別,你說(shuō)日語(yǔ),就提供日語(yǔ)的服務(wù);你說(shuō)漢語(yǔ),就提供漢語(yǔ)的服務(wù);你說(shuō)英語(yǔ),就提供英語(yǔ)的服務(wù);等等……這就是多語(yǔ)言。在實(shí)際情況下往往并不完全是這樣,有時(shí)是混合語(yǔ)言,比如他在說(shuō)中文的時(shí)候突然夾雜兩個(gè)英文詞或日文詞,甚至兩三種語(yǔ)言混在一起。
除了多語(yǔ)言和混合語(yǔ)言識(shí)別外,還有機(jī)器翻譯等。在奧運(yùn)期間,世界上每一個(gè)國(guó)家都要來(lái)參加,語(yǔ)言是很多的,而賽事信息可能是用中文或英文存儲(chǔ)和處理的。有一個(gè)很好的做法就是有一個(gè)翻譯系統(tǒng),讓各種語(yǔ)言和中文或英文之間可以互譯。
這就給無(wú)線互聯(lián)產(chǎn)業(yè)帶來(lái)很大機(jī)遇。圍繞體育賽事、北京旅游、北京購(gòu)物、北京文化、航班查詢、飛機(jī)訂票等等,內(nèi)容提供商、設(shè)備和終端開(kāi)發(fā)商、增值服務(wù)提供商等都有很多機(jī)會(huì)。
短信――中國(guó)特色的無(wú)線互聯(lián)業(yè)務(wù)
我到過(guò)十幾個(gè)國(guó)家和地區(qū),我發(fā)現(xiàn)在無(wú)線互聯(lián)領(lǐng)域里,短信(Short Message)是一個(gè)非常具有中國(guó)特色的現(xiàn)象。短信在中國(guó)發(fā)展很快,僅在今年春節(jié)期間短信量就達(dá)到七八十億條,著實(shí)給產(chǎn)業(yè)界以很大的震動(dòng)和驚喜。短信甚至成了中國(guó)一種特有的文化現(xiàn)象,大家通過(guò)短信聊天、對(duì)話、拜年、祝福,似乎成了一種新的時(shí)尚。
中國(guó)的短信市場(chǎng)是一個(gè)很大的潛在市場(chǎng)。我覺(jué)得會(huì)有更大的發(fā)展。為什么呢?因?yàn)槟壳暗亩绦胖稽c(diǎn)對(duì)點(diǎn)的形式,是中低端形式。正如我剛才說(shuō)的,現(xiàn)在牽涉到環(huán)節(jié)只有"用戶->運(yùn)營(yíng)商->用戶"。事實(shí)上還可以讓整個(gè)產(chǎn)業(yè)鏈更好地動(dòng)起來(lái)。
比如把內(nèi)容服務(wù)商加進(jìn)來(lái),提供高考信息。每年在高考前后,不管考生本人也好,考生家長(zhǎng)也好,都非常關(guān)心報(bào)志愿的情況、高考的情況。能不能通過(guò)某種形式把高考的信息、招生的信息搜集起來(lái)?這就是內(nèi)容服務(wù)商的工作。做完以后加上語(yǔ)言理解的技術(shù),就可以把這些信息提供給考生及其家長(zhǎng)、親屬,做高考志愿的參謀,做高考成績(jī)、錄取消息的信鴿。這個(gè)產(chǎn)業(yè)會(huì)是很大的,中國(guó)的父母都望子成龍,為此他們不惜花錢(qián);而作為短信這種最方便、最經(jīng)濟(jì)的方式,考生和家長(zhǎng)將更愿意接受,所謂物美價(jià)廉。
無(wú)線互聯(lián)給人類(lèi)更自由的信息交流手段,擴(kuò)大了人們的行動(dòng)空間;語(yǔ)音與語(yǔ)言技術(shù)讓人類(lèi)以更自然、更直接的方式進(jìn)行交流,將創(chuàng)造出全新的思想空間。讓我們一起多進(jìn)行思想交流、碰撞,一起來(lái)實(shí)現(xiàn)我們的夢(mèng)想。
得意音通公司供稿 CTI論壇編輯
相關(guān)鏈接:新浪“無(wú)線互聯(lián)”論壇第二期 清華大學(xué)計(jì)算機(jī)應(yīng)用專(zhuān)業(yè)博士鄭方聊天實(shí)錄
相關(guān)鏈接: