北京時間2012年9月13日,以“開放 誠信 融合——迎接移動互聯(lián)網(wǎng)新時代”為主題的2012中國互聯(lián)網(wǎng)大會進(jìn)行到第三天?拼笥嶏w副總裁 江濤 應(yīng)邀參加了今天的“第二屆中國移動互聯(lián)網(wǎng)基地招商大會”,并進(jìn)行了主題為“開啟交互新時代”的精彩演講。
(科大訊飛副總裁 江濤 進(jìn)行主題演講)
以下為江濤演講實錄:
說到人機交互就是不斷的讓人變得更懶。十年前我們用手機的時候主要靠鍵盤輸入,五年前iPhone帶著多點觸控可以用觸摸操控手機。現(xiàn)在隨著語音技術(shù)的發(fā)展,新的機會又出現(xiàn)了,就是智能語音技術(shù)。我在這兒說的智能語音技術(shù)就是讓咱們的各種機器像人一樣能說會聽的技術(shù)。
訊飛的前身是科大的人機實驗室,98年科大訊飛開始創(chuàng)業(yè)的時候我們也是抱定一個信念,語音是人類獲取信息最自然便捷的手段。未來每一個手機、每一臺電視每一個汽車都會像人一樣能聽會說,這樣的信念支持下十幾年來我們就做語音支持,F(xiàn)在確實條件已經(jīng)逐步成熟。一方面關(guān)鍵技術(shù)的持續(xù)進(jìn)步,現(xiàn)在陸續(xù)都已經(jīng)達(dá)到了使用門檻,F(xiàn)在語音識別復(fù)雜的環(huán)境下已經(jīng)能夠達(dá)到90%以上,語音合成自然度已經(jīng)達(dá)到90%,這些依賴于云、管、端這些外部條件的逐步成熟。國際商智能語音交換方興未艾,昨天發(fā)布的iPhone仍然把SiRi作為最大的賣點。Google作為Android平臺的擁有者,它對于未來智能終端的人機交互也是非常重視的。2009年Google為VoiceSearch為作為面向移動互聯(lián)網(wǎng)的戰(zhàn)略性產(chǎn)品推出,今年6月份也推出了新一代的語音搜索。
另外就是微軟,比爾.蓋茨06年的一次展會中提出過未來將在操作系統(tǒng)中實現(xiàn)自然語音的人機交互,他們收購了TeLLMEe,平臺每年執(zhí)行110億次以上語音識別的請求。在中國我們東方人相對來說羞澀一點,不善于跟機器交互,但是我們還是在2010年啟動了移動互聯(lián)網(wǎng)的項目。2010年10月份我們在業(yè)界第一個發(fā)布了能同時提供高質(zhì)量語音識別能力的訊飛語音云平臺。一年多過去了,成果還是比較顯著的,現(xiàn)在基于訊飛語音云的帳戶已經(jīng)有6000多個,上線的有幾百個應(yīng)用,覆蓋了娛樂、虛擬形象搜索等等各個領(lǐng)域都有一些很典型的應(yīng)用。
語音云的用戶規(guī)?焖俪砷L,2011年底上線,當(dāng)時6個月做到了一百萬的用戶,剩下下半年從一百萬增長到了一千萬的用戶。今年上半年訊飛語音云用戶從一千萬增長到了六千萬。訊飛的語音云在汽車、電視上已經(jīng)有很多應(yīng)用。去年廣州車展最火的一款車榮威350,內(nèi)置了IVOKA五的系統(tǒng),就是訊飛語音云。長虹新款的電視中都把訊飛的語音交互技術(shù)作為一個最大的賣點。
我們今年3月份在國家會議中心發(fā)布了新一代語音云,新一代語音云的后臺技術(shù)到了什么狀態(tài)呢?國際上有一個W最權(quán)威的語音大賽,是由美國和日本聯(lián)合發(fā)起的,科大訊飛06年第一次參加就取得了第一名,今年8月份我們第七次蟬聯(lián)了語音合成的冠軍。訊飛的語音合成系統(tǒng),在播放小說有聲讀物的時候自然度已經(jīng)超過了4.0分。5.0分是播音員最好的發(fā)音效果,4.0是普通人清晰的發(fā)音效果。另外多語種也逐步實現(xiàn)全球覆蓋,包括中文、英文、聯(lián)合國的官方語言法文等等,另外德、意、阿拉伯這些語種也正在研究。
科大訊飛有一個訊飛語點的產(chǎn)品:(演示)只要互聯(lián)網(wǎng)上有這個人足夠的聲音樣本我們可以構(gòu)建出這樣的一個人的音庫來。再講一下語音識別,訊飛在最典型的場合語音識別率都遠(yuǎn)遠(yuǎn)高出于國內(nèi)國外的同行,為什么能夠做到這一點,我們在語音識別最難的三點,噪聲適應(yīng)性、口音適應(yīng)性、個性化方面都有很好的造聲造法。
對于后臺的語音理解,這目前是業(yè)界的一個難點,如何讓人工智能、機器能夠更好的理解。現(xiàn)在科大訊飛我們是在特定的領(lǐng)域首先達(dá)到使用,F(xiàn)在訊飛語點20多個領(lǐng)域內(nèi)語音系統(tǒng)已經(jīng)有平均85%準(zhǔn)確的理解。
下面講一下訊飛語言的平臺,它是跨終端的個性化平臺,我們通過語音通行證的機制,用戶注冊以后,他可以在電視、平板、手機、電腦上只要使用語音相關(guān)數(shù)據(jù)就可以在相關(guān)帳號,不同終端可以保持一致性。通過一年多的發(fā)展,我們整個語音云在可靠性和服務(wù)效率上也有明顯的提升。對于開發(fā)者來說是提供了一個簡單易用的平臺,他可以很方便縮短語音交互應(yīng)用的開發(fā)時間。我們提供了這種可視化空間的接口,可以把交互、錄音安裝都簡化出來。應(yīng)該說這個接口的尺寸我們也很好的控制了。
剛才王煜全老師提到互聯(lián)網(wǎng)娛樂比功能重要,我們也非常認(rèn)同這一點,現(xiàn)在語音云基于語音的游戲還不太多,我個人覺得這塊未來大有可為,我希望在座開發(fā)者對游戲比較有感覺的開發(fā)者建議考慮一下如何做出模擬現(xiàn)實的游戲。
策略開發(fā)初期我們提供免費的開發(fā)支持,應(yīng)用推廣上也予以支持,規(guī)模階段再進(jìn)一步探討商業(yè)模式。具體大家可以登錄到我們的科大訊飛語音云平臺上去利用。感謝每一位開發(fā)者你們的使用為語音云數(shù)據(jù)進(jìn)行了寶貴的積累,推動了語音云效率的提升。我的介紹就到這里,謝謝大家!