亚洲人成免费,国产精品色在线网站,亚洲精品久久久一线二线三线,国产欧美久久久,中文字幕av一区二区三区人,三级国产毛片,美女被麻豆免费网站

您當(dāng)前的位置是:  首頁 > 新聞 > 專家觀點(diǎn) >
 首頁 > 新聞 > 專家觀點(diǎn) >

QCon演講:實(shí)時(shí)音視頻質(zhì)量評估與監(jiān)控

2017-04-20 14:02:11   作者:   來源:CTI論壇   評論:0  點(diǎn)擊:


 \ 
  QCon北京2017,我司陳若非博士講解了《實(shí)時(shí)音視頻質(zhì)量評估與監(jiān)控》,以下是演講精要。
  陳若非,畢業(yè)于香港城市大學(xué),Ph.D。在聲網(wǎng)Agora.io負(fù)責(zé)基礎(chǔ)音頻技術(shù)。曾任職于YY基礎(chǔ)技術(shù)研發(fā)部。IEEE期刊與會(huì)議評審。
  目前,在實(shí)時(shí)音視頻領(lǐng)域普遍存在幾個(gè)問題:
  • 對實(shí)時(shí)音視頻的難度估計(jì)不足
  • 對實(shí)時(shí)音視頻的測試方法了解不多
  • 對上線后可能遇到的困難準(zhǔn)備不足
  這三個(gè)問題,就導(dǎo)致了一些實(shí)時(shí)音視頻產(chǎn)品在上線后,質(zhì)量差、用戶體驗(yàn)差,甚至不能達(dá)到商用的標(biāo)準(zhǔn)。
  本文將會(huì)解答以下3個(gè)問題:
  • 音視頻的現(xiàn)狀與趨勢
  • 音視頻的質(zhì)量問題及其來源
  • 如何快速建立一個(gè)公平有效的評估體系
  實(shí)時(shí)音視頻的現(xiàn)狀
\
  實(shí)時(shí)音視頻,最主要的特點(diǎn)是,低延時(shí)。根據(jù)ITU-TG.114標(biāo)準(zhǔn),單向通話延時(shí)大于150ms就可受到通話連續(xù)性受到影響,最大可容忍時(shí)延為400ms。
  實(shí)時(shí)音視頻,主要會(huì)應(yīng)用于實(shí)時(shí)的音視頻通信,比如網(wǎng)絡(luò)電話、視頻通話;也會(huì)應(yīng)用于直播,尤其是直播中的多主播連麥;同時(shí),還會(huì)應(yīng)用于一些垂直場景,比如手游中的玩家實(shí)時(shí)對講,在線教育課程等。
\
  目前,實(shí)時(shí)音視頻這個(gè)領(lǐng)域,涉及到三個(gè)層次。最底層的硬件基礎(chǔ)設(shè)施升級,wifi的普及,3G向4G、甚至5G的升級,手機(jī)等終端設(shè)備計(jì)算能力的提升,都會(huì)加速實(shí)時(shí)音視頻的發(fā)展。中間層是實(shí)時(shí)云CaaS(Communications-as-a-Service,通訊即服務(wù))。CaaS是將傳統(tǒng)電信的能力如消息、語音、視頻、會(huì)議、通信協(xié)同等封裝成API或者SDK通過互聯(lián)網(wǎng)對外開放,將電信能力真正作為服務(wù)對外提供。聲網(wǎng)Agora.io就處于這一層。最頂層應(yīng)用層,直接面向終端用戶,涉及到諸多垂直行業(yè)。
  實(shí)時(shí)音視頻的發(fā)展趨勢
\
  實(shí)時(shí)音視頻,朝著3個(gè)方向發(fā)展:
  越來越真實(shí)
  • 視頻清晰度和音頻音質(zhì),隨著技術(shù)和硬件的發(fā)展,在不斷提高。VR視頻,極大的增強(qiáng)了用戶的沉浸感。聲網(wǎng)的音頻已經(jīng)可以做到180°的立體聲,聲音自帶方位感。
  • \
  • 實(shí)時(shí)音視頻也在朝著越來越多互動(dòng)發(fā)展,直播連麥、手游音視頻社交、以Houseparty為代表的創(chuàng)新社交模式,這些創(chuàng)新應(yīng)用,在實(shí)時(shí)音視頻出現(xiàn)之前是很難普及的。
\

  • 實(shí)時(shí)音視頻,有了越來越多的玩法,人臉識(shí)別技術(shù)的具體應(yīng)用:美顏和換臉。音頻方面也可以有變聲這樣好玩的功能。
  實(shí)時(shí)音視頻質(zhì)量的挑戰(zhàn)
  以上趨勢,對實(shí)時(shí)音視頻有了更大的挑戰(zhàn)和更高的要求:
  • 更大的數(shù)據(jù)量
  • 更低的延時(shí)
  • 更多的算法
  這是一個(gè)視頻質(zhì)量對比的案例,右側(cè)視頻出現(xiàn)的問題分別有:
  • 出圖慢,視頻首幀時(shí)間明顯慢于左邊的視頻
  • 畫面模糊
  • 延時(shí)
  • 卡頓,甚至卡住
  • 綠屏,花屏
  那么問題來了:
  • 什么情況下會(huì)出現(xiàn)這些問題?
  • 是網(wǎng)絡(luò)問題還是設(shè)備問題?
  • 影響了多少用戶?是個(gè)例問題還是全局問題?
  • 如何在測試中盡可能的覆蓋這些問題?
\
  實(shí)時(shí)音視頻質(zhì)量問題的來源
  實(shí)時(shí)音視頻,總共分幾個(gè)環(huán)節(jié):采集、前處理和編碼、傳輸、解碼和后處理、渲染。
  采集:iOS是比較簡單的,Android則要做些機(jī)型適配工作(聲網(wǎng)Agora.io目前適配了5000+Android機(jī)型)。PC最麻煩各種奇葩攝像頭驅(qū)動(dòng),出了問題特別不好處理。
  前處理:美顏、換臉就是在這個(gè)環(huán)節(jié)處理。美顏算法需要懂圖像處理算法的人,沒有好的開源實(shí)現(xiàn)。算法設(shè)計(jì)好后還需要優(yōu)化。容易出現(xiàn)的問題有:GPU占用太高導(dǎo)致手機(jī)發(fā)燙,手機(jī)發(fā)燙會(huì)導(dǎo)致攝像頭采集掉幀。這需要豐富的經(jīng)驗(yàn)來支撐。
  編碼:分為硬編碼和軟編碼,720P需要硬編碼。但是硬件編碼不靈活,兼容性有問題。編碼還需要考慮網(wǎng)絡(luò)和設(shè)備兼容,尤其是數(shù)千種安卓設(shè)備。在這個(gè)環(huán)節(jié),軟編碼可能會(huì)導(dǎo)致CPU發(fā)燙,進(jìn)一步導(dǎo)致攝像頭采集掉幀,長期發(fā)燙的直接反應(yīng)是費(fèi)電。這些是性能方面的問題。音視頻編解碼技術(shù)還涉及到網(wǎng)絡(luò)傳輸,編碼的碼率、幀率、分辨率直接影響網(wǎng)絡(luò)傳輸效率。
  傳輸:聲網(wǎng)的音視頻傳輸是通過自建的SD-RTN? ( Software Defined Real-time Network),專為實(shí)時(shí)傳輸設(shè)計(jì)的虛擬通信網(wǎng)絡(luò)來進(jìn)行。這是一種新型的專為實(shí)時(shí)傳輸而設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu),基于UDP協(xié)議。通過在互聯(lián)網(wǎng)上不同地區(qū)的數(shù)據(jù)中心放置軟件組網(wǎng)單元,相互連接互相調(diào)度,在現(xiàn)有的公共互聯(lián)網(wǎng)基礎(chǔ)上構(gòu)建一層新的虛擬網(wǎng)絡(luò)。SD-RTN?系統(tǒng)能夠?qū)崟r(shí)根據(jù)各節(jié)點(diǎn)的連接和傳輸狀況、負(fù)載狀況以及到用戶的距離和響應(yīng)時(shí)間,自動(dòng)分配最優(yōu)、最通暢的傳輸路徑,達(dá)到實(shí)時(shí)傳輸需要的質(zhì)量保障級別。
  解碼:這一環(huán)節(jié)需要做容錯(cuò)處理和適配。解碼和編碼一樣,都存在發(fā)燙,導(dǎo)致手機(jī)卡,耗電量高的問題。
  渲染:可能存在的問題是,手機(jī)明明解碼出好多幀數(shù)據(jù),就是渲染不出來。為什么聲畫就是不同步?
  這幾個(gè)環(huán)節(jié),歸納起來可分為:物理環(huán)境、設(shè)備環(huán)境、網(wǎng)絡(luò)環(huán)境,三個(gè)不同環(huán)境,導(dǎo)致能導(dǎo)致實(shí)時(shí)音視頻最后出現(xiàn)質(zhì)量問題。
\
  如何設(shè)計(jì)一個(gè)質(zhì)量評估體
  那么,如何設(shè)計(jì)一個(gè)質(zhì)量評估體系來監(jiān)控上述三個(gè)環(huán)境?
  這三個(gè)環(huán)境的特點(diǎn)是,隨機(jī)性、多元性和主觀性。我們的質(zhì)量評估體系,需要能夠重現(xiàn)問題、發(fā)現(xiàn)問題的關(guān)聯(lián)性,并且統(tǒng)一評價(jià)標(biāo)尺。與此同時(shí),還要考慮到成本、覆蓋性等問題。
\

\
  實(shí)時(shí)音視頻質(zhì)量評估中,我們是選擇主觀測試還是客觀測試呢?是選擇標(biāo)準(zhǔn)化測試還是自建呢?
  客觀測試(標(biāo)準(zhǔn)化)
  我們想要定量的分析一個(gè)音頻引擎的優(yōu)劣點(diǎn),就必須在測試中盡可能的排除網(wǎng)絡(luò)、設(shè)備和物理環(huán)境等因素帶來的隨機(jī)性影響。3GPP、ESTI等通信業(yè)國際標(biāo)準(zhǔn),對手機(jī)通信的測試環(huán)境方法有很多要求和指引。簡單的說,我們需要足夠安靜且反射路徑最小化的聲學(xué)環(huán)境來避免周圍的環(huán)境音來影響測試,所以需要有專業(yè)設(shè)計(jì)的消聲室。我們需要可重復(fù)又高保真的發(fā)聲和收音裝置來覆蓋人的正常說話和聽力動(dòng)態(tài)范圍,所以需要人工耳和人工嘴。另外,為了覆蓋更多的真實(shí)場景,我們還需要網(wǎng)損設(shè)備來模擬和控制丟包。需要近似真實(shí)環(huán)境的沉浸式噪音場景,我們需要在人工頭的四周布置高保真的音箱來制造噪聲聲場。
\
  客觀測試的一個(gè)重要優(yōu)點(diǎn)是,網(wǎng)絡(luò)設(shè)備物理環(huán)境條件相對可控,可重復(fù)性較強(qiáng)。這些通信標(biāo)準(zhǔn)定義的客觀指標(biāo)也很大程度上可以幫助快速定位音視頻問題。但是客觀測試本身也它自己的局限性。首先,要搭建上述的一套科學(xué)的客觀測試環(huán)境,一般需要七位數(shù)字人民幣的預(yù)算,這對很多公司來說已經(jīng)是個(gè)很大的制約了。更重要的是,客觀測試雖然可以暴露一些明顯的問題,但是很難覆蓋到一些細(xì)節(jié)和定位到問題的根源。 所以無論是出于成本的考慮還是更細(xì)節(jié)的分析,我們都需要有合理的主觀測試來彌補(bǔ)客觀測試的一些問題。
  主觀測試
  一般比較常用的做法是請足夠多的人來采集有統(tǒng)計(jì)意義的樣本,然后對測試人員做一定的培訓(xùn)。最后根據(jù)信號(hào)失真度,背景侵入度,和總體質(zhì)量等方面來對音視頻通話打分。
  這種方法主要用來比較不同引擎之間的總體主觀感受,如果需要更細(xì)節(jié)的發(fā)現(xiàn)和比較問題,還是需要跟針對性的測試。
  主觀測試相對來比較靈活,可以不必限定在消聲室中進(jìn)行。但是為了盡量避免我們之前的提到的設(shè)備網(wǎng)絡(luò)環(huán)境的不確定因素,測試人員和被測設(shè)備需要分別放置于兩個(gè)音源隔離的房間。雖然主觀評估的準(zhǔn)確性較高,但是也有一些缺點(diǎn)。例如,人眼和人腦會(huì)疲勞,從而導(dǎo)致在一定時(shí)間內(nèi)能進(jìn)行的測試量較少;人的主觀性導(dǎo)致結(jié)果的可重復(fù)性會(huì)有一定的偏差。
\
  評估還需要有參考對象,有比較的進(jìn)行評估。
\

\
  測試環(huán)境搭建的標(biāo)準(zhǔn),需考慮的模塊,流程可以參考上圖。下面一個(gè)視頻,是聲網(wǎng)關(guān)于延時(shí)的評估案例,用到磁懸浮地球儀和一個(gè)在線秒表。第一排是本地視頻,第二排是接收端接收到的圖像。左右兩個(gè)是不同產(chǎn)品的對比測試。通過錄像,我們可以看到對比之下的延時(shí)和畫面質(zhì)量。
  搭建好本地環(huán)境后,就需要執(zhí)行測試。共涉及三個(gè)環(huán)節(jié)
  • 人員
  • 測試項(xiàng)
  • 結(jié)果分析
\

\

\
  實(shí)時(shí)音視頻質(zhì)量的監(jiān)控
  前面部分講的是實(shí)時(shí)音視頻質(zhì)量的評估,那么產(chǎn)品上線后,應(yīng)該如何監(jiān)控?需要覆蓋兩個(gè)方面:
  • 全局質(zhì)量監(jiān)控
  • 個(gè)例問題調(diào)查
\
  全局監(jiān)控的目的是:
  • 準(zhǔn)確了解全網(wǎng)質(zhì)量,而不是僅僅局限于自己測試或者用戶反饋
  • 通過數(shù)據(jù)驅(qū)動(dòng)發(fā)現(xiàn)問題,驗(yàn)證質(zhì)量改進(jìn)的效果
  • 全局監(jiān)控要遵循一個(gè)規(guī)則:看分布不看均值
  在描述服務(wù)質(zhì)量時(shí),均值是很弱的概念。舉個(gè)例子:中國家庭平均資產(chǎn)92萬;把收入從高到低排序,排到第95%位置的家庭,年收入是900元。第一個(gè)均值對了解人民生活水平意義不大,第二個(gè)告訴我們很多人還在艱難謀生。因此聲網(wǎng)在統(tǒng)計(jì)全局質(zhì)量時(shí):看分布、不看均值。上圖中是聲網(wǎng)做的一個(gè)統(tǒng)計(jì),反應(yīng)每天使用用戶大概比例,用什么網(wǎng)絡(luò)什么系統(tǒng),音頻視頻打分如何,丟包率如何?
\
  全局反饋良好,但依然有用戶報(bào)問題,我的聲音聽不到怎么辦?聲網(wǎng)在實(shí)踐當(dāng)中做了這樣一套系統(tǒng),可以根據(jù)用戶ID去查詳細(xì)的通話信息:包括一些碼率、CPU的情況、音頻錄音大小可以自己看得到,這樣子就能定位問題。

專題