ImageNet 競賽落幕,視頻分析成為新熱點
素有國際“計算機視覺奧林匹克”之稱的 ImageNet 挑戰(zhàn)賽今年已是最后一期,這標志著靜態(tài)圖片的分類、物體檢測等任務日趨成熟。但是在視頻內容分析領域仍存在巨大挑戰(zhàn),也是當前學術界的研究熱點。ACM Multimedia 作為多媒體領域的頂級學術會議,旗下大規(guī)模視頻分類挑戰(zhàn)賽 (LSVC) 意在考察大規(guī)模未分割視頻的算法識別能力。
LSVC 使用的數(shù)據(jù)集是在復旦-哥倫比亞視頻數(shù)據(jù)集 (FCVID) 基礎上擴充而來,它包含來自 YouTube 和 Flicker 的超過 8000 小時的視頻,標注為 500 種分類。包括社交事件、動作、物體、場景等多種類型。最終測試集為 78,000 多個視頻。
萬億級數(shù)據(jù)處理系統(tǒng)支撐+算法優(yōu)化
針對本次挑戰(zhàn)賽任務的復雜情況,團隊為海量視頻數(shù)據(jù)設計的流式數(shù)據(jù)處理系統(tǒng) (Elastic Streaming Sequential Data Processing System) 及七牛云存儲系統(tǒng)提供了重要支撐。ESSP 系統(tǒng)基于微服務搭建,充分考慮了視頻分析處理中空間和時序特征的存取需求,系統(tǒng)支持任務自動調度,多節(jié)點機器學習組件自動并行;主節(jié)點和工作節(jié)點均采用 Kubernetes 進行容器管理,可以靈活地進行服務部署、維護及擴展。

海量視頻數(shù)據(jù)設計的流式數(shù)據(jù)處理系統(tǒng)(Elastic Streaming Sequential Data Processing System)
算法層面,團隊采用了多種模態(tài)信息對視頻內容進行描述,包括視頻幀特征、光流特征、音頻特征等,并采用了包含 Squeeze-and-Excitation 結構的 NetVLAD、DBoF 等網絡對多種特征進行聚合。團隊還研究了一種緊湊高效的視頻幀特征表示方法,利用該方法可以減小模型規(guī)模、并極大地提升模型訓練速度。團隊最終取得了87.05%的準確率,以0.36%之差位居亞軍,比第三名參賽隊高出近2個百分點。
傳說中的聯(lián)合戰(zhàn)隊
AtLab 和中科院上海高等研究院視覺數(shù)據(jù)智能分析實驗室組建的聯(lián)合戰(zhàn)隊在視頻、檢測等學術領域建立了長期研究合作關系,優(yōu)勢互補,此次首戰(zhàn)視頻競賽即取得不錯的成果。

AtLab 和中科院上海高等研究院視覺數(shù)據(jù)智能分析實驗室組建的聯(lián)合戰(zhàn)隊
中科院上海高等研究院視覺數(shù)據(jù)智能分析實驗室著力于視覺大數(shù)據(jù)智能分析技術的研究和應用,如海量視頻分析、字符檢測識別、場景理解等基礎計算機視覺問題,為視覺智能應用提供技術支撐。
AtLab 成立僅一年的時間,但團隊核心成員都在人工智能領域積累了多年經驗,AtLab 發(fā)起人彭垚在富媒體海量數(shù)據(jù)分析與機器學習領域有超過 10 年的產品研發(fā)經驗,曾擔任 IBM 系統(tǒng)與科技實驗室研發(fā)架構和管理工作多年,已在美國、法國發(fā)表數(shù)篇專業(yè)領域發(fā)明專利。
此次獲獎,是對 AtLab 學術應用能力的檢驗。彭垚表示:七牛云從存儲起家,經歷多年的積累,存儲的圖片總量超過 2000 億張,視頻長度超過 10 億小時。對擁有這些數(shù)據(jù)的客戶來說,他們的圖像視頻內涵到底是什么非常重要:首先他們需要去審核這些內容是否健康、合法。更重要的是,他們希望通過這些用戶上傳的數(shù)據(jù)內容做一些深度的分析,這對用戶畫像的構建,增加平臺對用戶的粘性有非常大的價值。

七牛云智能多媒體API
七牛的理念就是縮短想法到產品的距離,所以七牛成立人工智能實驗室 AtLab,在底層構建了彈性深度學習平臺 AVA 來滿足巨大的計算需求。在應用層提供多個計算機視覺 API ,幫助企業(yè)把人工智能與具體的業(yè)務結合,讓計算機視覺在廣電、傳媒、安防、金融等行業(yè)落地。在不久的將來,七牛會把平臺能力開放出去,提供一套完整的數(shù)據(jù)集和模型生產工具鏈。