
該研究的核心概念是將多種類型的數據整合到一個多維索引(或用人工智能術語來說,“嵌入空間”)中。這個概念可能有些抽象,但它正是近期生成式人工智能熱潮的基礎。例如,人工智能圖像生成器,如 DALL-E、Stable Diffusion 和 Midjourney 等,都依賴于在訓練階段將文本和圖像聯系在一起的系統。它們在尋找視覺數據中的模式的同時,將這些信息與圖像的描述相連。這就是為什么這些系統能夠根據用戶的文本輸入生成圖片。同樣的道理也適用于許多能夠以同樣方式生成視頻或音頻的人工智能工具。
Meta 公司稱,其模型 ImageBind 是第一個將六種類型的數據整合到一個嵌入空間中的模型。這六種類型的數據包括:視覺(包括圖像和視頻);熱力(紅外圖像);文本;音頻;深度信息;以及最有趣的一種 —— 由慣性測量單元(IMU)產生的運動讀數。(IMU 存在于手機和智能手表中,用于執(zhí)行各種任務,從手機從橫屏切換到豎屏,到區(qū)分不同類型的運動。)
未來的人工智能系統將能夠像當前針對文本輸入的系統一樣,交叉引用這些數據。例如,想象一下一個未來的虛擬現實設備,它不僅能夠生成音頻和視覺輸入,還能夠生成你所處的環(huán)境和物理站臺的運動。你可以要求它模擬一次漫長的海上旅行,它不僅會讓你置身于一艘船上,并且有海浪的聲音作為背景,還會讓你感受到甲板在腳下搖晃和海風吹拂。
Meta 公司在博客文章中指出,未來的模型還可以添加其他感官輸入流,包括“觸覺、語音、氣味和大腦功能磁共振成像信號”。該公司還聲稱,這項研究“讓機器更接近于人類同時、全面、直接地從多種不同的信息形式中學習的能力。”
當然,這很多都是基于預測的,而且很可能這項研究的直接應用會非常有限。例如,去年,Meta 公司展示了一個人工智能模型,能夠根據文本描述生成短而模糊的視頻。像 ImageBind 這樣的研究顯示了未來版本的系統如何能夠整合其他數據流,例如生成與視頻輸出匹配的音頻。
對于行業(yè)觀察者來說,這項研究也很有趣,因為注意到 Meta 公司是開源了底層模型的,這在人工智能領域是一個越來越受到關注的做法。