VMware和Nvidia今天宣布將合作加速企業(yè)人工智能應(yīng)用的開(kāi)發(fā)。

VMware新版本的vSphere 7服務(wù)器虛擬化產(chǎn)品和vSAN 7存儲(chǔ)虛擬化產(chǎn)品將以更高的安全性和更簡(jiǎn)化的操作,運(yùn)行那些要求支持AI就緒基礎(chǔ)設(shè)施的應(yīng)用。具體來(lái)說(shuō),VMware和Nvidia將提供軟件堆棧讓客戶通過(guò)利用Nvidia硬件開(kāi)發(fā)新的應(yīng)用,以及升級(jí)現(xiàn)有應(yīng)用和基礎(chǔ)設(shè)施。
此次對(duì)雙方聯(lián)合開(kāi)發(fā)的AI就緒企業(yè)平臺(tái)的更新中,VMware vSphere 7 Update 2 通過(guò)了Nvidia AI Enterprise的認(rèn)證,后者制是一個(gè)包括了優(yōu)化AI應(yīng)用和框架的云原生集合,讓運(yùn)行在VMware虛擬機(jī)上的、基于Nvidia GPU的工作負(fù)載比之前性能提高了多達(dá)20倍。
Nvidia企業(yè)和邊緣計(jì)算總經(jīng)理Justin Boitano表示:“vSphere的性能實(shí)際上與裸機(jī)沒(méi)有區(qū)別,你可以在一個(gè)沒(méi)有孤島的控制平面上進(jìn)行管理。”
這次對(duì)vSphere的更新還增加了在Nvidia認(rèn)證系統(tǒng)上對(duì)Nvidia A100和Nvidia A40 Tensor Core GPU的支持,這些認(rèn)證系統(tǒng)中就包括了Nvidia的HGX和EGX服務(wù)器平臺(tái),讓可以可以先他們現(xiàn)有的虛擬化環(huán)境中增加特定AI的平臺(tái),而不必單獨(dú)運(yùn)行AI工作負(fù)載。
Boitano說(shuō):“人工智能是一個(gè)全棧計(jì)算問(wèn)題,但在某種程度上是以DIY的方法進(jìn)行設(shè)置和管理的。這讓我們可以利用現(xiàn)有針對(duì)AI的工具在vSphere下釋放全部性能潛力。”
更好的共享功能和工作負(fù)載可移植性
此次集成將讓VMware客戶可以利用最新一代Nvidia GPU(如多實(shí)例GPU)中的功能,在多個(gè)用戶之間共享GPU周期,而且可以利用VMware vSphere vMotion進(jìn)行遷移,利用vSphere Distributed Resource Scheduler實(shí)現(xiàn)負(fù)載平衡。
VMware云平臺(tái)業(yè)務(wù)部門副總裁Lee Caswell表示,vSphere Distributed Resource Scheduler讓用戶可以在公共群集中的節(jié)點(diǎn)之間移動(dòng)應(yīng)用,或者根據(jù)工作負(fù)載需求的變化實(shí)時(shí)分發(fā)應(yīng)用。另一項(xiàng)功能支持Nvidia多實(shí)例GPU,允許單個(gè)GPU在多達(dá)7個(gè)虛擬機(jī)之間進(jìn)行共享,并具有故障隔離功能以防止宕機(jī)的發(fā)生。
此外,Nvidia還對(duì)AI和數(shù)據(jù)科學(xué)應(yīng)用程序和框架庫(kù)、云原生部署工具以及Nvidia基礎(chǔ)結(jié)構(gòu)優(yōu)化庫(kù)(稱為Nvidia AI Enterprise,搭配vSphere一起使用)進(jìn)行了認(rèn)證。Boitano說(shuō):“我們發(fā)現(xiàn),如果一家新公司剛剛開(kāi)始AI之旅,那么他們可能要花費(fèi)80多周的時(shí)間來(lái)整理數(shù)據(jù)、訓(xùn)練模型、開(kāi)發(fā)模型并建立連接工廠車間的計(jì)算機(jī)視覺(jué)管道。”他說(shuō),Nvidia的預(yù)訓(xùn)練模型和Transfer Learning Toolkit可用于將現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型中的學(xué)習(xí)特征提取到新模型中,從而將時(shí)間“縮短到8周”。
除了宣布與Nvidia的合作關(guān)系外,VMware還表示,已經(jīng)將vSphere中的VMware NSX Advanced Load Balancer Essentials與Tanzu應(yīng)用現(xiàn)代化套件進(jìn)行了整合,這將實(shí)現(xiàn)針對(duì)Kubernetes集群的VMware多云負(fù)載平衡,并提供一條路徑讓客戶能夠使用NSX Advanced Load Balancer Enterprise Edition的全部功能。
Kubernetes是用于便攜式模塊化的容器軟件平臺(tái)一種主流編排工具。VSphere with Tanzu中新增了一個(gè)更新的管理程序,支持最新的Kubernetes 1.19版本,該版本的增強(qiáng)功能可以簡(jiǎn)化升級(jí)并提高穩(wěn)定性。
vSAN的超融合功能
VMware表示,現(xiàn)在已經(jīng)有超過(guò)30000家客戶在使用vSAN存儲(chǔ)虛擬化層,此次vSAN也進(jìn)行了升級(jí),支持增強(qiáng)的HCI Mesh。這是一種基于軟件的超融合基礎(chǔ)設(shè)施,讓企業(yè)組織可以將存儲(chǔ)孤島統(tǒng)一到一個(gè)虛擬資源中。
這次更新主要針對(duì)那些希望在現(xiàn)有vSAN環(huán)境基礎(chǔ)上提高資源利用率的客戶,讓純計(jì)算或者非HCI集群可以遠(yuǎn)程使用來(lái)自數(shù)據(jù)中心內(nèi)vSAN集群的存儲(chǔ),從而可以獨(dú)立次擴(kuò)展計(jì)算或者存儲(chǔ)。
“我怎么知道下一個(gè)節(jié)點(diǎn)是不是計(jì)算能力和容量的最有組合?這次升級(jí)讓可以能夠在服務(wù)器之間靈活地共享容量,甚至使單個(gè)刀片服務(wù)器都可以直接訪問(wèn)vSAN存儲(chǔ),”他說(shuō),HCI Mesh“打破了可擴(kuò)展性的限制,讓你可以利用任何多余的存儲(chǔ)容量。”
這次升級(jí)的vSAN 7還添加了新功能,以更好地支持各種物理拓?fù),包括集成的分布式資源調(diào)度工具,用于了解擴(kuò)展集群配置,實(shí)現(xiàn)更一致的故障恢復(fù),還有vSAN文件服務(wù)講支持?jǐn)U展集群和雙節(jié)點(diǎn)集群。
Caswell表示:“如果你將計(jì)算轉(zhuǎn)移到另一個(gè)位置,通常會(huì)遇到性能問(wèn)題。增強(qiáng)的擴(kuò)展集群仍然可以保持計(jì)算和存儲(chǔ)的并存,即使是在故障轉(zhuǎn)移發(fā)生的情況下。”此外性能也有所提升,支持直接內(nèi)存訪問(wèn),讓不同主機(jī)在無(wú)需CPU干預(yù)的情況下訪問(wèn)彼此的內(nèi)存。
在安全方面,升級(jí)的vSphere 7引入了Confidential Containers for vSphere Pods,后者采用AMD硬件功能在虛擬機(jī)停止運(yùn)行時(shí)加密所有CPU寄存器的內(nèi)容。另外一項(xiàng)新功能vSphere Native Key Provider可以提供基本的密鑰管理服務(wù)器功能,為客戶提供開(kāi)箱即用的加密功能和高級(jí)安全功能。
Caswell說(shuō),在分布式混合云和新型邊緣環(huán)境中,“我們可以讓不通過(guò)任何方式與互聯(lián)網(wǎng)連接的遠(yuǎn)程辦公環(huán)境獨(dú)立于中央密鑰管理系統(tǒng)運(yùn)行,從而避免了外部密鑰管理服務(wù)的成本和復(fù)雜性。”
升級(jí)的vSAN 7還支持vSphere Proactive High Availability,該功能可以將應(yīng)用狀態(tài)和存儲(chǔ)的數(shù)據(jù)主動(dòng)移至另一臺(tái)主機(jī),以避免在性能降級(jí)的硬件上丟失數(shù)據(jù)。此外數(shù)據(jù)持久性也有所增強(qiáng),減少意外故障(例如多個(gè)磁盤故障)下宕機(jī)和數(shù)據(jù)丟失的發(fā)生。
所有更新現(xiàn)已可用。