通過(guò) NVIDIA H800 Tensor Core GPU,在每個(gè)工作負(fù)載中實(shí)現(xiàn)出色性能、可擴(kuò)展性和安全性。使用 NVIDIA? NVLink? Switch 系統(tǒng),可連接多達(dá) 256 個(gè) H800 來(lái)加速百億億級(jí) (Exascale) 工作負(fù)載,另外可通過(guò)專用的 Transformer 引擎來(lái)處理萬(wàn)億參數(shù)語(yǔ)言模型。與上一代產(chǎn)品相比,H800 的綜合技術(shù)創(chuàng)新可以將大型語(yǔ)言模型的速度提高 30 倍,從而提供業(yè)界領(lǐng)先的對(duì)話式 AI。
變革 AI 訓(xùn)練
H800 配備第四代 Tensor Core 和 Transformer 引擎(FP8 精度),與上一代產(chǎn)品相比,可為多專家 (MoE) 模型提供高 9 倍的訓(xùn)練速度。通過(guò)結(jié)合可提供 400 GB/s GPU 間互連的第四代 NVlink、可跨節(jié)點(diǎn)加速每個(gè) GPU 通信的 NVLINK Switch 系統(tǒng)、PCIe 5.0 以及 NVIDIA Magnum IO? 軟件,為小型企業(yè)到大規(guī)模統(tǒng)一 GPU 集群提供高效的可擴(kuò)展性。
在數(shù)據(jù)中心級(jí)部署 H800 GPU 可提供出色的性能,并使所有研究人員均能輕松使用新一代百億億次級(jí) (Exascale) 高性能計(jì)算 (HPC) 和萬(wàn)億參數(shù)的 AI。
實(shí)時(shí)深度學(xué)習(xí)推理
AI 正在利用一系列廣泛的神經(jīng)網(wǎng)絡(luò)解決范圍同樣廣泛的一系列商業(yè)挑戰(zhàn)。出色的 AI 推理加速器不僅要提供非凡性能,還要利用通用性加速這些神經(jīng)網(wǎng)絡(luò)。
H800 進(jìn)一步擴(kuò)展了 NVIDIA 在推理領(lǐng)域的市場(chǎng)領(lǐng)先地位,其多項(xiàng)先進(jìn)技術(shù)可將推理速度提高 30 倍,并提供超低的延遲。第四代 Tensor Core 可加速所有精度(包括 FP64、TF32、FP32、FP16 和 INT8)。Transformer 引擎可結(jié)合使用 FP8 和 FP16 精度,減少內(nèi)存占用并提高性能,同時(shí)仍能保持大型語(yǔ)言模型的準(zhǔn)確性。
百億億次級(jí)高性能計(jì)算
NVIDIA 數(shù)據(jù)中心平臺(tái)性能持續(xù)提升,超越摩爾定律。H800 的全新突破性 AI 性能進(jìn)一步加強(qiáng)了 HPC+AI 的力量,加速科學(xué)家和研究人員的探索,讓他們?nèi)硇耐度牍ぷ?,解決世界面臨的重大挑戰(zhàn)。
H800 還采用 DPX 指令,其性能比 NVIDIA A800 Tensor Core GPU 高 7 倍,在動(dòng)態(tài)編程算法(例如,用于 DNA 序列比對(duì) Smith-Waterman)上比僅使用傳統(tǒng)雙路 CPU 的服務(wù)器快 40 倍。
加速數(shù)據(jù)分析
在 AI 應(yīng)用開(kāi)發(fā)過(guò)程中,數(shù)據(jù)分析通常會(huì)消耗大部分時(shí)間。原因在于,大型數(shù)據(jù)集分散在多臺(tái)服務(wù)器上,由僅配備商用 CPU 服務(wù)器組成橫向擴(kuò)展式的解決方案缺乏可擴(kuò)展的計(jì)算性能,從而陷入困境。
搭載 H800 的加速服務(wù)器可以提供相應(yīng)的計(jì)算能力,并利用 NVLink 和 NVSwitch 每個(gè) GPU 3 TB/s 的顯存帶寬和可擴(kuò)展性,憑借高性能應(yīng)對(duì)數(shù)據(jù)分析以及通過(guò)擴(kuò)展支持龐大的數(shù)據(jù)集。通過(guò)結(jié)合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 軟件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS?,NVIDIA 數(shù)據(jù)中心平臺(tái)能夠以出色的性能和效率加速這些大型工作負(fù)載
內(nèi)置機(jī)密計(jì)算
當(dāng)今的機(jī)密計(jì)算解決方案基于 CPU,對(duì)于 AI 和 HPC 等計(jì)算密集型工作負(fù)載來(lái)說(shuō),這些解決方案遠(yuǎn)遠(yuǎn)無(wú)法滿足需求。NVIDIA 機(jī)密計(jì)算是 NVIDIA Hopper? 架構(gòu)的內(nèi)置安全功能,該功能使 H800 成為 NVIDIA 率先推出的具有機(jī)密計(jì)算功能的加速器。用戶可以在獲取 H800 GPU 出色加速功能的同時(shí),保護(hù)使用中的數(shù)據(jù)和應(yīng)用的機(jī)密性和完整性。它創(chuàng)建了基于硬件的可信執(zhí)行環(huán)境 (TEE),用于保護(hù)并隔離在單個(gè) H800 GPU、節(jié)點(diǎn)內(nèi)多個(gè) H800 GPU 或單個(gè) MIG 實(shí)例上運(yùn)行的整個(gè)工作負(fù)載。在 TEE 內(nèi),GPU 加速應(yīng)用的運(yùn)行可以保持不變,且不必對(duì)其進(jìn)行分區(qū)。用戶可以將適用于 AI 和 HPC 的 NVIDIA 軟件的強(qiáng)大功能與 NVIDIA 機(jī)密計(jì)算提供的硬件信任根的安全性相結(jié)合。
為大規(guī)模 AI 和高性能計(jì)算提供出色的性能
Hopper Tensor Core GPU 將為 NVIDIA Grace Hopper CPU+GPU 架構(gòu)提供支持,該架構(gòu)專為 TB 級(jí)加速計(jì)算而構(gòu)建,可為大型 AI 和 HPC 提供 10 倍的性能。NVIDIA Grace CPU 利用 Arm? 架構(gòu)的靈活性來(lái)創(chuàng)建 CPU 和服務(wù)器架構(gòu),該架構(gòu)是專門(mén)針對(duì)加速計(jì)算而從頭開(kāi)始設(shè)計(jì)的。Hopper GPU 與 Grace CPU 搭配,使用 NVIDIA 超快速的芯片間互連技術(shù),可提供 900GB/s 的帶寬,比 PCIe 5.0 快 7 倍。與當(dāng)今運(yùn)行最快的服務(wù)器相比,這種創(chuàng)新設(shè)計(jì)將 GPU 的聚合系統(tǒng)顯存帶寬提高 30 倍,并且會(huì)將運(yùn)行數(shù)萬(wàn)億字節(jié)數(shù)據(jù)的應(yīng)用性能提高 10 倍。
注:與 NVIDIA 產(chǎn)品相關(guān)的圖片或視頻(完整或部分)的版權(quán)均歸 NVIDIA Corporation 所有。