全球最強(qiáng)大的 GPU,可增強(qiáng) AI 和 HPC 工作負(fù)載。
NVIDIA H200 Tensor Core GPU 具有改變游戲規(guī)則的性能和內(nèi)存功能,可增強(qiáng)生成式 AI 和高性能計(jì)算 (HPC) 工作負(fù)載。作為首款采用 HBM3e 的 GPU,H200 更大更快的內(nèi)存可加速生成式 AI 和大型語(yǔ)言模型 (LLM),同時(shí)推進(jìn) HPC 工作負(fù)載的科學(xué)計(jì)算。
1.9倍 速度提高
1.6倍 速度提高
110倍 速度提高
NVIDIA H200基于NVIDIA Hopper 架構(gòu),是首款以每秒 4.8 兆兆字節(jié) (TB/s) 的速度提供 141 GB HBM3e 內(nèi)存的 GPU,幾乎是 NVIDIA?H100 Tensor Core GPU容量的兩倍(1.4 倍)更多內(nèi)存帶寬。H200 更大更快的內(nèi)存可加速生成式 AI 和法學(xué)碩士,同時(shí)以更高的能效和更低的總擁有成本推進(jìn) HPC 工作負(fù)載的科學(xué)計(jì)算。
初步測(cè)量的性能,可能會(huì)有變化。
Llama2 13B: ISL 128, OSL 2K | Throughput | H100 1x GPU BS 64 | H200 1x GPU BS 128
GPT-3 175B: ISL 80, OSL 200 | x8 H100 GPUs BS 64 | x8 H200 GPUs BS 128
Llama2 70B: ISL 2K, OSL 128 | Throughput | H100 1x GPU BS 8 | H200 1x GPU BS 32.
在不斷發(fā)展的人工智能領(lǐng)域,企業(yè)依靠法學(xué)碩士來滿足各種推理需求。當(dāng)為大量用戶群大規(guī)模部署時(shí),人工智能推理加速器必須以最低的 TCO 提供最高的吞吐量。
在處理 Llama2 等 LLM 時(shí),H200 的推理速度比 H100 GPU 提高了 2 倍。
內(nèi)存帶寬對(duì)于 HPC 應(yīng)用程序至關(guān)重要,因?yàn)樗梢詫?shí)現(xiàn)更快的數(shù)據(jù)傳輸,減少?gòu)?fù)雜的處理瓶頸。對(duì)于模擬、科學(xué)研究和人工智能等內(nèi)存密集型 HPC 應(yīng)用,H200 更高的內(nèi)存帶寬可確保高效地訪問和操作數(shù)據(jù),與 CPU 相比,獲得結(jié)果的時(shí)間最多可加快 110 倍。
預(yù)計(jì)性能可能會(huì)發(fā)生變化。
HPC MILC- dataset NERSC Apex Medium | HGX H200 4-GPU | dual Sapphire Rapids 8480
HPC Apps- CP2K: dataset H2O-32-RI-dRPA-96points | GROMACS: dataset STMV | ICON: dataset r2b5 | MILC: dataset NERSC Apex Medium | Chroma: dataset HMC Medium | Quantum Espresso: dataset AUSURF112 | 1x H100 | 1x H200.
單節(jié)點(diǎn) HGX 實(shí)測(cè)性能 |?A100 2021 年 4 月 |?H100 TensorRT-LLM 2023 年 10 月 |?H200 TensorRT-LLM 2023 年 10 月
NVIDIA Hopper 架構(gòu)比其前身實(shí)現(xiàn)了前所未有的性能飛躍,并通過 H100 的持續(xù)軟件增強(qiáng)(包括最近發(fā)布的NVIDIA TensorRT-LLM?等強(qiáng)大的開源庫(kù))繼續(xù)提高標(biāo)準(zhǔn)。
H200 的推出延續(xù)了這一勢(shì)頭,提供了更多性能。對(duì)其進(jìn)行投資可確保現(xiàn)在的性能領(lǐng)先,并且通過對(duì)支持的軟件的持續(xù)改進(jìn),確保未來的性能領(lǐng)先。
NVIDIA AI Enterprise 與 NVIDIA H200 一起簡(jiǎn)化了 AI 就緒平臺(tái)的構(gòu)建,加速了生產(chǎn)就緒的生成式 AI、計(jì)算機(jī)視覺、語(yǔ)音 AI 等的 AI 開發(fā)和部署。它們共同提供企業(yè)級(jí)安全性、可管理性、穩(wěn)定性和支持,以更快地收集可行的見解并更快地實(shí)現(xiàn)有形的業(yè)務(wù)價(jià)值。
構(gòu)成因素 | H200 SXM1 |
---|---|
FP64 | 34 萬億次浮點(diǎn)運(yùn)算 |
FP64 Tensor Core | 67 萬億次浮點(diǎn)運(yùn)算 |
FP32 | 67 萬億次浮點(diǎn)運(yùn)算 |
TF32 Tensor Core | 989 萬億次浮點(diǎn)運(yùn)算2 |
BFLOAT16 Tensor Core | 1,979 TFLOPS2 |
FP16 Tensor Core | 1,979 TFLOPS2 |
FP8 Tensor Core | 3,958 TFLOPS2 |
INT8 Tensor Core | 3,958 TFLOPS2 |
顯存 | 141GB |
GPU顯存帶寬 | 4.8TB/s |
解碼器 | 7 NVDEC 7 JPEG |
最大熱設(shè)計(jì)功率 (TDP) | Up to 700W (configurable) |
多實(shí)例 GPU | Up to 7 MIGs @16.5GB each |
Form Factor | SXM |
Interconnect | NVIDIA NVLink?: 900GB/s PCIe Gen5: 128GB/s |
Server Options | NVIDIA HGX? H200 partner and NVIDIA-Certified Systems? with 4 or 8 GPUs |
NVIDIA AI Enterprise | Add-on |
1初步規(guī)格??赡軙?huì)有變化。 |