數(shù)據(jù)中心 GPU 在未來(lái)幾年仍將保持重要地位 - 如今仍有 K80 在運(yùn)行生產(chǎn)工作負(fù)載 - 而隨著 NVIDIA 強(qiáng)調(diào)每個(gè)新系列 GPU 的優(yōu)勢(shì),用于推銷(xiāo)這些顯卡的術(shù)語(yǔ)也會(huì)隨著時(shí)間而改變。
那么,有哪些可靠的指標(biāo)可用于比較不同架構(gòu)和層級(jí)的 GPU,以決定哪一種是運(yùn)行工作負(fù)載最具成本效益的方式?我們將考慮核心數(shù)量、FLOPS、VRAM 和 TDP。本指南可幫助您根據(jù)實(shí)際需求對(duì)顯卡進(jìn)行公平比較。
一、核心數(shù)量
您分析的顯卡可能有幾種不同類(lèi)型的核心:
CUDA 核心:最通用的核心,適用于各種計(jì)算任務(wù)。
張量核:針對(duì)某些機(jī)器學(xué)習(xí)計(jì)算進(jìn)行了優(yōu)化。
光線(xiàn)追蹤 (RT) 核心:對(duì)于游戲而言比大多數(shù) ML 更為重要,這些核心專(zhuān)門(mén)用于模擬光的行為。
原始核心數(shù)量是一個(gè)很好的信號(hào),但并不是全部。不同的顯卡有不同類(lèi)型的核心——有些有更多張量核心,有些有更多 CUDA 核心——而新架構(gòu)的顯卡也可能有某些類(lèi)型核心的新一代。正確的比較需要一個(gè)更標(biāo)準(zhǔn)化的指標(biāo):FLOPS。
二、FLOPS
FLOPS 代表每秒浮點(diǎn)運(yùn)算次數(shù),是 GPU 性能的關(guān)鍵衡量標(biāo)準(zhǔn)。
不過(guò),還有一個(gè)復(fù)雜的因素。GPU 性能的測(cè)量精度各不相同。精度是指計(jì)算中每個(gè)數(shù)字的大小,從 8 位整數(shù)到 64 位雙精度浮點(diǎn)值。
數(shù)字格式和相應(yīng)的位的使用
更高精度的數(shù)字格式的計(jì)算需要更多的處理能力。但這正是 Tensor 核心發(fā)揮作用的地方。Tensor 核心可以進(jìn)行混合精度計(jì)算,它們?cè)诖蠖鄶?shù)計(jì)算中使用較低的精度,然后以更高的精度驗(yàn)證結(jié)果。比較相同精度上相同核心類(lèi)型的 FLOPS,以便在 GPU 之間進(jìn)行適當(dāng)?shù)耐?lèi)比較。
例如,在最高精度(FP64)下,NVIDIA 的頂級(jí) A100 GPU 在標(biāo)準(zhǔn) CUDA 核心上達(dá)到 9.7 teraFLOPS,但其 Tensor 核心在相同精度下將該性能提高了一倍,達(dá)到 19.7 teraFLOPS。
精度越低,F(xiàn)LOPS 數(shù)量越高。例如,以下是 A10 和 A100 GPU 在不同精度下的計(jì)算能力比較。
不同精度下 A10 和 A100 的每秒操作數(shù)比較
三、VRAM
VRAM(視頻隨機(jī)存取存儲(chǔ)器)是顯卡的板載內(nèi)存。VRAM 之于 GPU 相當(dāng)于 RAM 之于 CPU。它存儲(chǔ)模型權(quán)重等數(shù)據(jù),以便在模型推理等計(jì)算過(guò)程中快速訪(fǎng)問(wèn)。
模型服務(wù)最重要的因素是 GPU 擁有的 VRAM 數(shù)量。為了快速調(diào)用,模型權(quán)重必須存儲(chǔ)在 VRAM 中,因此 VRAM 容量限制了模型大小。
并非所有 VRAM 都等效。還有三個(gè)因素需要考慮:
總線(xiàn)大小衡量一次可傳輸?shù)?VRAM 和從 VRAM 傳輸?shù)臄?shù)據(jù)量??偩€(xiàn)越大,模型權(quán)重加載速度越快。
時(shí)鐘速度衡量 VRAM 處理數(shù)據(jù)的速度,時(shí)鐘速度越高,內(nèi)存讀寫(xiě)速度越快。
GDDR和HBM是兩種不同類(lèi)型的 VRAM。HBM(高帶寬內(nèi)存)通常提供更高的帶寬和更低的功耗,但制造成本比 GDDR(圖形雙倍數(shù)據(jù)速率)內(nèi)存更高。最近的 100 層卡(如 A100 和 H100)使用 HBM。
更糟糕的是,并非所有同級(jí)別的 GPU 都具有相同數(shù)量的 VRAM。例如,A100 有 40GB 和 80GB 版本。因此,在配置 GPU 之前,請(qǐng)確保它具有足夠數(shù)量的 VRAM 來(lái)運(yùn)行您的模型。
四、TDP
TDP 代表熱設(shè)計(jì)功耗,指的是 GPU 在運(yùn)行時(shí)設(shè)計(jì)的最大功耗(瓦特?cái)?shù))。高端顯卡的 TDP 通常比低端顯卡高,但這并不是完美的對(duì)應(yīng)關(guān)系。
數(shù)據(jù)中心根據(jù)多種因素來(lái)為 GPU 計(jì)算時(shí)間定價(jià),但顯卡的 TDP 是其中之一。電力需要花錢(qián),而且還會(huì)產(chǎn)生熱量,而消除熱量則需要花費(fèi)更多錢(qián)。因此,TDP 較高的顯卡的運(yùn)營(yíng)成本也較高,這將影響您作為最終用戶(hù)為計(jì)算時(shí)間支付的價(jià)格。
總結(jié):選擇你的 GPU
過(guò)去十年,數(shù)據(jù)中心 GPU 的發(fā)布已經(jīng)達(dá)到二十多種,為了避免眾多GPU 之間的選擇,您可以直接找捷易科技進(jìn)行定制化購(gòu)買(mǎi)服務(wù)。