操久久,日韩无码视频123,99热99在线观看,久草免费在线视频

NVIDIA A10 與 A100 GPU 對比分析:用于LLM 和Stable Diffusion推理
發(fā)布時間: 2024-07-02 14:22

部署新的 ML 模型時,很難決定需要哪種 GPU 進(jìn)行推理。您需要一款能夠運行模型的 GPU,但又不想花太多錢購買比您需要的更強(qiáng)大的顯卡。本文比較了兩種流行的模型推理選擇 — NVIDIA 的 A10 和 A100 GPU,并討論了使用多 GPU 實例處理較大模型的選項。


在為模型推理任務(wù)選擇 A10 和 A100 時,請考慮延遲、吞吐量和模型大小的要求以及預(yù)算。而且您不僅限于單個 GPU。您可以通過在單個實例中組合多個 A100 來運行對于一個 A100 來說太大的模型,并且您可以通過將它們拆分到多個 A10 上來節(jié)省一些大型模型推理任務(wù)的費用。


NVIDIA A10 顯卡

本指南將幫助您在為模型推理工作負(fù)載選擇 GPU 時在推理時間和成本之間做出正確的權(quán)衡。


一、關(guān)于 Ampere GPU


A10 和 A100 中的“A”表示這些 GPU 是基于 NVIDIA 的Ampere 微架構(gòu)構(gòu)建的。Ampere 以物理學(xué)家 André-Marie Ampère 的名字命名,是 NVIDIA 推出的一種微架構(gòu),用于替代之前的Turing 微架構(gòu)。Ampere 微架構(gòu)于 2020 年首次發(fā)布,為RTX 3000 系列消費級 GPU提供支持,其中最受矚目的是 GeForce RTX 3090 Ti,但它在數(shù)據(jù)中心的影響更大?;?Ampere 的數(shù)據(jù)中心 GPU 有六種:


NVIDIA A2

NVIDIA A10

NVIDIA A16

NVIDIA A30

NVIDIA A40

NVIDIA A100(有 40 和 80 GiB 版本)


在這些 GPU 中,A10 和 A100 最常用于模型推理,還有 A10G,這是 A10 的 AWS 特定變體,可互換用于大多數(shù)模型推理任務(wù)。我們將在本文中比較標(biāo)準(zhǔn) A10 和 80 GB 的 A100。


二、A10 與 A100:規(guī)格


這兩款 GPU 都有很長的規(guī)格表,但一些關(guān)鍵信息讓我們了解 A10 和 A100 在 ML 推理方面的性能差異。




對于機(jī)器學(xué)習(xí)推理來說,最重要的因素是 FP16 Tensor Core 性能,它表明 A100 的性能是 A10 的兩倍多,擁有 312 teraFLOP(1 teraFLOP 是每秒一萬億次浮點運算)。A100 還擁有三倍以上的 VRAM,這對于處理大型模型至關(guān)重要。


1、核心數(shù)量和核心類型


A100 的卓越性能源自其較高的Tensor Core數(shù)量。




CUDA 核心是 GPU 中的標(biāo)準(zhǔn)核心。A10 的 CUDA 核心實際上比 A100 多,這與其更高的基本 FP32 性能相對應(yīng)。但對于 ML 推理而言,Tensor Cores 更為重要。


Ampere 卡采用第三代 Tensor Core。這些核心專門用于矩陣乘法,這是 ML 推理中最耗費計算資源的部分之一。A100 的 Tensor Core 數(shù)量比 A10 多 50%,這使其模型推理能力得到極大提升。


光線追蹤 (RT) 核心不用于大多數(shù) ML 推理任務(wù)。它們更常用于使用 Blender、Unreal Engine 和 Unity 等引擎的面向渲染的工作負(fù)載。A100 針對 ML 推理和其他 HPC 任務(wù)進(jìn)行了優(yōu)化,因此它沒有任何 RT 核心。


2、VRAM 和內(nèi)存類型


VRAM,即視頻隨機(jī)存取存儲器,是 GPU 上的內(nèi)存,可用于存儲計算數(shù)據(jù)。VRAM 通常是模型調(diào)用的瓶頸;您需要足夠的 VRAM 來加載模型權(quán)重并處理推理。


A10 具有 24GiB 的 DDR6 VRAM。同時,A100 有兩個版本:40GiB 和 80GiB。兩個版本的 A100 都使用 HBM2,這是一種比 DDR6 更快的內(nèi)存架構(gòu)。由于采用了 HBM2 架構(gòu),A100 比 A10 擁有更大的內(nèi)存總線和更大的帶寬。HBM2 的生產(chǎn)成本更高,因此僅限于這些旗艦 GPU。


Baseten 為 A100 提供 80GiB VRAM,因為這通常是模型推理所需要的。


三、A10 與 A100:性能


規(guī)格看起來很棒,但它們?nèi)绾无D(zhuǎn)化為實際任務(wù)?我們在 A10 和 A100 上對Llama 2和Stable Diffusion等流行模型的模型推理進(jìn)行了基準(zhǔn)測試,以了解它們在實際用例中的表現(xiàn)。


這些示例中的所有模型均以浮點 16 (fp16) 運行。這通常稱為“半精度”,意味著 GPU 正在對 16 位浮點數(shù)進(jìn)行計算,與以全精度 (浮點 32) 進(jìn)行計算相比,這可節(jié)省大量時間和內(nèi)存。


1、Llama 2 推理


Llama 2是 Meta 開源的大型語言模型,有三種大?。?0 億、130 億和 700 億個參數(shù)。模型大小越大,結(jié)果越好,但需要更多的 VRAM 來運行模型。


一個好的經(jīng)驗法則是,大型語言模型在 fp16 中運行時,每十億個參數(shù)需要 2 GB 的 VRAM,再加上運行推理和處理輸入和輸出的一些開銷。因此,Llama 2 模型具有以下硬件要求:



A100 GPU 可讓您運行更大的模型,對于超過其 80 GB VRAM 容量的模型,您可以在單個實例中使用多個 GPU 來運行該模型。A100 GPU 可讓您運行更大的模型,對于超過其 80 GB VRAM 容量的模型,您可以在單個實例中使用多個 GPU 來運行該模型。


2、Stable Diffusion 推理


Stable Diffusion 適用于 A10 和 A100,因為 A10 的 24 GiB VRAM 足以運行模型推理。因此,如果它適用于 A10,為什么還要在更昂貴的 A100 上運行它?


A100 不僅更大,而且速度更快。優(yōu)化穩(wěn)定擴(kuò)散推理后,該模型在 A100 上的運行速度大約是在 A10 上的兩倍。




因此,如果必須盡快生成圖像,則在 A100 上部署將為您提供單個請求的最快推理時間。


四、A10 與 A100:價格


雖然 A100 比 A10 更大更快,但使用起來也更昂貴。捷智算 的 A100 實例每分鐘 0.10240 美元,是最便宜的配備 A10 的實例(每分鐘 0.02012 美元)的五倍。


如果更快的推理時間絕對重要,您可以在 A100 上運行較小的模型(如 Stable Diffusion)以獲得更快的結(jié)果。但成本很快就會增加。因此,如果您主要關(guān)心的是吞吐量(單位時間內(nèi)創(chuàng)建的圖像數(shù)量,而不是創(chuàng)建每個圖像所需的時間),那么您最好水平擴(kuò)展到多個實例,每個實例都使用 A10。使用 捷智算 ,您可以在每次模型部署時獲得自動擴(kuò)展基礎(chǔ)設(shè)施,從而使這種水平擴(kuò)展自動化。


1、計算模型吞吐量


假設(shè)您需要 Stable Diffusion 每分鐘 1,000 張圖像的吞吐量,但生成每張圖像需要多少秒并不重要。做出許多現(xiàn)實世界中不存在的簡化假設(shè)(一致的流量模式、可忽略的網(wǎng)絡(luò)延遲等),您將從 A10 實例每分鐘獲得大約 34 張圖像,這意味著您將以每分鐘約 0.60 美元(每分鐘每實例 0.02012 美元乘以 30 個實例)的價格獲得所需的吞吐量。


同時,在 A100s 上,您只需要 15 個實例,每分鐘就可以生成 67 張圖像,但每個實例的成本是其 5 倍,總吞吐量成本約為 1.54 美元/分鐘(每個實例每分鐘 0.10240 美元乘以 15 個實例),或大約 2.5 倍。




除非生成每張圖像的時間非常關(guān)鍵,否則在許多用例中,使用 A10 進(jìn)行水平擴(kuò)展可以為您提供比使用 A100 更具成本效益的吞吐量。


管理模型推理的多個副本可能是一個很大的難題,因此 Baseten 提供了自動擴(kuò)展功能,使吞吐量的擴(kuò)展變得簡單且免維護(hù)。


2、多個 A10 與一個 A100


A10 還可以幫助您垂直擴(kuò)展,創(chuàng)建更大的實例來運行更大的模型。假設(shè)您想要運行一個太大而無法在 A10 上容納的模型,例如Llama-2-chat 13B。除了啟動昂貴的 A100 支持的實例之外,您還有另一種選擇。


相反,您可以選擇在具有多個 A10 的單個實例上運行模型。2 個 A10 合計擁有 48 GiB 的 VRAM,足以滿足 130 億參數(shù)模型的需求。具有 2 個 A10 的實例每分鐘成本為 0.05672 美元,略高于單個 A100 成本的一半。


當(dāng)然,在 A100 上推理速度仍然會更快。在一個實例中使用多個 A10 可讓您在更大的模型上運行推理,但這不會使推理速度更快。使用多個 A10 而不是 A100 的選項可讓您根據(jù)用例和預(yù)算在速度和成本之間進(jìn)行權(quán)衡。


捷智算  提供多 GPU 實例,最多可配備 8 個 A10 或 8 個 A100。


五、哪種 GPU 適合您?


A100 無疑是一款功能強(qiáng)大的顯卡,也是某些 ML 推理任務(wù)的唯一選擇。但 A10(尤其是在單個實例中具有多個顯卡的情況下)為許多工作負(fù)載提供了經(jīng)濟(jì)高效的替代方案。最終,選擇取決于您的需求和預(yù)算。


如果 A10 和 A100 都超出了您的使用情況,這里是A10 與較小的 T4 GPU 的比較,與要求不高的推理任務(wù)相比,這可以為您節(jié)省 A10 的費用。


還有 A10G,這是 A10 的 AWS 專用變體。雖然這些卡具有不同的統(tǒng)計數(shù)據(jù),但它們對于大多數(shù)模型推理任務(wù)而言是可以互換的。


如需估算不同 GPU 的成本,請查看捷智算 的定價頁面,并使用我們方便的計算器根據(jù)按分鐘付費的 GPU 定價估算每月支出。我們隨時幫助您找到最適合您的 ML 推理需求的硬件。

粵公網(wǎng)安備 44030502006483號、 粵ICP備15047669號
  • 捷易科技聯(lián)系人