為什么深度學(xué)習(xí)需要使用 GPU？

發(fā)布時(shí)間： 2023-10-24 10:35

為什么深度學(xué)習(xí)需要使用 GPU？選擇 GPU 有兩點(diǎn)原因：

深度學(xué)習(xí)的運(yùn)算可以并行
GPU 運(yùn)算的核心數(shù)多

1. 并行運(yùn)算

深度學(xué)習(xí)會(huì)涉及大量的矩陣運(yùn)算。

對(duì)于 $n \times k ">$ n\times k維的矩陣 $A = [a 11 a 12 ? a 1 k ? ? ? ? a n 1 a n 2 ? a n k] ">$ A=\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1k}\\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nk} \\ \end{bmatrix}

以及 $k \times m ">$ k\times m維的矩陣 $B = [b 11 b 12 ? b 1 m ? ? ? ? b k 1 b k 2 ? b k m] ">$

B=\begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1m}\\ \vdots & \vdots & \ddots & \vdots \\ b_{k1} & b_{k2} & \cdots & b_{km} \\ \end{bmatrix}

在計(jì)算兩者乘積的結(jié)果 $C = A \times B ">$

C=A\times B時(shí)， $C ">$

C中任意一個(gè)元素的計(jì)算公式為：

$c i j = \sum r = 1 k a i r b r j, i \in [1, n], j \in [1, m] ">$ c_{ij}=\sum_{r=1}^{k}a_{ir}b_{rj}, i\in\left[ 1, n \right], j\in\left[ 1, m \right]

從公式中可以看出： $C ">$ C 中的每個(gè)元素的計(jì)算沒(méi)有關(guān)聯(lián)性，因此可以同時(shí)并行運(yùn)算。

2. 核心多

好比 GPU 有好多成千上萬(wàn)的的“小計(jì)算器”，CPU 中幾個(gè)或十幾個(gè)的“高性能的小計(jì)算器”。

因此從這個(gè)可以看出，GPU 上的運(yùn)算單元比 CPU 多。

雖然 CPU 上每個(gè)單元性能高，但面對(duì)大量計(jì)算時(shí)，GPU 在完成一批矩陣運(yùn)算時(shí)，同時(shí)運(yùn)算的數(shù)量高，所以總體下來(lái)還是 GPU 適合。

實(shí)際上深度學(xué)習(xí)并不一定需要用GPU，只是如果不使用GPU，訓(xùn)練模型所耗的時(shí)間會(huì)變得巨長(zhǎng)，如果沒(méi)有并行運(yùn)行，GPU可能還不如CPU。

GPU優(yōu)勢(shì)在于并行運(yùn)算，而深度學(xué)習(xí)中的運(yùn)算大部分都是矩陣運(yùn)算 (矩陣運(yùn)算就是并行運(yùn)算的一種)?？梢韵胂?矩陣A * 矩陣B = 矩陣C，GPU可以做到的并行運(yùn)算是指，矩陣C中的每個(gè)元素可以同時(shí)運(yùn)算得出，而CPU可以做到的只能夠是先算出矩陣C第一行第一列的元素，接著再去算第一行第二列的元素，與此類(lèi)推。

CPU就好比1位高中生，5分鐘就能做出一道幾何題，但是要讓他5分鐘做1000道簡(jiǎn)單的加法題，可能會(huì)做不完。而GPU就好比100位小學(xué)生，雖然會(huì)的東西不及高中生，但是讓它們?cè)?分鐘內(nèi)合力完成1000道簡(jiǎn)單的加法題，還是綽綽有余的。

同一深度學(xué)習(xí)模型gpu運(yùn)算一定比cpu快，模型越復(fù)雜（神經(jīng)網(wǎng)絡(luò)層數(shù)越多、每層訓(xùn)練器維度越大），gpu優(yōu)勢(shì)越明顯。

CPU和GPU主要區(qū)別:中央處理器和圖像處理器

解析GPU與顯卡之間的關(guān)系：探究現(xiàn)代計(jì)算機(jī)圖形的神奇結(jié)合

操久久,日韩无码视频123,99热99在线观看,久草免费在线视频

1. 并行運(yùn)算

2. 核心多