下圖顯示了一個包含兩個完全NVLink連接的GPU四聯(lián)體的8-GPU混合立方體網(wǎng)格,四聯(lián)體之間的NVLink連接以及每個四聯(lián)體內(nèi)的GPU直接通過PCIe連接到各自的CPU。通過使用單獨(dú)的NVLink連接跨越兩個四聯(lián)體之間的間隙,可以減輕對每個CPU的PCIe上行鏈路的壓力,并且避免通過系統(tǒng)內(nèi)存和跨CPU鏈接路線路由傳輸。
注意,8-GPU混合立方體網(wǎng)格的每一半都可以作為共享內(nèi)存多處理器運(yùn)行,而遠(yuǎn)程節(jié)點(diǎn)也可以通過對等DMA共享內(nèi)存。由于所有GPU到GPU的流量都通過NVLink進(jìn)行,因此PCIe現(xiàn)在完全可用于連接到NIC(未顯示)或用于訪問系統(tǒng)內(nèi)存流量。這種配置通常適用于通用的深度學(xué)習(xí)應(yīng)用程序,并已實(shí)現(xiàn)在NVIDIA的新DGX-1服務(wù)器中。
下圖展示了一個四個GPU的集群,其中每個GPU都通過單個NVLink連接到其對等方。在這種情況下,對等方可以雙向通信,達(dá)到40 GB / sec的雙向帶寬(雙重鏈接的雙向帶寬為80GB / sec),從而實(shí)現(xiàn)GPU之間的強(qiáng)大數(shù)據(jù)共享。
雖然NVLink主要集中在將多個NVIDIA Tesla P100加速器連接在一起,但它也可以用作CPU到GPU的互連。例如,Tesla P100加速器可以通過NVIDIA NVLink技術(shù)連接到IBM的POWER8。POWER8與NVLink?支持四個NVLink。
下圖顯示了一個單GPU連接到啟用NVLink的CPU。在這種情況下,GPU可以以高達(dá)160 GB / sec的雙向帶寬訪問系統(tǒng)內(nèi)存,比PCIe提供的帶寬高5倍。
下圖顯示了一個系統(tǒng),其中每個GPU與CPU之間有兩個NVLink。每個GPU上剩余的兩個鏈接用于對等方通信
如Tesla P100設(shè)計(jì)部分所述,NVLink互連在P100加速器上。P100包括兩個400針高速連接器。其中一個連接器用于模塊上/下的NVLink信號;另一個用于供電、控制信號和PCIe I/O。
Tesla P100加速器可以安裝到更大的GPU載體或系統(tǒng)板中。GPU載體可以與其他P100加速器或PCIE控制器建立必要的連接。由于與傳統(tǒng)GPU板相比,P100加速器的尺寸更小,因此客戶可以輕松構(gòu)建裝有比以往更多GPU的服務(wù)器。通過NVLink提供的額外帶寬,GPU到GPU的通信不會因PCIe帶寬的限制而成為瓶頸,為GPU聚類提供以前不可用的機(jī)會。
在GPU架構(gòu)接口層面上,NVLink控制器通過另一個名為High-Speed Hub(HSHUB)的新塊與GPU內(nèi)部通信。HSHUB直接訪問GPU寬交叉開關(guān)和其他系統(tǒng)元素,例如高速復(fù)制引擎(HSCE),可用于以最高NVLink速率將數(shù)據(jù)移動進(jìn)入和移出GPU。下圖展示了NVLink與HSHUB以及GP100 GPU中的一些高級塊之間的關(guān)系。