操久久,日韩无码视频123,99热99在线观看,久草免费在线视频

如何增強(qiáng)大規(guī)模AI加速的硬件可靠性?GPU集群常見(jiàn)可靠性問(wèn)題及解決方案
發(fā)布時(shí)間: 2024-07-31 14:58

生成式人工智能等高級(jí)人工智能算法高度依賴硬件性能和可靠性。這些模型的訓(xùn)練和推理所涉及的計(jì)算復(fù)雜性和規(guī)模需要強(qiáng)大而可靠的硬件。


硬件故障、過(guò)熱和計(jì)算效率低下等問(wèn)題可能會(huì)嚴(yán)重影響生成式 AI 模型的開發(fā)和部署。這使得關(guān)于硬件可靠性很重要,盡管有時(shí)會(huì)被忽視,在人工智能社區(qū)中。


如何增強(qiáng)大規(guī)模AI加速的硬件可靠性?


確保硬件可靠性對(duì)于 AI 開發(fā)至關(guān)重要。不可靠的硬件可能會(huì)帶來(lái)負(fù)面影響,從丟失寶貴的訓(xùn)練數(shù)據(jù)和進(jìn)度等小麻煩到導(dǎo)致數(shù)月訓(xùn)練成果付諸東流的災(zāi)難性故障。在本文中,我們將研究與傳統(tǒng)內(nèi)部部署硬件設(shè)置相關(guān)的挑戰(zhàn),并討論為什么云 GPU 提供了實(shí)現(xiàn)和維持高水平硬件可靠性的可行解決方案。


人工智能中的硬件可靠性是什么?


硬件可靠性指底層計(jì)算基礎(chǔ)設(shè)施在指定時(shí)間內(nèi)持續(xù)無(wú)故障地執(zhí)行其預(yù)期功能的能力。這涵蓋多個(gè)方面,包括預(yù)防硬件故障、緩解錯(cuò)誤和從中斷中恢復(fù)。


在用于 AI 訓(xùn)練和推理的 GPU 集群中,可靠性是指互聯(lián) GPU并支持基礎(chǔ)設(shè)施在較長(zhǎng)時(shí)間內(nèi)持續(xù)無(wú)故障地執(zhí)行其預(yù)期功能,這是對(duì)人工智能訓(xùn)練很重要以及其他需要持續(xù)處理能力的高性能計(jì)算任務(wù)。


可靠性可以通過(guò)以下指標(biāo)來(lái)量化:平均故障間隔時(shí)間 (MTBF),它估計(jì)發(fā)生故障之前的平均運(yùn)行時(shí)間;平均修復(fù)時(shí)間 (MTTR),它測(cè)量發(fā)生故障后恢復(fù)系統(tǒng)的平均時(shí)間。較高的 MTBF 表示更高的可靠性,因?yàn)樗馕吨收祥g隔時(shí)間更長(zhǎng),而較低的 MTTR 值表示系統(tǒng)可以快速恢復(fù)到運(yùn)行狀態(tài),從而最大限度地減少停機(jī)時(shí)間。


GPU 集群中常見(jiàn)的可靠性問(wèn)題


1、GPU HBM ECC 錯(cuò)誤:


HBM(高帶寬內(nèi)存)ECC(錯(cuò)誤糾正碼)錯(cuò)誤指的是高速存儲(chǔ)器中發(fā)生的錯(cuò)誤用于現(xiàn)代 GPU。ECC 是一種旨在檢測(cè)和糾正內(nèi)存錯(cuò)誤以維護(hù)數(shù)據(jù)完整性并防止崩潰或故障的機(jī)制。


HBM ECC 錯(cuò)誤可分為兩類:


  • 可糾正錯(cuò)誤:這些是 ECC 機(jī)制可以檢測(cè)和糾正的小錯(cuò)誤,不會(huì)影響 GPU 的運(yùn)行。

  • 無(wú)法糾正的錯(cuò)誤:這些是 ECC 機(jī)制無(wú)法糾正的更嚴(yán)重錯(cuò)誤。它們可能導(dǎo)致數(shù)據(jù)損壞、崩潰或 GPU 中的其他故障。


不同的事情可能會(huì)導(dǎo)致GPU HMB ECC 錯(cuò)誤; 這里有幾個(gè):


  • 制造缺陷: HBM 芯片或互連中的缺陷可能導(dǎo)致運(yùn)行期間出現(xiàn)錯(cuò)誤。

  • 磨損:隨著時(shí)間的推移,HBM 組件會(huì)因熱量、電壓波動(dòng)或粒子輻射等因素而性能下降,從而增加出現(xiàn)錯(cuò)誤的可能性。

  • 超頻:將 GPU 推至超出其工廠指定的極限可能會(huì)給 HBM 帶來(lái)壓力并增加出現(xiàn)錯(cuò)誤的風(fēng)險(xiǎn)。

  • 軟件問(wèn)題:有故障的驅(qū)動(dòng)程序或軟件錯(cuò)誤也可能觸發(fā) HBM ECC 錯(cuò)誤。


錯(cuò)誤處理機(jī)制


減少 HMB ECC 錯(cuò)誤發(fā)生幾率的最佳方法之一是使用具有錯(cuò)誤處理機(jī)制的 GPU,例如 NVIDIA H100。您可以開始使用只需單擊幾下即可在捷智算上完成。


2、GPU 驅(qū)動(dòng)程序卡住:


GPU 驅(qū)動(dòng)程序卡住會(huì)導(dǎo)致控制圖形處理單元 (GPU) 的軟件停止響應(yīng)或變得無(wú)響應(yīng)。這可能表現(xiàn)在以下幾種方面:


  • 屏幕凍結(jié):顯示屏可能完全凍結(jié),沒(méi)有任何移動(dòng)或?qū)斎胱龀鲰憫?yīng)。

  • 黑屏:屏幕可能變黑,但計(jì)算機(jī)仍保持通電狀態(tài)。

  • 錯(cuò)誤消息:您可能會(huì)看到諸如“顯示驅(qū)動(dòng)程序停止響應(yīng)并已恢復(fù)”或類似通知的錯(cuò)誤消息。

  • 性能問(wèn)題:即使顯示器沒(méi)有完全凍結(jié),您仍然可能會(huì)在圖形密集型應(yīng)用程序中遇到延遲、卡頓或其他性能問(wèn)題。


集群中 GPU 驅(qū)動(dòng)程序問(wèn)題的一些原因包括:


  • 驅(qū)動(dòng)程序不兼容:集群內(nèi)的不同 GPU 可能具有不同的驅(qū)動(dòng)程序版本或配置,從而導(dǎo)致沖突和不穩(wěn)定。

  • 通信問(wèn)題: GPU 之間的軟件或網(wǎng)絡(luò)通信問(wèn)題可能導(dǎo)致驅(qū)動(dòng)程序掛起或崩潰。

  • 工作負(fù)載不平衡:如果工作負(fù)載在 GPU 之間分布不均勻,某些 GPU 可能會(huì)超載,從而導(dǎo)致驅(qū)動(dòng)程序因壓力過(guò)大或資源耗盡而崩潰。

  • 硬件故障:故障的 GPU 或其他硬件組件可能會(huì)觸發(fā)驅(qū)動(dòng)程序錯(cuò)誤,從而影響整個(gè)集群。


驅(qū)動(dòng)程序卡住可能會(huì)導(dǎo)致正在運(yùn)行的作業(yè)或任務(wù)失敗,從而導(dǎo)致延遲和生產(chǎn)力下降。頻繁的驅(qū)動(dòng)程序崩潰會(huì)使整個(gè)集群不穩(wěn)定,需要重新啟動(dòng)或手動(dòng)干預(yù)才能恢復(fù)功能。即使集群保持運(yùn)行,驅(qū)動(dòng)程序問(wèn)題也會(huì)導(dǎo)致性能下降和 GPU 資源利用率低下。


3、光纖收發(fā)器故障:


光模塊是 GPU 集群中不可或缺的組件,通過(guò)光纖電纜實(shí)現(xiàn) GPU、服務(wù)器和存儲(chǔ)系統(tǒng)之間的高速通信,有助于實(shí)現(xiàn) AI 工作負(fù)載的高效數(shù)據(jù)傳輸和協(xié)調(diào)。


光纖收發(fā)器故障圖


光纖收發(fā)器可能由于以下原因發(fā)生故障:


  • 熱應(yīng)力:光收發(fā)器在運(yùn)行過(guò)程中會(huì)產(chǎn)生熱量,過(guò)多的熱量會(huì)降低其性能并縮短其使用壽命。冷卻不足或環(huán)境溫度過(guò)高會(huì)加速這一過(guò)程。

  • 激光器退化:由于老化、溫度波動(dòng)和高功率操作等因素,光收發(fā)器內(nèi)的激光器會(huì)隨著時(shí)間的推移而退化。

  • 物理?yè)p壞:物理壓力(例如振動(dòng)、沖擊或誤操作)可能會(huì)損壞光收發(fā)器內(nèi)的精密組件。

  • 制造缺陷:制造過(guò)程中的缺陷可能導(dǎo)致光收發(fā)器過(guò)早失效。


光纖收發(fā)器故障可能會(huì)中斷 GPU 與集群中其他組件之間的通信,從而導(dǎo)致性能下降、錯(cuò)誤甚至整個(gè)系統(tǒng)中斷。


如果在關(guān)鍵數(shù)據(jù)傳輸過(guò)程中發(fā)生故障,則可能導(dǎo)致數(shù)據(jù)丟失或損壞。更換發(fā)生故障的光纖收發(fā)器需要停機(jī)和維護(hù),這會(huì)影響生產(chǎn)力并可能產(chǎn)生巨額成本。


4、NIC 過(guò)熱:


網(wǎng)絡(luò)接口卡 (NIC) 在高負(fù)載條件下可能會(huì)過(guò)熱,尤其是在通風(fēng)不良的環(huán)境中。過(guò)熱可能會(huì)導(dǎo)致 NIC 故障或降低性能。


由于 GPU 之間傳輸?shù)臄?shù)據(jù)量巨大,AI 工作負(fù)載的高吞吐量可能會(huì)將 NIC 推向極限,從而產(chǎn)生大量熱量,從而加劇 NIC 過(guò)熱。


當(dāng) NIC 過(guò)熱時(shí),其性能會(huì)下降,導(dǎo)致數(shù)據(jù)傳輸速率變慢、延遲增加和潛在錯(cuò)誤。長(zhǎng)時(shí)間暴露在高溫下會(huì)損壞 NIC 組件,縮短其使用壽命并可能導(dǎo)致永久性故障。


處理可靠性問(wèn)題時(shí)面臨的挑戰(zhàn)之一是GPU 直接連接通過(guò) PCIe 交換機(jī)相互連接,因此在網(wǎng)絡(luò)架構(gòu)層面沒(méi)有容錯(cuò)能力。這意味著如果一個(gè) NIC、收發(fā)器或 GPU 發(fā)生故障,整個(gè)服務(wù)器將被視為宕機(jī)。


如何預(yù)防硬件可靠性問(wèn)題


上述挑戰(zhàn)強(qiáng)調(diào)了采取主動(dòng)措施來(lái)避免或至少減少硬件可靠性問(wèn)題的重要性。以下是一些有助于提高 GPU 可靠性的步驟:


1、使用容錯(cuò)技術(shù):


容錯(cuò)是指設(shè)計(jì)系統(tǒng)即使個(gè)別組件發(fā)生故障也能繼續(xù)運(yùn)行,有時(shí)容量會(huì)降低。冗余是容錯(cuò)的一個(gè)基本方面,可以在多個(gè)級(jí)別實(shí)施。


在硬件層面,整合冗余電源、網(wǎng)絡(luò)接口和存儲(chǔ)設(shè)備可確保當(dāng)其中一個(gè)發(fā)生故障時(shí),另一個(gè)可以無(wú)縫接管。準(zhǔn)備好熱插拔備件以便立即更換 GPU 等關(guān)鍵組件,可以顯著減少停機(jī)時(shí)間。


對(duì)于數(shù)據(jù),跨多個(gè)存儲(chǔ)位置或云服務(wù)的實(shí)時(shí)復(fù)制可防止因存儲(chǔ)故障而導(dǎo)致數(shù)據(jù)丟失。此外,軟件級(jí)容錯(cuò)技術(shù)(例如檢查點(diǎn))可以幫助保留長(zhǎng)期運(yùn)行的 AI 工作負(fù)載的進(jìn)度,使其能夠在發(fā)生中斷時(shí)從保存的狀態(tài)恢復(fù)。


使用像 Oobleck 這樣的容錯(cuò)訓(xùn)練技術(shù)將會(huì)很有益。Oobleck 提供了一種容錯(cuò)方法用于深度神經(jīng)網(wǎng)絡(luò) (DNN) 的大規(guī)模分布式訓(xùn)練。其工作原理如下:


Oobleck容錯(cuò)訓(xùn)練技術(shù)


管道模板:Oobleck 使用規(guī)劃-執(zhí)行協(xié)同設(shè)計(jì)方法。它首先生成管道模板,定義要為管道分配多少個(gè)節(jié)點(diǎn)、要?jiǎng)?chuàng)建的階段以及如何將模型層映射到 GPU。這種解耦允許通過(guò)使用新的管道模板替換丟失的節(jié)點(diǎn)來(lái)快速恢復(fù)故障。


冗余計(jì)算:Oobleck 實(shí)例化多個(gè) ( f + 1) 邏輯等效的管道副本,以容忍任何f 個(gè)同時(shí)發(fā)生的故障。這種冗余確保即使多個(gè)節(jié)點(diǎn)發(fā)生故障,訓(xùn)練也可以繼續(xù)進(jìn)行,而無(wú)需完全重啟。

檢查點(diǎn):雖然傳統(tǒng)的檢查點(diǎn)方法涉及存儲(chǔ)訓(xùn)練進(jìn)度并在故障后從最新的檢查點(diǎn)重新啟動(dòng),但 Oobleck 通過(guò)動(dòng)態(tài)重新配置訓(xùn)練作業(yè)而無(wú)需大量開銷來(lái)縮短恢復(fù)時(shí)間。

無(wú)需重啟即可恢復(fù):Oobleck 允許在發(fā)生指定數(shù)量的同時(shí)故障時(shí)無(wú)需重啟即可進(jìn)行重新配置,從而保證容錯(cuò)能力。這樣可以最大限度地減少停機(jī)時(shí)間,即使在頻繁發(fā)生故障的情況下也能保持較高的訓(xùn)練吞吐量。


Oobleck已經(jīng)在 GPT-3 等大型模型上進(jìn)行評(píng)估,展示了其保持高吞吐量和有效容錯(cuò)的能力。該系統(tǒng)旨在處理現(xiàn)代人工智能模型日益增長(zhǎng)的復(fù)雜性和規(guī)模,為分布式訓(xùn)練環(huán)境提供彈性和高效的解決方案。


2、通過(guò)精簡(jiǎn)設(shè)計(jì)和智能管理實(shí)現(xiàn)軟件彈性


雖然強(qiáng)大的硬件必不可少,但軟件在確保集群可靠性方面也發(fā)揮著重要作用。復(fù)雜、結(jié)構(gòu)不良的代碼庫(kù)可能會(huì)導(dǎo)致錯(cuò)誤和漏洞。因此,采用精簡(jiǎn)和模塊化的設(shè)計(jì)方法非常重要。


分解復(fù)雜代碼將其拆分成更小、更易于管理且具有明確接口的模塊,可以提高代碼的可維護(hù)性,并降低級(jí)聯(lián)故障的風(fēng)險(xiǎn)。此外,徹底的錯(cuò)誤處理自動(dòng)化測(cè)試有助于在問(wèn)題影響集群運(yùn)行之前識(shí)別并糾正問(wèn)題。


3、硬件可靠性


基礎(chǔ)可靠的GPU集群在于選擇高質(zhì)量的硬件組件。具有內(nèi)置錯(cuò)誤糾正機(jī)制的 GPU(例如 ECC 內(nèi)存)可以自動(dòng)檢測(cè)并糾正內(nèi)存錯(cuò)誤,防止崩潰和數(shù)據(jù)損壞。


選擇具有有效熱節(jié)流功能的 GPU 可確保動(dòng)態(tài)調(diào)整性能以保持安全的工作溫度,防止熱損壞。投資企業(yè)級(jí)網(wǎng)絡(luò)接口卡 (NIC) 和耐用的光學(xué)收發(fā)器可進(jìn)一步增強(qiáng)集群內(nèi)通信基礎(chǔ)設(shè)施的彈性。


此外,適當(dāng)?shù)睦鋮s和氣流管理有助于防止過(guò)熱,從而可以顯著增加組件的壽命和可靠性。


通過(guò)結(jié)合容錯(cuò)設(shè)計(jì)原則、強(qiáng)大的軟件實(shí)踐和高質(zhì)量的硬件組件,組織可以創(chuàng)建能夠抵御故障的 GPU 集群,確保不間斷運(yùn)行并最大限度地提高其 AI 投資的價(jià)值。


雖然上述策略可以增強(qiáng)本地 GPU 集群的可靠性,但構(gòu)建和維護(hù)此類基礎(chǔ)設(shè)施所固有的復(fù)雜性和成本可能會(huì)成為沉重的負(fù)擔(dān)。


云服務(wù)捷智算平臺(tái)憑借其可擴(kuò)展且可管理的基礎(chǔ)設(shè)施,為尋求簡(jiǎn)化 AI 計(jì)劃并專注于核心研發(fā)的組織提供了極具吸引力的替代方案。具體方法如下。


云 GPU 如何解決 AI 硬件可靠性問(wèn)題


云 GPU 的優(yōu)勢(shì)之一是其固有的可擴(kuò)展性。組織可以根據(jù)其工作負(fù)載需求輕松擴(kuò)展或縮減其 GPU 資源,無(wú)需在硬件上進(jìn)行大量前期投資。這種彈性使他們能夠處理峰值工作負(fù)載,而不會(huì)在需求較低的時(shí)期過(guò)度配置資源,從而確保最佳的成本效益。


  • 內(nèi)置冗余和高可用性:云提供商通常在設(shè)計(jì)其基礎(chǔ)設(shè)施時(shí)會(huì)考慮冗余。例如,捷智算提供云環(huán)境中可用的多個(gè)關(guān)鍵組件實(shí)例,例如服務(wù)器、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)基礎(chǔ)設(shè)施。如果一個(gè)組件發(fā)生故障,工作負(fù)載可以無(wú)縫轉(zhuǎn)移到另一個(gè)組件,從而最大限度地減少停機(jī)時(shí)間并確保高可用性。

  • 托管基礎(chǔ)設(shè)施并減輕維護(hù)負(fù)擔(dān):云提供商負(fù)責(zé)管理底層硬件基礎(chǔ)設(shè)施,包括維護(hù)、更新和維修。這為組織節(jié)省了寶貴的時(shí)間和資源,使他們可以專注于核心 AI 研發(fā)活動(dòng),而不是處理復(fù)雜的硬件管理。

  • 全球覆蓋和可訪問(wèn)性:只要有互聯(lián)網(wǎng)連接,世界上任何地方都可以訪問(wèn)云 GPU,從而使地理位置分散的團(tuán)隊(duì)能夠在 AI 項(xiàng)目上無(wú)縫協(xié)作,并且允許組織在發(fā)生區(qū)域性中斷時(shí)在不同位置快速啟動(dòng)新資源,從而促進(jìn)災(zāi)難恢復(fù)。

  • 成本效率和按需付費(fèi)模式:云 GPU 提供商如捷智算通常采用即用即付模式,即組織只需為實(shí)際使用的資源付費(fèi),這樣就無(wú)需進(jìn)行大量的前期投資,并且可以實(shí)現(xiàn)更可預(yù)測(cè)的預(yù)算。此外,捷智算還提供按需、按需和定制合同的 GPU,以滿足您的工作負(fù)載,從而進(jìn)一步優(yōu)化成本效率。

  • 解決可靠性挑戰(zhàn):云 GPU 服務(wù)可以有效解決前面討論的許多可靠性挑戰(zhàn)。例如,云基礎(chǔ)設(shè)施內(nèi)置的冗余可降低單點(diǎn)故障的風(fēng)險(xiǎn)。托管基礎(chǔ)設(shè)施可確保定期更新和維護(hù)硬件,從而降低因過(guò)時(shí)的組件或軟件而出現(xiàn)問(wèn)題的可能性。此外,云提供商通常制定了強(qiáng)大的災(zāi)難恢復(fù)計(jì)劃,以確保在發(fā)生重大中斷時(shí)業(yè)務(wù)連續(xù)性。


捷智算平臺(tái)提供最新的 NVIDIA GPU,以最低的速度加快您的模型訓(xùn)練和推理。

粵公網(wǎng)安備 44030502006483號(hào)、 粵ICP備15047669號(hào)
  • 捷易科技聯(lián)系人