操久久,日韩无码视频123,99热99在线观看,久草免费在线视频

訓(xùn)練大型語言模型的成本是多少?LLM 訓(xùn)練成本分析
發(fā)布時(shí)間: 2024-07-23 14:09

大型語言模型(LLM),例如 OpenAI 的 GPT 系列和谷歌的 BERT已成為推動(dòng)許多應(yīng)用的基礎(chǔ)技術(shù),從自動(dòng)化客戶服務(wù)到高級(jí)研究工具。


訓(xùn)練這些模型需要大量的資金投入,主要是因?yàn)樾枰罅康膮?shù)空間和計(jì)算能力。訓(xùn)練 LLM 需要使用高端 GPU 或?qū)S?AI 硬件,這可能非常昂貴。


例如,單獨(dú)訓(xùn)練 GPT-3 的計(jì)算成本為估計(jì)范圍從約 50 萬美元到高達(dá) 460 萬美元不等,具體取決于培訓(xùn)過程中實(shí)現(xiàn)的具體硬件和運(yùn)營(yíng)效率。


本文探討了將這些生成式 AI 模型付諸實(shí)踐所涉及的多方面費(fèi)用,主要關(guān)注基礎(chǔ)設(shè)施需求、數(shù)據(jù)管理以及云計(jì)算日益重要的作用。繼續(xù)閱讀,全面了解當(dāng)今影響大型語言模型開發(fā)的財(cái)務(wù)和后勤考慮因素。


什么是大型語言模型?


LLM 旨在模仿人類智能。它們接受大量數(shù)據(jù)集的訓(xùn)練,這些數(shù)據(jù)集包含來自書籍、網(wǎng)站和其他數(shù)字內(nèi)容的文本。


它們學(xué)習(xí)語言的統(tǒng)計(jì)特性,從而能夠根據(jù)收到的輸入生成連貫且與上下文相關(guān)的文本。例如,GPT 等模型經(jīng)過各種互聯(lián)網(wǎng)文本的訓(xùn)練,可以生成在許多上下文和主題中模仿人類寫作風(fēng)格的文本。




這些模型使用注意力和上下文感知等機(jī)制來處理相互關(guān)聯(lián)的文本部分。這使得模型能夠根據(jù)文本其他部分提供的上下文,以不同的方式衡量輸入文本不同部分的重要性。這種上下文感知對(duì)于理解和生成連貫且適合上下文的響應(yīng)至關(guān)重要。


BERT就是一個(gè)例子,因?yàn)樗梢酝ㄟ^雙向閱讀文本(從左到右和從右到左)來理解句子中單詞的上下文,這比以前單向處理文本的模型有了很大的進(jìn)步。這種能力使得 BERT 特別適合那些需要深入理解語言上下文的任務(wù),例如回答問題或?qū)ξ谋具M(jìn)行分類。


大型語言模型的應(yīng)用范圍十分廣泛,涉及醫(yī)療保健等各個(gè)行業(yè),可以預(yù)測(cè)患者的結(jié)果基于歷史數(shù)據(jù),進(jìn)行娛樂,為虛擬角色生成逼真的對(duì)話。


現(xiàn)在,我們來討論一下使用云服務(wù)培訓(xùn)大型語言模型的成本。


使用云服務(wù)器訓(xùn)練大型語言模型的成本


由于多種原因,人工智能開發(fā)越來越多地轉(zhuǎn)向云平臺(tái),包括GPU短缺,云服務(wù)是培訓(xùn) LLM 最簡(jiǎn)單、最可靠的方式之一。它們的可擴(kuò)展性對(duì)于 AI 培訓(xùn)周期不斷變化的需求也非常出色。


NVIDIA 首席執(zhí)行官黃仁勛在NVIDIA GTC 2024例如,使用 25,000 塊基于 Ampere 的 GPU(很可能是 A100)訓(xùn)練 GPT-MoE-1.8T 模型需要 3 到 5 個(gè)月的時(shí)間。使用 Hopper(H100)進(jìn)行同樣的訓(xùn)練則需要大約 8,000 塊 GPU,耗時(shí) 90 天。


由于需要大量資金投入,大多數(shù)用戶不會(huì)從頭開始訓(xùn)練 LLM。相反,他們會(huì)利用其他公司或組織提供的預(yù)訓(xùn)練模型(如 ChatGPT 或 Llama2)。


使用此方法培訓(xùn) LLM 的方法有兩種:

  • 托管您自己的模型。

  • 按代幣付費(fèi)


讓我們看一下每種方法。


在云中托管模型


捷智算平臺(tái)提供全面的套件,支持整個(gè)機(jī)器學(xué)習(xí)生命周期——從數(shù)據(jù)存儲(chǔ)和計(jì)算到部署和管理。然而,基于云的培訓(xùn)的便利是有代價(jià)的。


在訓(xùn)練大型模型或具有數(shù)十億個(gè)參數(shù)的模型(如 GPT-3B 或 Falcon 180B)時(shí),成本不僅僅在于 GPU(例如 A100)。在云服務(wù)環(huán)境中,您還需要考慮:

  • 虛擬 CPU(vCPU)管理模型訓(xùn)練任務(wù)的執(zhí)行。

  • 內(nèi)存(RAM)用于存儲(chǔ)計(jì)算的即時(shí)數(shù)據(jù)。

  • 存儲(chǔ)成本,包括保存模型的參數(shù)和訓(xùn)練數(shù)據(jù)。


這些組件中的每一個(gè)都會(huì)增加成本,優(yōu)化資源使用以有效管理費(fèi)用至關(guān)重要。云提供商通常根據(jù)計(jì)算時(shí)間、分配的內(nèi)存量以及存儲(chǔ)或傳輸?shù)臄?shù)據(jù)量收費(fèi),這使得訓(xùn)練大型 AI 模型的成本特別高。


捷智算平臺(tái)上訓(xùn)練大型語言模型的成本


讓我們分析一下在大型模型上訓(xùn)練 LLM 時(shí)如何實(shí)現(xiàn)這一點(diǎn):


在撰寫本文時(shí),A100在捷智算平臺(tái)上起價(jià)為每小時(shí) 1.67 美元或每月 1,219.94 美元。如果考慮其他成本(例如所需的 vCPU 和內(nèi)存),則每個(gè)費(fèi)用均根據(jù)位置收費(fèi)。


使用捷智算平臺(tái)上 A100 GPU 的中位數(shù)價(jià)格,以下是每種所需資源的成本:




建議使用多個(gè) GPU 以獲得最佳效果。根據(jù)在 AWS 上訓(xùn)練相同模型的默認(rèn)實(shí)例,這是在捷智算上訓(xùn)練 Falcon 180B 所需的建議數(shù)量:




上述配置與 AWS 上用于在同一模型上訓(xùn)練 LLM 的默認(rèn)配置非常相似。要在捷智算上使用此配置,每月總計(jì)將超過 13,000 美元。以下是明細(xì):




請(qǐng)記住,訓(xùn)練 LLM 可能需要數(shù)月時(shí)間,因此這筆費(fèi)用會(huì)隨著時(shí)間的推移而增加,特別是當(dāng)訓(xùn)練涉及對(duì)大量數(shù)據(jù)集進(jìn)行多次迭代時(shí)。CUDO Compute 定價(jià)極具競(jìng)爭(zhēng)力,因此其他平臺(tái)上的計(jì)算成本通常更高。例如,在 AWS 上使用具有類似配置的實(shí)例(ml.p4de.24xlarge)每月將花費(fèi)超過 23,000 美元。


考慮到成本,一些用戶可能更愿意按代幣付費(fèi)。具體操作如下。


按照代幣(PPT)付費(fèi)獲取大型語言模型 (LLM) 訪問權(quán)限


培訓(xùn)和維護(hù) LLM 的高成本導(dǎo)致了按代幣付費(fèi) (PPT) 模式的興起,用于訪問這些強(qiáng)大的語言模型。其工作原理如下:


OpenAI 和 Google AI 等公司利用通過 API 公開的大量數(shù)據(jù)集對(duì)大量 LLM 進(jìn)行預(yù)訓(xùn)練。這樣一來,開發(fā)者和企業(yè)就可以使用這些模型(例如 GPT-3 或類似模型),而無需承擔(dān)訓(xùn)練此類模型的高昂成本和技術(shù)挑戰(zhàn)。


用戶無需承擔(dān)培訓(xùn)和基礎(chǔ)設(shè)施的前期成本。相反,他們只需根據(jù) LLM 在完成文本生成、翻譯或代碼編寫等任務(wù)時(shí)處理的標(biāo)記數(shù)量(大致相當(dāng)于單詞或子單詞)支付費(fèi)用。




對(duì)于不需要大量使用 LLM 的任務(wù),PPT 模式比內(nèi)部培訓(xùn)更具成本效益。用戶只需為實(shí)際使用的資源付費(fèi)。


按代幣付費(fèi)的好處:

  • 降低成本:該模型消除了對(duì)硬件、軟件和訓(xùn)練數(shù)據(jù)的前期投資。

  • 可擴(kuò)展性:用戶可以根據(jù)需要輕松地?cái)U(kuò)大或縮小 LLM 的使用量,只需為他們消耗的代幣付費(fèi)。

  • 可訪問性: PPT 允許更廣泛的用戶和小型公司訪問 LLM,而無需承擔(dān)高昂的內(nèi)部培訓(xùn)費(fèi)用。


為何培養(yǎng)大型語言模型  (LLM) 這么貴?


訓(xùn)練大型語言模型 (LLM) 需要巨大的計(jì)算能力。這些模型有數(shù)十億個(gè)參數(shù),訓(xùn)練它們需要在強(qiáng)大的硬件(如 GPU)上運(yùn)行數(shù)天甚至數(shù)月的復(fù)雜算法。提供這種基礎(chǔ)設(shè)施的云服務(wù)成本高昂,計(jì)算時(shí)間、存儲(chǔ)空間和數(shù)據(jù)傳輸?shù)纫蛩囟紩?huì)增加總體費(fèi)用。


按代幣付費(fèi)的注意事項(xiàng):

  • 定價(jià)模式:不同的提供商根據(jù)特定的 LLM 模型和使用的令牌量提供不同的定價(jià)結(jié)構(gòu)。有些提供商可能會(huì)為更高的使用層級(jí)提供折扣。

  • 控制有限:與內(nèi)部訓(xùn)練相比,用戶對(duì)預(yù)訓(xùn)練模型所使用的訓(xùn)練數(shù)據(jù)和具體配置的控制較少。

  • 延遲:根據(jù)響應(yīng)的長(zhǎng)度以及模型在后端硬件上每秒可以生成的令牌數(shù),用戶在通過 API 與 LLM 交互時(shí)可能會(huì)遇到一些延遲。


對(duì)于大多數(shù)希望使用 LLM 而又不想承擔(dān)內(nèi)部培訓(xùn)的巨大財(cái)務(wù)負(fù)擔(dān)的用戶來說,按代幣付費(fèi)模式是一種極具吸引力的替代方案。然而,在選擇此方法之前,了解定價(jià)結(jié)構(gòu)、控制限制和潛在的延遲問題非常重要。


控制大型語言模型培訓(xùn)成本的步驟


雖然大型語言模型的成本仍然很高,但有一些策略可以優(yōu)化資源利用率并降低費(fèi)用:


1.實(shí)施模型優(yōu)化技術(shù):

  • 模型架構(gòu)選擇:仔細(xì)選擇模型架構(gòu),以平衡復(fù)雜性和所需性能。較小的模型通常需要較少的資源來訓(xùn)練。修剪技術(shù)可以進(jìn)一步減小模型大小,而不會(huì)造成明顯的準(zhǔn)確度損失。

  • 訓(xùn)練數(shù)據(jù)優(yōu)化:確保您的訓(xùn)練數(shù)據(jù)質(zhì)量高且與當(dāng)前任務(wù)相關(guān)。過濾掉不相關(guān)的數(shù)據(jù)可以縮短訓(xùn)練時(shí)間并降低計(jì)算成本。

  • 知識(shí)提煉:知識(shí)提煉在這個(gè)過程中,訓(xùn)練一個(gè)較小的“學(xué)生”模型來復(fù)制較大的“老師”模型的性能。這使得學(xué)生模型能夠從老師的知識(shí)中受益,而無需從頭開始訓(xùn)練較大的模型所需的大量計(jì)算資源。由于更緊湊,學(xué)生模型的部署效率更高,尤其是在資源受限的環(huán)境中。

  • 混合精度訓(xùn)練: 混合精度訓(xùn)練在單個(gè)訓(xùn)練工作流程中使用半精度 (FP16) 和單精度 (FP32) 浮點(diǎn)格式。目標(biāo)是加快訓(xùn)練速度并減少內(nèi)存使用量,同時(shí)保持模型的準(zhǔn)確性和穩(wěn)定性。使用損失縮放等特殊技術(shù)來管理降低的數(shù)值精度對(duì)訓(xùn)練動(dòng)態(tài)的影響。這可以在兼容硬件(如 NVIDIA H100 GPU)上完成。


2.考慮硬件優(yōu)化:

  • 高效的硬件利用率:監(jiān)控訓(xùn)練期間的資源利用率。梯度累積等技術(shù)可以幫助實(shí)現(xiàn)更高的 GPU 利用率,從而縮短訓(xùn)練時(shí)間并降低成本。

  • 選擇合適的硬件:選擇能夠滿足您特定訓(xùn)練需求且性價(jià)比最高的硬件??紤]使用較新的 GPU,例如 H100,其性能比前幾代產(chǎn)品有顯著提升。

  • 云服務(wù)優(yōu)化:探索不同的云服務(wù)提供商和定價(jià)模式。與預(yù)留實(shí)例相比,按需定價(jià)可能會(huì)節(jié)省成本,具體取決于您的訓(xùn)練計(jì)劃可預(yù)測(cè)性。


我可以自己培養(yǎng)大型語言模型嗎?


從技術(shù)上講,您可以訓(xùn)練自己的大型語言模型 (LLM),但成本可能非常高。訓(xùn)練需要大量計(jì)算資源(強(qiáng)大的 GPU)和大量數(shù)據(jù)。云服務(wù)提供了這種基礎(chǔ)設(shè)施,但成本可能高達(dá)數(shù)百萬美元,具體取決于模型大小和訓(xùn)練時(shí)間。


3.優(yōu)化訓(xùn)練配置:

  • 超參數(shù)調(diào)整:嘗試不同的學(xué)習(xí)率、批量大小和其他訓(xùn)練超參數(shù),以找到平衡訓(xùn)練速度和準(zhǔn)確性的最佳配置。

  • 提前停止:實(shí)施技術(shù)來監(jiān)控訓(xùn)練進(jìn)度,并在達(dá)到所需的性能水平后停止訓(xùn)練。這可以避免不必要的資源消耗。

  • 梯度檢查點(diǎn):在訓(xùn)練期間定期保存模型狀態(tài)。這樣,您可以在發(fā)生硬件故障或中斷時(shí)從檢查點(diǎn)恢復(fù)訓(xùn)練,從而節(jié)省時(shí)間和資源。


4.考慮使用混合專家模型:

  • 專用子網(wǎng):專家匯聚(MoE)架構(gòu)將訓(xùn)練工作量分配給多個(gè)專門的子網(wǎng)絡(luò)或“專家”。每個(gè)專家專注于數(shù)據(jù)的一個(gè)特定子集,與傳統(tǒng)模型相比,這有可能縮短訓(xùn)練時(shí)間并提高效率。技術(shù)集。

  • 減少計(jì)算負(fù)荷:通過將訓(xùn)練分配給多位專家,MoE 可以更有效地利用硬件資源,減少總體計(jì)算需求并降低成本。

  • 復(fù)雜性和研究: MoE 正迅速成為一種流行的方法,既能保持模型大小易于管理,又能涵蓋廣泛的主題。實(shí)施 MoE 需要仔細(xì)的配置和專業(yè)知識(shí)。


5. 協(xié)作并利用開源工具:

  • 利用開源工具:利用 TensorFlow 或 PyTorch 等提供高效 LLM 訓(xùn)練功能的開源框架。

  • 與研究機(jī)構(gòu)合作:與可能獲得 LLM 培訓(xùn)補(bǔ)貼計(jì)算資源的研究機(jī)構(gòu)合作。

  • 數(shù)據(jù)采集也可以增加 LLM 的培訓(xùn),讓我們看看數(shù)據(jù)要求及其相關(guān)成本。


數(shù)據(jù)要求和成本


數(shù)據(jù)是 LLM 的命脈。數(shù)據(jù)質(zhì)量、數(shù)量和多樣性直接影響模型的有效性和準(zhǔn)確性。收集、清理和管理這些數(shù)據(jù)需要大量成本。數(shù)據(jù)需要足夠龐大和多樣化,才能訓(xùn)練出一個(gè)沒有偏見、可以在不同環(huán)境中推廣的模型。數(shù)據(jù)集創(chuàng)建過程涉及大量勞動(dòng)力,包括人工任務(wù),例如監(jiān)督學(xué)習(xí)場(chǎng)景的標(biāo)記,這增加了成本。


然而,這些數(shù)據(jù)并非免費(fèi)提供,有效管理這些數(shù)據(jù)會(huì)大大增加總體成本。以下是法學(xué)碩士數(shù)據(jù)管理的主要財(cái)務(wù)方面的細(xì)目:


  • 數(shù)據(jù)獲?。韩@取 LLM 培訓(xùn)數(shù)據(jù)的主要方式有兩種:購買現(xiàn)有數(shù)據(jù)集或授權(quán)訪問它們。知名研究機(jī)構(gòu)和私營(yíng)公司通常會(huì)整理和出售專門用于訓(xùn)練 AI 模型的文本和代碼數(shù)據(jù)集。這些數(shù)據(jù)集可能非常昂貴,具體取決于其大小、領(lǐng)域特異性和質(zhì)量。

  • 數(shù)據(jù)存儲(chǔ):存儲(chǔ)海量數(shù)據(jù)集需要大量存儲(chǔ)容量。傳統(tǒng)的本地存儲(chǔ)解決方案維護(hù)和擴(kuò)展成本高昂。云存儲(chǔ)服務(wù)提供了更靈活且更具成本效益的替代方案,但持續(xù)的存儲(chǔ)費(fèi)用會(huì)隨著時(shí)間的推移而累積,尤其是對(duì)于 TB 或 PB 級(jí)的數(shù)據(jù)集。

  • 數(shù)據(jù)預(yù)處理:原始數(shù)據(jù)很少以其原始形式用于 LLM 培訓(xùn)。它通常需要大量的清理、標(biāo)記和格式化。這種預(yù)處理可能涉及:

  • 清理:刪除不相關(guān)的信息(如代碼注釋、HTML 標(biāo)簽或重復(fù)條目)可能是一項(xiàng)計(jì)算量很大的任務(wù),尤其是對(duì)于大型數(shù)據(jù)集而言。

  • 標(biāo)記:根據(jù)訓(xùn)練目標(biāo),可能需要用特定類別或信息標(biāo)記數(shù)據(jù)。這可能是一個(gè)需要人力的勞動(dòng)密集型過程,也可以使用專門的工具自動(dòng)完成,但會(huì)產(chǎn)生軟件許可成本。

  • 格式化:確保數(shù)據(jù)具有適合 LLM 培訓(xùn)的一致格式可能涉及額外的處理和潛在的定制軟件開發(fā)。


此外,負(fù)責(zé)任地處理此類數(shù)據(jù)以遵守隱私法和道德標(biāo)準(zhǔn)會(huì)帶來額外的復(fù)雜性和費(fèi)用。數(shù)據(jù)匿名化、安全存儲(chǔ)以及遵守法規(guī)可能會(huì)增加任何 AI 項(xiàng)目的管理成本。


優(yōu)化這些數(shù)據(jù)管理流程對(duì)于成本控制至關(guān)重要。數(shù)據(jù)選擇(僅使用相關(guān)子集)和遷移學(xué)習(xí)(利用預(yù)訓(xùn)練模型)等技術(shù)可以幫助減少對(duì)大量昂貴數(shù)據(jù)集的依賴。


通過實(shí)施這些策略,研究人員和開發(fā)人員可以顯著降低 LLM 培訓(xùn)成本。精心優(yōu)化模型、利用高效的硬件和云服務(wù)以及采用節(jié)省成本的培訓(xùn)配置對(duì)于管理 LLM 開發(fā)的財(cái)務(wù)負(fù)擔(dān)都至關(guān)重要。

粵公網(wǎng)安備 44030502006483號(hào)、 粵ICP備15047669號(hào)
  • 捷易科技聯(lián)系人