歡迎閱讀我們關(guān)于使用 Ollama 運(yùn)行 Qwen2:7b 的教程。在本指南中,我們將使用捷智算平臺(tái)提供的我們最喜歡的 GPU 之一 A5000,您會(huì)很高興發(fā)現(xiàn)該型號(hào)在性能上如何超越 Mistral 和 Llama3。
A5000由 NVIDIA 提供支持,基于安培架構(gòu),是一款功能強(qiáng)大的 GPU,可以增強(qiáng)渲染、圖形、AI 和計(jì)算工作負(fù)載的性能。A5000 提供 8192 個(gè) CUDA 核心和 24 GB GDDR6 內(nèi)存,提供卓越的計(jì)算能力和內(nèi)存帶寬。
A5000 支持實(shí)時(shí)光線追蹤、AI 增強(qiáng)型工作流程以及 NVIDIA 的 CUDA 和 Tensor 核心等高級(jí)功能,可提高性能。憑借其強(qiáng)大的功能,A5000 非常適合處理復(fù)雜的模擬、大規(guī)模數(shù)據(jù)分析和渲染高分辨率圖形。
Qwen2-7b 是什么?
Qwen2 是最新推出的大型語言模型系列,提供基礎(chǔ)模型和指令調(diào)優(yōu)版本,參數(shù)范圍從 5 億到 720 億,其中包括一個(gè) Mixture-of-Experts 模型。該模型最棒的地方是它在 Hugging Face 上開源了。
與 Qwen1.5 等其他開源模型相比,Qwen2 在語言理解、生成、多語言能力、編碼、數(shù)學(xué)和推理等各種基準(zhǔn)測(cè)試中均表現(xiàn)優(yōu)異。Qwen2 系列基于Transformer架構(gòu),并進(jìn)行了 SwiGLU 激活、注意 QKV 偏差、組查詢注意和改進(jìn)的標(biāo)記器等增強(qiáng)功能,可適應(yīng)多種語言和代碼。
此外,據(jù)說 Qwen2-72B 在所有測(cè)試基準(zhǔn)中的表現(xiàn)都遠(yuǎn)遠(yuǎn)優(yōu)于 Meta 的Llama3-70B 。
Qwen 性能比較
下圖顯示了 Qwen2-72B-Instruct 在各個(gè)領(lǐng)域的不同基準(zhǔn)測(cè)試中的綜合評(píng)估。該模型在增強(qiáng)能力和符合人類價(jià)值觀之間取得了平衡。此外,該模型在所有基準(zhǔn)測(cè)試中的表現(xiàn)都顯著優(yōu)于 Qwen1.5-72B-Chat,與 Llama-3-70B-Instruct 相比也表現(xiàn)出了競(jìng)爭(zhēng)力。即使是較小的 Qwen2 模型也超越了類似或更大尺寸的最先進(jìn)的模型。Qwen2-7B-Instruct 在各個(gè)基準(zhǔn)測(cè)試中保持優(yōu)勢(shì),尤其是在編碼和中文相關(guān)指標(biāo)方面表現(xiàn)出色。
Qwen 性能比較
可用型號(hào)
Qwen2 在包含英語和中文等 29 種語言的數(shù)據(jù)集上進(jìn)行訓(xùn)練,有 5 種參數(shù)大?。?.5B、1.5B、7B、57B 和 72B。7B 和 72B 模型的上下文長(zhǎng)度已擴(kuò)展至 128k 個(gè) token。
Qwen2 系列包括五種不同尺寸的基礎(chǔ)模型和指令調(diào)整模型
Ollama簡(jiǎn)介
本文將向您展示使用 Ollama 運(yùn)行 Qwen2 的最簡(jiǎn)單方法。Ollama 是一個(gè)開源項(xiàng)目,它提供了一個(gè)用戶友好的平臺(tái),用于在您的個(gè)人計(jì)算機(jī)上或使用捷智算平臺(tái)等平臺(tái)執(zhí)行大型語言模型 (LLM)。
Ollama 提供對(duì)各種預(yù)訓(xùn)練模型庫(kù)的訪問,可在不同的操作系統(tǒng)上輕松安裝和設(shè)置,并公開本地 API 以無縫集成到應(yīng)用程序和工作流程中。用戶可以自定義和微調(diào) LLM,通過硬件加速優(yōu)化性能,并受益于交互式用戶界面以實(shí)現(xiàn)直觀的交互。
使用 Ollama 在捷智算平臺(tái)上運(yùn)行 Qwen2-7b
在開始之前,讓我們先檢查一下 GPU 規(guī)格。
nvidia-smi
顯示 NVIDIA A5000 規(guī)格
接下來,打開一個(gè)終端,我們將開始下載 Ollama。要下載 Ollama,請(qǐng)將以下代碼粘貼到終端中,然后按 Enter。
curl -fsSL https://ollama.com/install.sh | sh
這行代碼將開始下載 Ollama。
完成后,清除屏幕,鍵入以下命令,然后按回車鍵運(yùn)行模型。
ollama run qwen2:7b
如果出現(xiàn)錯(cuò)誤:無法連接到 ollama 應(yīng)用程序,它是否正在運(yùn)行?嘗試運(yùn)行以下代碼,這將有助于啟動(dòng) ollama 服務(wù)
ollama serve
并打開另一個(gè)終端并再次嘗試該命令。
或者嘗試通過運(yùn)行以下命令手動(dòng)啟用 systemctl 服務(wù)。
sudo systemctl enable ollama
sudo systemctl start ollama
現(xiàn)在,我們可以運(yùn)行模型進(jìn)行推理。
ollama run qwen2:7b
這將下載模型的各個(gè)層,另外請(qǐng)注意這是一個(gè)量化模型。因此下載過程不會(huì)花費(fèi)太多時(shí)間。
接下來,我們將開始使用我們的模型來回答一些問題并檢查模型如何工作。
為斐波那契數(shù)列編寫一個(gè) Python 代碼。
Qwen2:7b 模型生成的斐波那契的 Python 代碼
請(qǐng)隨意嘗試其他型號(hào)版本,但 7b 是最新版本且可與 Ollama 一起使用。
該模型在各方面都表現(xiàn)出了令人印象深刻的性能,與早期模型相比,整體性能與 GPT 相當(dāng)。
測(cè)試數(shù)據(jù)來自 Jailbreak,并翻譯成多種語言,用于評(píng)估。值得注意的是,Llama-3 在多語言提示下表現(xiàn)不佳,因此被排除在比較之外。研究結(jié)果表明,Qwen2-72B-Instruct 模型達(dá)到了與 GPT-4 相當(dāng)?shù)陌踩?,并且根?jù)顯著性檢驗(yàn)(P 值),其表現(xiàn)明顯優(yōu)于Mistral-8x22B模型。
大型模型在四類多語言不安全查詢中產(chǎn)生的有害響應(yīng)發(fā)生情況:非法活動(dòng)、欺詐、色情和隱私暴力
結(jié)論
總之,我們可以說 Qwen2-72B-Instruct 模型在各種基準(zhǔn)測(cè)試中都表現(xiàn)出色。值得注意的是,Qwen2-72B-Instruct 超越了之前的迭代,例如 Qwen1.5-72B-Chat,甚至可以與 GPT-4 等最先進(jìn)的模型相媲美,這從顯著性測(cè)試結(jié)果中可以看出。此外,它的表現(xiàn)明顯優(yōu)于 Mistral-8x22B 等模型,凸顯了其在確保多語言環(huán)境中的安全性方面的有效性。
展望未來,Qwen2 等大型語言模型的使用量迅速增長(zhǎng),預(yù)示著未來人工智能驅(qū)動(dòng)的應(yīng)用和解決方案將變得越來越復(fù)雜。這些模型有可能徹底改變各個(gè)領(lǐng)域,包括自然語言理解、生成、多語言交流、編碼、數(shù)學(xué)和推理。隨著這些模型的不斷進(jìn)步和完善,我們可以預(yù)見人工智能技術(shù)將取得更大的進(jìn)步,從而開發(fā)出更智能、更像人類的系統(tǒng),更好地滿足社會(huì)需求,同時(shí)遵守道德和安全標(biāo)準(zhǔn)。