☰

國產黑馬砸來百萬算力福利，Llama 3微調快去衝！H800點擊就送，1.99元玩轉4090

新智元報道

編輯：編輯部

【新智元導讀】才短短一週，微調Llama 3變體已經井噴了！去哪裡微調Llama 3？這家國產黑馬早已上架了推理微調預訓練教程，更誇張的是，低至5.99元/卡時的H800點擊就送！

Llama 3誕生整整一週後，直接將開源AI大模型推向新的高度。

Meta官方統計顯示，模型下載量已突破120萬次，在最大開源平臺HF上已經有600+微調的Llama 3變體。

更值得一提的是，Llama 3 70B指令微調版已在大模型Chatbot Arena排行榜上並列第一（英語），總體榜單位列第六，並在多個基準測試上的表現均大幅超過已有競品。

可見，Llama 3已經成爲AI應用的最新優選。

問題來了，想要動手微調測試Llama 3，如何用？

最新安利來了！

最近，小編無意發現潞晨雲上的算力價格非常便宜，比如H800-80GB-NVLINK只需5.99元/卡時，而4090甚至低至1.99元/卡時。

與此同時，還會附贈免費的測試代金券。

一通測試下來，小編們發現不僅便宜，而且非常方便好用和功能豐富。

最關鍵的是，它還有配套的從推理到微調和預訓練的實踐教程。

體驗地址在這裡：https://cloud.luchentech.com/

據介紹，在64卡H100集羣上，經過潞晨Colossal-AI優化，相比微軟+英偉達方案，可提升Llama 3 70B的訓練性能近20%，推理性能也優於vLLM等方案。

不僅好用還便宜

想體驗Llama 3等AI任務，還需要有GPU等算力支持。目前主流的AI雲主機有AWS、AutoDL、阿里雲等。但GPU資源不僅昂貴稀缺，供應商普遍還要求使用者必須預先進行高額投入，按年或提前數個月預付定金。

潞晨雲不僅提供了便捷易用的AI解決方案，還爲力求爲廣大AI開發者和其他提供了隨開隨用的廉價算力：

價格信息統計於2024年4月16日，普通賬號可按需按量開啓的價格及可用性，大型雲廠商一般僅支持老舊型號算力（Nvdia V100/P100等）按需按量使用，美元-人民幣匯率換算爲1:7.2368

原價19.99元/卡時的H800-80GB-NVLINK，限時特供低至5.99元/卡時！

對於使用較穩定的長期需求，在潞晨雲還可以按月、按年租用，獲得進一步折扣。

潞晨雲還爲新用戶準備了多種形式的優惠代金券活動，註冊即可白嫖H800、A800、4090、910B等高端算力，構建屬於自己的AI大模型！（新註冊用戶自動獲得代金券額度）

手把手教你部署和訓練Llama 3

創建雲主機

打開算力市場，按照篩選目標算力。

可以看到如圖所示的控制檯頁面，右邊是兩臺可用的服務器，每臺上有8塊可租用的GPU，我們選擇一個，點擊「8卡可租」按鈕，進入算力市場界面。

在租用配置選擇界面，爲自己的雲主機取一個名字並選擇任務所需數量的顯卡，Llama 3 8B推理可以在單卡H800上完成），因此，此處選擇1卡H800。

推理

Colossal-Inference現已適配支持了Llama 3推理加速。在潞晨雲，你可以選擇推理鏡像，使用Colossal-Inference進行推理優化提速，體驗Llama 3的自然語言生成能力。

前期準備

Llama 3模型權重已準備好，無需額外安裝步驟。

推理生成

運行生成腳本

進行多卡TP推理，如下例使用兩卡生成

運行吞吐Benchmark測試

單卡H100對Llama 3-8B進行Benchmark結果與vLLM對比（例：輸入序列長度128，輸出長度256）

微調與繼續預訓練

潞晨雲在原有 Llama 2 漢化項目中，支持了 Llama 3 的繼續預訓練與微調。在這裡，你可以通過選擇訓練鏡像，快速對 Llama 3 進行繼續預訓練與微調。

前期準備

1. 編譯安裝 Colossal-AI

2. 創建訓練需要的文件夾

3. 修改 hostfile

注：可通過 apt install iproute2 -y 在鏡像中安裝 ip addr 指令查看鏡像內 ip 地址

數據準備

當前路徑：/root/ColossalAI/applications/Colossal-LLaMA/

1. 繼續預訓練

2. 微調

運行成功後，data_output_dirs 文件夾內會自動生成 3 個子文件夾，其中，arrow 文件夾中的數據可用來直接訓練。

此外，潞晨雲還提供了簡單數據集以供測試，處理好數據集可見：/root/notebook/common_data/tokenized-cpt-data

訓練腳本

當前路徑：/root/ColossalAI/applications/Colossal-LLaMA/

1. 修改 config 文件

2. 參考訓練腳本

其他訓練詳情可參考：https://github.com/hpcaitech/ColossalAI/tree/main/applications/Colossal-LLaMA

大規模訓練

對於大規模預訓練等場景，結合Llama 3 序列變長、embedding增大等特性，潞晨雲針對3D混合並行場景進行了優化，通過自定義流水線切分、gradient checkpoint策略，可以進一步精細化控制每個GPU的內存佔用和速度，從而達到整體訓練效率的提升。

潞晨雲使用整數線性規劃搜索出在64x H100上最適合Llama 3 70B的切分、gradient checkpoint策略，最終訓練可以達到每卡410+ TFLOPS的卓越性能。

詳情可參考：https://github.com/hpcaitech/ColossalAI/tree/main/examples/language/llama

此例子附上了潞晨雲測試時使用的配置。使用方法如下：

歡度五一，百萬福利大放送！羊毛速薅

潞晨雲已準備首期百萬元的代金券，後續還會不斷放出，可以持續關注！

註冊即送：新賬戶註冊即送50元代金券，便捷試用多種AI算力。

企業認證：完成企業認證的賬戶可額外獲得1000元代金券，可穩定測試多機H800等稀缺資源。

在線評價：用戶在社交媒體和專業論壇（如知乎、小紅書、微博、CSDN等）上分享使用體驗，有效分享一次可得100元代金券。每月最佳分享可額外再獲500元代金券（根據點贊、評論等真實活躍度；每個賬號最多每月各計一次；發佈24小時後請找小客服覈對驗證）

加入用戶羣：不定時發放特價資源、代金券等優惠活動。

參考資料：

https://cloud.luchentech.com/

國產黑馬砸來百萬算力福利，Llama 3微調快去衝！H800點擊就送，1.99元玩轉4090

相關資訊