存儲,下一個 “新寵”

在AI時代,以數據爲中心的工作負載需求持續攀升,現代服務器面臨着前所未有的挑戰。如何讓計算能力與內存帶寬相匹配,成爲了亟待解決的關鍵問題。人工智能、高性能計算和實時分析等行業依賴於能夠以超快速度傳輸數據的內存子系統,以避免出現瓶頸。人工智能、高性能計算和實時分析等前沿行業,對內存子系統的數據傳輸速度提出了嚴苛要求,稍有延遲就可能導致性能瓶頸。

與此同時,一種新型內存技術——MRDIMM 橫空出世,迅速在行業內掀起波瀾,它能否成爲 AI 存儲產業的下一個 “寵兒”?又將對內存市場產生何種深遠影響?

01 MRDIMM新型內存出世

MRDIMM 的誕生並非一蹴而就,它的起源可以追溯到 DDR4 世代的 LRDIMM(Load Reduced DIMM,減載雙列直插內存模塊)。LRDIMM 的設計初衷是爲了減輕服務器內存總線的負載,同時提升內存的工作頻率與容量。與傳統的服務器內存模組 RDIMM 僅採用 RCD(Registered Clock Driver,寄存時鐘器)不同,LRDIMM 創新性地加入了 DB(Data Buffer,數據緩衝器)功能。這一巧妙設計不僅降低了主板上的信號負載,還爲使用更大容量的內存顆粒創造了條件,進而顯著擴充了系統內存容量。

在DDR4 世代,JEDEC 對 LRDIMM 架構進行了多輪討論,最終,中國瀾起科技公司提出的 “1+9”(1 顆 RCD + 9 顆 DB)方案脫穎而出,成爲 DDR4 LRDIMM 的國際標準。這一成就意義非凡,要知道,當時全球僅有 IDT(後被日本瑞薩電子收購)、Rambus 和瀾起科技三家公司具備提供 RCD 及 DB 芯片套片的能力。或許正是基於以上契機和強大的研發實力,瀾起科技在 2021 年成功入選 JEDEC 董事會,行業話語權得到進一步提升。

進入DDR5 世代,LRDIMM 的架構演變爲 “1 顆 RCD + 10 顆 DB”。然而,由於 DDR5 內存模組容量大幅增加,DDR5 LRDIMM 的性價比優勢逐漸縮小,在服務器內存中的佔比也不盡人意。此時,MRDIMM 應運而生。它沿用了與 LRDIMM 類似的 “1+10” 技術架構,即搭配 1 顆 MRCD(多路複用寄存時鐘驅動器)芯片和 10 顆 MDB(多路複用數據緩衝器)芯片,能夠實現更高的內存帶寬,滿足現代服務器對內存帶寬日益增長的需求。

隨着CPU 核心數量和速度不斷提升,內存必須以更快的速度提供數據。MRDIMM 通過同時操作兩個內存通道,實現了比標準 DDR5 DIMM 更高的數據吞吐量。簡單來說,它就像是將兩個 DDR5 DIMM 結合,向主機提供兩倍的數據速率。例如,將兩個速度爲 4400MT/s 的 DDR5 DIMM 組合,輸出結果可達 8800MT/s。目前,第一代 MRDIMM 的速度可達 8800MT/s,第二代達到 12800MT/s。雖然預計未來幾代產品速度還會大幅提升,如第三代有望達到 17600MT/s,但可能要到 2030 年以後才能問世,研發之路任重道遠。

值得一提的是,英特爾與SK hynix、瑞薩合作,基於與 MRDIMM 類似的概念開發了多路複用器組合等級(MCR)DIMM。AMD 也在積極籌備類似的 HBDIMM。不過,目前尚無公開資料對 MCR DIMM 和 HBDIMM 進行詳細比較。

此外,高尺寸(TFF)MRDIMM 具有獨特優勢,它無需增加物理插槽就能擴充內存容量。這類模塊更高,可容納更多內存芯片,不過僅適用於 2U 或更大尺寸的服務器設計。憑藉更快、更高效的數據傳輸能力,MRDIMM 爲面向未來的服務器設計提供了有力支持,助力其滿足高性能計算的需求。

02“運力”成爲AI發展最大瓶頸

近年來,服務器CPU 技術發展呈現出一個明顯趨勢:CPU 廠商不斷增加內核數量,核心數呈指數級增長。英特爾和 AMD 最新一代 CPU 的核心數已達到數十甚至上百量級。與此同時,自 2012 年起,數據中心服務器內存對速度和容量的要求每年以超過 10 倍的速度增長,且絲毫沒有減緩的跡象。可以說,在過去十年裡,“算力” 和 “存力” 都取得了前所未有的進步。

然而,“內存牆” 的存在卻成爲了制約系統性能提升的關鍵因素。傳統內存 RDIMM 傳輸帶寬的增長較爲緩慢,遠遠跟不上 CPU 核心數量指數級增加的速度。這也是 AMD 和英特爾在主流處理器上轉向 DDR5 內存的重要原因之一。DDR5 市場也因此迎來了快速發展期。

如果這種情況持續下去,當CPU 核心數量超過一定限度,就會出現帶寬分配不足的問題,導致 CPU 無法充分發揮增加核心數量帶來的性能優勢,嚴重製約系統性能平衡,“內存牆” 的負面影響愈發凸顯。

在美光和英特爾的聯合測試中,研究人員使用英特爾Hibench 基準測試套件中的 2.4TB 數據集進行測試。結果顯示,在內存容量相同的情況下,MRDIMM 的運算效率相比 RDIMM 提高了 1.2 倍;使用容量翻倍的 TFF MRDIMM 時,運算效率更是提高了 1.7 倍,內存與存儲之間的數據遷移減少了 10 倍。

在AI 推理方面,MRDIMM 同樣表現出色。以運行 Meta Llama 3 8B 大模型爲例,在內存容量相同的條件下,使用 MRDIMM 後,詞元的吞吐量是 RDIMM 的 1.31 倍,延遲降低 24%,首個詞元生成時間降低 13%,CPU 利用效率提升 26%,末級緩存(LLC)延遲降低 20%。

MRDIMM 採用 DDR5 的物理和電氣標準,實現了內存技術的重要突破,有效擴展了 CPU 單核心的帶寬和容量,極大地緩解了大算力時代 “內存牆” 對系統性能的桎梏,對提升內存密集型計算效率具有重要意義。隨着 AI 產業的蓬勃發展,DDR5 內存接口芯片的需求和滲透率大幅提升。隨着支持 MRDIMM 的服務器 CPU 上市,第二子代 MRDIMM 有望成爲高性能計算、人工智能等應用系統的優選方案。

03 行業巨頭推出相關產品

在此情況下,處理器和存儲設備巨頭開始佈局相關產品。

處理器方面,英特爾在2024 年 9 月推出了至強 6 性能核處理器,這款處理器專爲高性能計算、AI 等計算密集型工作負載設計,最高配備 128 個性能核,在 PCIe 通道、L3 緩存等方面進行了諸多擴展。其中,新型內存技術 MRDIMM 成爲一大亮點。獨立測試表明,使用 MRDIMM 的至強 6 處理器,相比使用傳統 RDIMM 的相同系統,性能提升高達 33%。

AMD 也不甘示弱,其下一代 “Zen 6” 架構的 EPYC 霄龍系列服務器處理器將遷移到新的 SP7 和 SP8 平臺,告別現有的 SP5 和 SP6 平臺(分別支持 12 條和 6 條內存通道)。新平臺中的 SP7 將提供 16 條和 12 條內存通道兩種版本,以滿足更高的內存帶寬需求,更好地支持更多核心的處理器。此外,“Zen 6” EPYC 處理器將首次支持 MRDIMM 內存條,預計傳輸速率可達 12800MT/s 或更高。

存儲方面,2024年7月,美光宣佈已出樣MRDIMM。該款全新內存產品爲美光 MRDIMM 系列的首代,將與英特爾至強6處理器兼容。

2024 年 10 月,Rambus 推出了面向 12800MT/s MRDIMM 的 MRCD、MDB 芯片,以及配套的第二代 DDR5 服務器 PMIC。Rambus 表示,其第二代 DDR5 服務器 PMIC 專爲 DDR5 RDIMM 8000 和 MRDIMM 12800 設計,能夠在低電壓下提供超高電流,以支持更高的內存速率和每根內存條上更多的 DRAM 和邏輯芯片。

2024 年 11 月,瑞薩電子率先推出面向第二代 DDR5 多容量雙列直插式內存模塊(MRDIMM)的完整內存接口芯片組解決方案。據瑞薩電子介紹,與第一代 MRDIMM 相比,這些產品的內存帶寬提高了 1.35 倍,預計 2025 年實現量產。此次瑞薩設計並推出了三款全新關鍵組件:RRG50120 第二代多路複用寄存時鐘驅動器(MRCD)、RRG51020 第二代多路複用數據緩衝器(MDB)和 RRG53220 第二代電源管理集成電路(PMIC)。此外,瑞薩還批量生產溫度傳感器(TS)和串行存在檢測(SPD)集線器解決方案,爲各類服務器和客戶端 DIMM,包括行業標準下一代 MRDIMM,提供全面的芯片組解決方案。

日前,Cadence 推出了業界首款 12800MT/s DDR5 MRDIMM 內存 IP 系統方案。該方案包含高性能控制器和 PHY 物理層兩部分,基於臺積電 N3 製程工藝,已與基於美光 1-gamma 製程 DRAM 和瀾起第二子代 DDR5 MRDIMM 接口芯片構建的 MRDIMM 內存條完成配套兼容驗證。

SK 海力士在臺積電北美技術論壇上,展示了三款面向先進服務器、速度可達 12800MT/s 的 MRDIMM 產品:標準板型、基於 1c nm DRAM 的款式容量可達 64GB;採用傳統板型但基於更舊制程的型號容量可達 96GB;採用更高板型的產品容量則能進一步拓展到 256GB。

國內企業目前也開始逐漸佈局該技術。其中,瀾起科技進展較快。經過前期戰略佈局和持續的研發投入,去年瀾起科技已完成時鐘發生器芯片量產版本研發。瀾起科技亦是全球兩家可提供第一子代MRCD/MDB芯片的供應商之一,搭配公司的產品MRDIMM開始在行業規模試用。但其他企業暫時進度較慢,如德明利表示暫未佈局 MRDIMM 相關產品方案研發,僅保持對新技術、新產品形態的關注與探索。

04 MRDIMM與HBM或將在AI領域並存

第二子代MRDIMM 的數據傳輸速率達到 12800MT/s,相比第一子代提升了 45%,是第三子代 RDIMM(支持速率 6400MT/s)的兩倍,這無疑將大幅提升系統性能。在高性能計算、人工智能等對內存帶寬需求較大的工作負載場景下,MRDIMM 有望成爲應用系統主內存的優選方案。而且,未來會有更多的服務器 CPU 平臺支持第二子代 MRDIMM,包括一些 ARM 架構的 CPU 平臺,這將進一步完善 MRDIMM 的生態,推動 MRDIMM 行業滲透率的提升以及 MRCD/MDB 芯片需求的增長。

相比於HBM,MRDIMM在大容量、成本效益和可擴展性方面都有優勢。未來,這兩項技術有望成爲AI和高性能計算的主流內存解決方案,進一步推動內存市場的革新。不過,DRAM內存模組(包括DRAM和MRDIMM)屬於服務器主內存,與HBM的應用場景不同,分別有相對獨立的市場空間,二者都將受益於AI產業的發展,並非競爭或替代關係。