中國移動完成首次HIC-OTN承載存算拉遠240公里現網技術試驗

5月19日,面向大模型訓練用戶數據的高安全需求,中國移動研究院原創提出基於HIC-OTN(無損智算OTN)的新型存算拉遠技術架構,並聯閤中國移動湖北公司、華爲技術有限公司在中國移動智算中心(武漢)完成了業界首次HIC-OTN承載存算拉遠240公里現網技術試驗,構建了用戶數據本地化的高安全大模型訓練新範式,在基於流水並行(PP)的千億級參數大模型現網240公里智算互聯下實現了等同單節點訓練效率99%以上的高效訓練,是探索智算中心技術和業務應用發展的重要里程碑。

伴隨大模型技術的跨越式發展,千行百業的智能化轉型升級需求爆發涌現。但是,大模型訓練的算力需求越來越高,國內外大型科技公司投建超萬卡甚至超十萬卡集羣,不僅建設投入成本高,還需要破解提升大規模算力使用效率的技術難題。廣大中小微行業用戶難以跨越自建大型智算中心的投入和技術門檻,而租用智算服務又面臨自身私密數據傳輸至外部智算中心進行大模型訓練的安全風險,導致迫切的AI賦能需求與應用落地規模的嚴重失配。

中國移動研究院提出了基於HIC-OTN的存算拉遠原創技術架構,在用戶側部署“微算力”作爲數據訓練的入口,將訓練流程進行切分,用戶數據仍存儲在本地,僅通過HIC-OTN傳遞模型訓練中間值至服務商智算中心的“大算力”進行訓練,同時滿足了用戶大模型訓練的低成本、高安全需求。其中,面向存算拉遠後對傳輸網絡的高可靠需求,創新HIC-OTN無損傳輸機制,重構設備轉發和存儲功能,實現由傳統OTN保護倒換50ms業務中斷到“0丟包”的性能提升。在此次業界首次HIC-OTN承載存算拉遠240公里現網技術試驗中,在用戶側部署16張GPU卡作爲千億級參數大模型PP訓練的入口,在運營商智算中心部署48張GPU卡進行集中化、規模化訓練,相距240公里的兩端通過800G HIC-OTN進行大帶寬、無損互聯,拉遠後的協同訓練效率達到等效單集羣訓練效率99%以上。

中國移動研究院段曉東副院長表示,基於HIC-OTN的存算拉遠原創技術架構是面向中小微行業用戶大模型訓練需求的全新探索,有望形成智算普惠發展的技術和應用新範式,本次試驗基於HIC-OTN新型技術體系在超大帶寬、超低時延、超高可靠光傳輸的技術優勢,訓練效率等同單節點訓練99%以上,實現了用戶側“微算力”與服務商“大算力”的高效協同。

中國移動面向AI賦能千行百業,持續推進原創技術創新和發展。本次試驗有力探索和驗證了基於HIC-OTN的存算拉遠技術架構的可行性和先進性,後續將繼續推進產學研多專業在智算協同光互聯技術方面的深度協同,以構建技術先進網絡助力AI高速發展。

文章來源:通信世界

歡迎大家留言討論~

諮詢&留言

探討諮詢,請聯繫徐老師

電話:13911861004

微信:xuyuxuan66

期刊訂購、研究報告、競聘材料、真題題庫等問題諮詢,可添加小編

微信:zztx2006

資治通信