智象未來團隊研發成果獲ICML 2025收錄!圖像生成更有“全局視野”

智象未來團隊提出全新層級自迴歸生成範式 Hierarchical Masked Autoregressive models (Hi-MAR),有效解決自迴歸圖像生成中結構失真問題。該研究已被 ICML 2025 收錄,並在多個圖像生成任務中取得領先性能。

現有自迴歸圖像生成模型存在缺乏全局結構建模能力、訓練-推理分佈不一致、尺度引導缺失等問題。Hi - MAR 借鑑人類繪畫過程,採用自頂向下層次化生成範式,還引入多尺度聯合訓練策略等。實驗顯示,其在圖像質量和語義一致性上優於主流方法,可以顯著提升模型的全局感知能力與生成質量。

本次發表的論文《Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots》,展示了團隊在多模態生成式基礎架構設計領域的前沿探索。這一全新的層級自迴歸生成架構 Hi-MAR,爲構建具備“全局感知+局部細化”能力的生成基礎架構提供了新的範式,同時它也是HiDream系列開源模型家族重要的一員,爲下一代多模態生成式基礎架構的技術演進帶來更多的可能性!