“卷王”階躍星辰又卷出新花樣,但姜大昕的理想道阻且長
(文/萬肇生 編輯/張廣凱)
近日,“多模態卷王”階躍星辰,又雙叒叕開源了一款大模型 ——Step1X-3D。
據階躍星辰介紹,3D大模型Step1X-3D是該團隊繼圖像、視頻、語音、音樂等模態後,在多模態方向的最新成果。Step1X-3D 模型總參數量達4.8B,其中幾何模塊1.3B,紋理模塊3.5B,通過數據基礎與3D 原生兩階段架構,可生成高保真、可控的3D內容。
Step1X-3D生成的3D模型
同市面上其他3D生成大模型相比,Step1X-3D實現了對超500萬原始數據進行嚴格篩選與處理,建立了包含200萬高質量、標準化的訓練樣本庫,有效克服了行業數據稀缺與質量參差的瓶頸。Step1X-3D還通過增強型網格-SDF 轉換技術等方法,讓水密幾何轉換成功率提升了20%。
在3D結構及紋理細節方面,Step1X-3D 採用先進的 3D 原生兩階段架構,解耦幾何與紋理表徵。其中,幾何生成模型基於 FLUX MMDiT 結構和 Rectified flow 算法直接對 3D 表示生成進行建模,而紋理生成模型基於預訓練的 Diffusion model,通過單視圖和 3D 幾何信息指導,生成多視角一致的紋理信息。
Step1X-3D 的原生 3D 架構
Step1X-3D的VAE-Diffusion整體架構在設計上與主流 2D 生成模型(如 Stable Diffusion)保持了高度一致性,從而能夠無縫引入並應用成熟的 2D 控制技術,比如輕量化的 LoRA 微調。因此用戶可以對生成 3D 資產的多種屬性進行調控,讓創作更精準地符合用戶意圖。
階躍星辰介紹,團隊自建了一個包含110個多樣化測試用例的綜合測試,對該模型進行了評估,結果顯示Step1X-3D 在多項關鍵維度上均表現出色。
不同大模型的圖生3D模型效果對比
其中,在衡量內容與輸入語義一致性的核心指標CLIP-Score上,Step1X-3D 取得了當前所有對比模型中的最高分,爲開源社區提供了極具競爭力的3D生成方案。
綜合來看,Step1X-3D的開源,再一次體現了階躍星辰獨特的發展路徑。
作爲“大模型六小虎”中成立最晚的一個,階躍星辰最初並不被廣泛看好,一度只是被視爲大模型的“最後一張船票”。但憑藉基座模型的紮實功力和多模態領域的特色,如今的階躍星辰已然站穩腳跟,目前已對外發布了20多款自研基座模型,並且由於幾乎每個月都在發佈新模型,也被稱爲“多模態卷王”。
至於爲什麼要堅持多模態路線,階躍星辰創始人姜大昕近日接受媒體採訪時認爲,多模態正是實現AGI的必經之路。人工智能發展的過程中,要先有多模態融合和推理模型,纔會有之後成熟的Agent。但當多模態理解生成一體化技術突破後,它的意義不僅在於改進現有Agent,還會在具身智能泛化和世界模型構建方面帶來全新應用。
值得一提的是,在當下火熱的具身智能賽道,3D數據稀缺正成爲最大瓶頸之一,不少具身智能企業不得不自己研發從2D到3D的數據生成技術。階躍星辰在3D生成領域的進展,或許也能找到更多的商業化空間。
不過,從生成3D圖像到構建完整的物理仿真世界,還有很長的路要走。
姜大昕日前坦言,目前多模態模型還僅僅相當於大語言模型2017年以前的階段。
姜大昕指出,當下的大模型還處於理解和生成兩條路線獨立發展、互相促進的情況,還沒有突破理解生成一體化。多模態模型遠未出現類似2017年穀歌“Transformer”級別的突破性框架誕生,“Transformer是2017年出來的,GPT-1是2018年”。
姜大昕指出,理解生成一體化又是一項非常綜合的挑戰,不但需要強大的語言和視覺進行理解和推理,還需要有生成能力。這也是爲什麼階躍星辰一開始就佈局非常完整的多模態路線,包括語音、圖像、視頻、音樂等多個方向。
“每條技術路線都經過幾個月甚至半年的積累才發佈一個模型,只是當你同時看這麼多方向時,會覺得我們頻繁發佈新成果”,姜大昕表示,“我們也希望這樣(集中力量攻克理解生成一體化),但不是我們不夠聚焦,而是完成這項任務本身就需要多方面能力的支撐”。
本文系觀察者網獨家稿件,未經授權,不得轉載。