DeepSeek迎最強隊友!國產大模型開源猛踩油門,全球第一,免費可用,技術報告公開

智東西作者|陳駿達編輯|心緣

智東西2月18日報道,今天,中國大模型“六小虎”之一的階躍星辰與吉利汽車集團聯合宣佈,將開源兩款Step系列多模態大模型,其中包括全球參數量最大的開源文生視頻大模型Step-Video-T2(300億)和Step-Audio語音交互模型。Step-Video-T2可以直接生成最長204幀、540P分辨率的視頻。

據悉,這也是階躍星辰首次開源其Step系列基座模型。即日起,用戶可以在躍問APP內體驗到這兩款模型。階躍星辰還公開了36頁的Step-Video-T2技術報告與25頁的Step-Audio技術報告。

階躍星辰宣佈開源後,相關消息得到了開源平臺Hugging Face CEO的轉發支持,Hugging Face中國區負責人也在朋友圈發文推薦。

▲左側爲Hugging Face CEO,右側爲Hugging Face中國區負責人

網友在上手實測視頻模型後也給出了很高的評價,稱其能生成連貫而複雜的運動,這位網友還特別提到,階躍星辰採用的是MIT開源協議。這與DeepSeek的開源協議是一致的。

項目鏈接:https://huggingface.co/stepfun-ai

技術報告地址:https://arxiv.org/abs/2502.10248 (Step-Video-T2)

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf (Step-Audio)

一、還原複雜運動、理解運鏡要求,視頻文字生成不再“鬼畫符”

Step-Video-T2採用了高壓縮比的Video-VAE模型,能夠在保持視頻重構質量的前提下,將視頻在空間維度壓縮16×16倍,時間維度壓縮8倍。這種高效的壓縮技術顯著提高了訓練和生成效率,使得視頻生成過程更爲迅速和高效。

此外,階躍星辰使用兩個雙語文本編碼器(Hunyuan-CLIP和Step-LLM)處理中英文提示,還優化了使用了基於流匹配的DIT架構和Video-DPO(視頻偏好優化)算法,增強了模型處理複雜視頻數據的能力,並能夠進一步提升視頻生成質量。

訓練過程中,他們構建了一個包含20億視頻文本對和38億圖像文本對的大規模數據集。通過視頻分割、質量評估、運動評估、字幕生成、概念平衡和文本對齊等步驟,將原始視頻轉換爲適合模型預訓練的高質量視頻文本對。

爲了支持大規模訓練,階躍星辰開發了Step-Video-T2V訓練系統,包括Step Emulator(訓練仿真器)、StepRPC(高性能RPC框架)、StepTelemetry(監控系統)和StepMind(分佈式訓練平臺)。這些工具優化了模型的訓練效率和資源利用率。

從生成效果來看,這款模型在複雜運動、美感人物、視覺想象力、基礎文字生成等方面展現出一定實力。

下圖中,Step-Video-T2V生成了一位美式橄欖球運動員奔跑的畫面。模型對提示詞中的畫面內容、運鏡要求都實現了較好的還原,體現出這款模型的語義理解和指令遵循能力。

▲提示詞:視頻中,一名強壯的美式橄欖球隊球員,身穿專業的橄欖球服,在球場上進行練習。整個場景在一個開闊的球場上進行,背景是其他球員和教練。視頻採用固定機位平移方式,捕捉了球員跑動的每一個細節,清晰地展示了橄欖球運動的激烈和速度感。

不過,在生成跳水這種難度較高的畫面時,Step-Video-T2V的結果中存在一些肢體扭曲的現象。

文字方面,Step-Video-T2V生成的英文藝術字沒有出現幻覺,還在數字“2025”上融入了蛇年的元素。

對歷史上的知名人物,Step-Video-T2V也能準確描繪,同時也兼顧了畫面的美感。

爲了對開源視頻生成模型的性能進行全面評測,階躍星辰還發布並開源了針對文生視頻質量評測的新基準數據集Step-Video-T2V-Eval,能評估運動、風景、動物、組合概念、超現實等11個內容類別上的視頻生成質量。

二、一款模型同時支持文本、語音生成,無需語音轉文字

階躍星辰還同時開源了Step-Audio語音交互模型,能夠根據不同的場景需求生成情緒、方言、語種、歌聲和個性化風格的表達,與用戶自然地高質量對話。

在Llama Question、Web Questions等5大主流公開測試集中,階躍Step-Audio模型性能均超過了行業內同類型開源模型,位列第一。

現有的大部分語音交互系統多采用級聯架構(ASR-LLM-TTS),存在延遲累積、錯誤傳播和優化不一致等問題。Step-Audio則統一了語音和文本的理解與生成能力,支持語音識別、語義理解、對話、語音克隆、音頻編輯和語音合成。這一模型在躍問中可免費使用。

在1300億參數的完整版Step-Audio基礎之上,階躍星辰訓練並開源了高效的Step-Audio-TTS-3B模型,增強了指令跟隨能力。

此外,由於目前行業內語音對話測試集相對缺失,階躍星辰自建並開源了多維度評估體系StepEval-Audio-360基準測試,從角色扮演、邏輯推理、生成控制、文字遊戲、創作能力、指令控制等9項基礎能力的維度對開源語音模型進行全面測評。

結語:中國AI開源勢力再添猛將

階躍星辰創始人、CEO姜大昕博士稱,階躍星辰本次開源一方面是希望分享最新技術成果,給開源社區貢獻力量;另一方面,他們也認爲多模態模型是實現AGI的必經之路,但目前尚處於早期階段,希望以開源的舉措與社區開發者集思廣益,共同拓展模型技術邊界,並推動產業落地。

在DeepSeek的掀起的開源風暴之後,越來越多的中國大模型選擇了將自家的專有模型免費開放或是開源給廣大開發者羣體,一股開源界的中國勢力已在悄然崛起。