☰

全球最大開源視頻生成模型國內首發階躍星辰上架阿里雲魔搭社區

每經杭州2月21日電（記者葉曉丹）在2月21日開幕的全球開發者大會（GDC）上，阿里雲魔搭社區首發階躍星辰最新開源的兩款多模態模型，包括全球參數量最大的開源視頻生成模型Step-Video-T2V，以及業界首款產品級開源語音交互模型Step-Audio。截至目前，魔搭社區已上架超過4萬個開源模型，涵蓋LLM、對話、語音、文生圖、圖生視頻等多個領域，是中國最大的AI模型社區。

此次在魔搭社區開源的兩款模型，是近期全球多模態領域最熱門的開源模型。Step-Video-T2V是基於300億參數的文本轉視頻預訓練模型，能夠生成高達204幀的視頻，在指令遵循、運動平滑性、物理合理性、美感度等方面表現均顯著超過市面上既有的開源視頻模型。

另一款上架模型Step-Audio，是業界首個產品級開源語音模型，參數規模多達1300多億。根據Llama Question等5大主流公開測試，Step-Audio模型性能均位列第一，並在HSK-6（漢語水平考試六級）的測評中表現尤佳。

全球最大開源視頻生成模型國內首發 階躍星辰上架阿里雲魔搭社區

相關資訊

全球最大開源視頻生成模型國內首發階躍星辰上架阿里雲魔搭社區