阿里巴巴發佈新一代端到端多模態旗艦模型Qwen2.5-Omni

阿里巴巴發佈了新一代端到端多模態旗艦模型Qwen2.5-Omni,號稱具備全方位多模態感知能力,看聽說寫樣樣精通。

採用全新的Thinker-Talker雙核架構,Thinker模塊負責處理多模態輸入並生成語義表徵和文本內容,Talker模塊則負責將這些信息轉化爲流暢的語音輸出。這種架構實現了端到端的統一,支持實時音視頻交互和流暢的語音生成。

能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式,並同時生成文本和語音輸出。支持分塊輸入和即時輸出,實現真正的實時交互。

已在Hugging Face、ModelScope、DashScope和GitHub等平臺開源,方便開發者體驗和使用。

相比現有方案,語音生成的自然度和穩定性更高。在音頻能力上優於同等規模的Qwen2-Audio,與Qwen2.5-VL-7B保持同等水平。在語音指令理解方面表現出色,效果可媲美文本輸入。