☰

即時語音導航阿里新AI造福視障者

大陸阿里巴巴日前發佈「通義千問」系列最新的人工智慧（AI）旗艦模型，聲稱能透過即時語音描述幫助視障人士「導航」。圖爲示意圖。（中新社）

大型語言模型的競爭在「DeepSeek時刻」後持續升溫！大陸阿里巴巴日前發佈「通義千問」系列最新的人工智慧（AI）旗艦模型，聲稱新系統在語音理解和生成方面性能特別高，除可處理文本、圖片、影音，還可以直接在手機和筆記型電腦上運行，甚至能透過即時語音描述幫助視障人士「導航」。

據阿里集團旗下「阿里雲」網站公告，新的Qwen2.5-Omni-7B是一個端到端全模態大模型，相比傳統單模態或分離式多模態模型，其具備更強的跨模態融合能力，不僅能識別語音情緒，還能實現更智慧、更自然的多感官交互，向通用人工智慧（AGI）邁出關鍵一步。

公告稱，這意味着Qwen2.5-Omni-7B可以處理輸入，支持文本、圖像、影音輸入，並即時輸出文本與自然語音，能夠理解跨模態資訊，打破模態壁壘。此外，該模型體量小、易部署，家用電腦即可運行，讓全模態AI真正觸手可及。

阿里雲進一步表示，該模型可以部署在手機等邊緣裝置，在不影響性能的情況下提供高效率。而目前公開發佈於Hugging Face和GitHub的新模型將被用於構建所謂的AI智慧體，譬如可以透過即時語音描述，幫助視障人士確定他們周邊的狀況。

美國財經新聞網CNBC報導，在大陸AI公司「深度求索」（DeepSeek）將其突破性的R1模型開放原始碼之後，在網路上免費提供原始碼以供修改成爲中國大陸日益增長的趨勢。阿里雲表示，過去幾年，該公司已經開源了200多個生成式AI模型。

而在DeepSeek加速的大陸AI熱潮中，阿里巴巴和其他生成式AI競爭者一直在以前所未有的速度發佈新款且高CP值的模型、產品，譬如大陸科技巨頭百度此前發佈了一個新的多模態基礎模型，和首個以推理爲重點的模型等。

對此，晨星公司亞洲資深股票分析師王凱（Kai Wang，音譯）表示，阿里巴巴等中國大型科技企業除了建立自己的大型語言模型外，還會建立數據中心以滿足AI的運算需求，他因此相信阿里巴巴完全有能力從DeepSeek後的AI熱潮中獲益。（更多精彩內容請免費下載《翻爆》APP）

即時語音導航 阿里新AI造福視障者