即時語音導航 阿里新AI造福視障者

大陸阿里巴巴日前發佈「通義千問」系列最新的人工智慧(AI)旗艦模型,聲稱能透過即時語音描述幫助視障人士「導航」。圖爲示意圖。(中新社)

大型語言模型的競爭在「DeepSeek時刻」後持續升溫!大陸阿里巴巴日前發佈「通義千問」系列最新的人工智慧(AI)旗艦模型,聲稱新系統在語音理解和生成方面性能特別高,除可處理文本、圖片、影音,還可以直接在手機和筆記型電腦上運行,甚至能透過即時語音描述幫助視障人士「導航」。

據阿里集團旗下「阿里雲」網站公告,新的Qwen2.5-Omni-7B是一個端到端全模態大模型,相比傳統單模態或分離式多模態模型,其具備更強的跨模態融合能力,不僅能識別語音情緒,還能實現更智慧、更自然的多感官交互,向通用人工智慧(AGI)邁出關鍵一步。

公告稱,這意味着Qwen2.5-Omni-7B可以處理輸入,支持文本、圖像、影音輸入,並即時輸出文本與自然語音,能夠理解跨模態資訊,打破模態壁壘。此外,該模型體量小、易部署,家用電腦即可運行,讓全模態AI真正觸手可及。

阿里雲進一步表示,該模型可以部署在手機等邊緣裝置,在不影響性能的情況下提供高效率。而目前公開發佈於Hugging Face和GitHub的新模型將被用於構建所謂的AI智慧體,譬如可以透過即時語音描述,幫助視障人士確定他們周邊的狀況。

美國財經新聞網CNBC報導,在大陸AI公司「深度求索」(DeepSeek)將其突破性的R1模型開放原始碼之後,在網路上免費提供原始碼以供修改成爲中國大陸日益增長的趨勢。阿里雲表示,過去幾年,該公司已經開源了200多個生成式AI模型。

而在DeepSeek加速的大陸AI熱潮中,阿里巴巴和其他生成式AI競爭者一直在以前所未有的速度發佈新款且高CP值的模型、產品,譬如大陸科技巨頭百度此前發佈了一個新的多模態基礎模型,和首個以推理爲重點的模型等。

對此,晨星公司亞洲資深股票分析師王凱(Kai Wang,音譯)表示,阿里巴巴等中國大型科技企業除了建立自己的大型語言模型外,還會建立數據中心以滿足AI的運算需求,他因此相信阿里巴巴完全有能力從DeepSeek後的AI熱潮中獲益。(更多精彩內容請免費下載《翻爆》APP)