阿里巴巴發佈新AI模型 可透過影片解讀「人類情緒」

大陸科技巨頭阿里巴巴旗下的通義千問實驗室近日發佈一款新的AI模型,據稱能夠透過影片識別人類情緒。(中新社)

大陸科技巨頭阿里巴巴旗下的通義千問實驗室近日發佈一款新的人工智慧(AI)模型,據稱能夠透過影片識別人類情緒,意在超越OpenAI的最新模型。

綜合外媒和大陸《科創板日報》報導,通義千問實驗室11日公佈開源R1-Omni模型,形容這是業界首個將具有可驗證獎勵的強化學習(RLVR)應用於全能多模態大語言模型,而這正是大陸AI產品「深度求索」(DeepSeek)模型R1的訓練模式。

開發團隊稱,研究人員利用RLVR對開源Omni模型HumanOmni-0.5B進行優化,在推理能力、情感識別準確性和泛化能力3個關鍵方面顯著提高性能。據稱,R1-Omni能更清楚地理解視覺和聽覺資訊如何促進情緒識別,明確展示哪些模態資訊對特定情緒的判斷起到關鍵作用。

在兩場演示影片中,R1-Omni能推測影片中人物的情緒狀態,並描述其服飾和周圍環境。這爲所謂的電腦視覺增加新的理解層次。

讓AI解讀並回應人類情緒,早已成爲科技行業的一個重要目標。目前能夠識別人類心理狀態和健康狀況的技術已被廣泛應用,如客戶服務聊天機器人,或用於特斯拉等電動汽車以識別司機是否疲勞駕駛。

在DeepSeek-R1亮相震撼全球科技圈後,阿里巴巴也加快在AI領域爭取領先地位的步伐,其對標DeepSeek的模型「通義千問」成爲美國科技公司蘋果在中國大陸市場的AI合作伙伴,爲大陸iPhone用戶提供AI服務。

目前阿里似乎還打算與OpenAI一爭高下。今年早些時候,OpenAI推出GPT-4.5模型,據稱能更好地識別和響應用戶書面提問中的微妙線索。但該模型價格不菲,最初僅向月費200美元(約合新臺幣6583元)的付費用戶開放。

而阿里巴巴則不收取任何費用,開放所有人使用R1-Omni模型,目前阿里已在Hugging Face平臺上免費讓用戶下載使用該模型。

儘管當前的演示僅展示R1-Omni模型識別「高興」或「憤怒」等基本情緒的能力,但能從視覺線索推導情緒的能力仍具有重要意義。阿里巴巴執行長吳泳銘在2月份告訴分析師,通用人工智慧(AGI)已成爲阿里巴巴的「首要目標」,而情緒智能是實現這一目標的重要一步。