智譜開源千億參數視覺大模型:可區分麥當勞肯德基炸雞

8月11日,智譜開源了其最新一代視覺理解模型GLM-4.5V,該模型基於智譜新一代文本基座模型GLM-4.5-Air訓練而來,擁有1060億參數和120億激活參數。GLM-4.5V新增了思考模式的開關功能,用戶可自主控制模型是否進行思考。

這一模型的視覺能力解鎖了一些有趣的玩法,例如能夠區分麥當勞和肯德基炸雞翅的區別,並從炸雞的色澤、外皮質感等角度進行了全面分析。此外,GLM-4.5V還可以看圖猜地點,在與人類玩家一起參與的拍圖猜地點積分賽中,加入比賽7天后,其積分排到了賽事網站的第66名,超越了99%的人類用戶。

智譜還分享了GLM-4.5V在42個基準測試中的成績,該模型在其中41個測試中得分超過同尺寸模型。目前,GLM-4.5V已在開源平臺Hugging Face、魔搭、GitHub發佈,並提供了FP8量化版本。智譜還爲其打造了一個體驗App,目前僅有Mac端可用(且必須爲非Intel芯片)。

用戶可在z.ai選擇GLM-4.5V模型,上傳圖片或視頻進行體驗,或在智譜清言APP/網頁版上傳圖片開啓“推理模式”進行體驗。智譜同步開源了一款桌面助手應用,該應用可實時截屏、錄屏獲取屏幕信息,並依託GLM-4.5V處理多種視覺推理任務,如代碼輔助、視頻內容分析、遊戲解答、文檔解讀等。

GLM-4.5V API現已上線智譜開放平臺BigModel.cn,並提供了2000萬tokens的免費資源包。其API最低價爲每百萬輸入tokens/2元、每百萬輸出tokens/6元,支持圖像、視頻、文件和文本輸入。