☰

智譜開源千億參數視覺大模型：可區分麥當勞肯德基炸雞

8月11日，智譜開源了其最新一代視覺理解模型GLM-4.5V，該模型基於智譜新一代文本基座模型GLM-4.5-Air訓練而來，擁有1060億參數和120億激活參數。GLM-4.5V新增了思考模式的開關功能，用戶可自主控制模型是否進行思考。

這一模型的視覺能力解鎖了一些有趣的玩法，例如能夠區分麥當勞和肯德基炸雞翅的區別，並從炸雞的色澤、外皮質感等角度進行了全面分析。此外，GLM-4.5V還可以看圖猜地點，在與人類玩家一起參與的拍圖猜地點積分賽中，加入比賽7天后，其積分排到了賽事網站的第66名，超越了99%的人類用戶。

智譜還分享了GLM-4.5V在42個基準測試中的成績，該模型在其中41個測試中得分超過同尺寸模型。目前，GLM-4.5V已在開源平臺Hugging Face、魔搭、GitHub發佈，並提供了FP8量化版本。智譜還爲其打造了一個體驗App，目前僅有Mac端可用（且必須爲非Intel芯片）。

用戶可在z.ai選擇GLM-4.5V模型，上傳圖片或視頻進行體驗，或在智譜清言APP/網頁版上傳圖片開啓“推理模式”進行體驗。智譜同步開源了一款桌面助手應用，該應用可實時截屏、錄屏獲取屏幕信息，並依託GLM-4.5V處理多種視覺推理任務，如代碼輔助、視頻內容分析、遊戲解答、文檔解讀等。

GLM-4.5V API現已上線智譜開放平臺BigModel.cn，並提供了2000萬tokens的免費資源包。其API最低價爲每百萬輸入tokens/2元、每百萬輸出tokens/6元，支持圖像、視頻、文件和文本輸入。

相關資訊