“AI,你幫我挑個木瓜?”實測豆包視頻通話功能 一場AI“視覺交互”爭奪戰已打響
國內AI(人工智能)視頻交互賽道再添重磅玩家。
近日,字節跳動旗下AI智能助手“豆包”的App上線視頻通話功能,支持視頻聊天問答。據官方介紹,本次升級基於視覺推理模型,支持聯網搜索。
《每日經濟新聞》記者實測發現,豆包的視頻通話功能用處不少,包括識別水果成熟度這樣的日常用途。此外,在識別物品時,豆包更展現出持續記憶和邏輯推理能力。
5月27日,一位大模型算法工程師接受《每日經濟新聞》記者微信採訪時表示,豆包在視頻通話中展現出的視頻理解與語音交互能力,在中文語境中處於第一梯隊。
繼文生視頻大模型後,字節在AI多模態領域又邁出關鍵一步。
能打視頻電話的豆包,效果如何?
“視覺是人類瞭解這個世界最重要的方式,對於大模型來說也是如此。”在去年12月舉行的“2024火山引擎FORCE原動力大會·冬”上,火山引擎總裁譚待發布了豆包視覺理解模型,稱該模型具備更出色的內容識別、理解、推理、視覺描述和創作等能力。
5個月後,這一新模型的能力讓所有豆包用戶“眼見爲實”了。
近日,豆包App上線了實時視頻通話功能,這一功能的實現正是基於豆包視覺理解模型的能力。
爲了更直觀地展示這一新功能的應用場景,豆包團隊在其官方微信公衆號上列舉了公園內花草識別、博物館內實時講解、圖書館內書籍推薦查閱以及買菜時的食材搭配這四大生活場景。在去年12月的發佈會上,豆包團隊就曾在演示視頻中呈現了該模型在識別地標、讀懂代碼、分析體檢報告、爲用戶提供穿搭意見等日常任務中的完成能力。
和豆包打個視頻電話,是否真的能解決上述這些生活問題呢?百聞不如一見,《每日經濟新聞》記者近日以挑選水果、識別物品和推薦書籍這三項任務,對豆包的實時視頻通話功能進行了實測。
首先,是較爲基礎的挑選水果任務,這也是用戶在小紅書等社交媒體上分享得最多的應用場景。“你來幫我挑選一個木瓜吧。”當開啓視頻通話後,豆包通過對果實表皮顏色、飽滿程度等指標的觀察,快速給出了挑選建議。有小紅書用戶在使用豆包挑選蔬菜後表示:“感覺突然身邊多了個懂行的買菜老大爺。”
在識別物品和推薦書籍的環節,豆包展現出了良好的記憶能力和連貫的實時搜索、互動性能。例如,面對雜亂擺放着書籍、巧克力、耳機和電子時鐘等物品的書桌,豆包可以輕鬆識別所有物品的詳細信息並記憶它們在桌上的擺放位置。
這一記憶功能在記者瀏覽書架時得到了更爲充分的展現。記者在書店隨機挑選了一個書架,就書架一側第一本書和豆包進行溝通,同時舉起手機走向了書架的另一頭,再突然提出“剛剛有一本蔡磊寫的書,你看到了嗎?”的問題,豆包迅速記起這本曾在鏡頭前一閃而過的書,並對該書進行了簡單介紹。
“(記憶功能的實現)大概率是每隔幾秒給模型拍攝一張圖片。”一位大模型算法工程師在微信上接受《每日經濟新聞》記者採訪時表示,豆包在該功能中展現的視頻理解和語音交互能力,在中文語境中處於第一梯隊。
與豆包進行關於多本書籍的聊天時,豆包能夠結合記憶能力與實時搜索,對書籍內容、作者生平、同類作品推薦等話題進行自然延伸,整個交互過程流暢且生動。
從“聽見”到“看見”
在去年,AI的視頻交互功能就已經在業界掀起波瀾。
2024年8月,“智譜清言”App率先推出了國內首個面向C端(消費者端)開放的視頻通話功能。一時間,網上涌現出大量對視頻通話功能的測試。測試方式從最基礎的物體識別到生活場景的溝通交流,甚至包括輔導小學生作業。
趕在OpenAI和谷歌之前,智譜清言先一步將AI視頻交互在國內落地。在國際市場上,從“聽見”到“看見”同樣成爲AI進化的下一步。
2024年5月,OpenAI公司的“GPT-4o”發佈。現場,OpenAI的研究員演示了GPT-4o的實時視覺功能——它通過手機攝像頭實時解了一個方程,甚至還能通過前置攝像頭觀察用戶的面部表情,分析用戶的情緒。同月,谷歌推出的“Project Astra”同樣具備實時語音、視頻交互的能力。
今年4月,火山引擎總裁譚待也曾表示:“模型要有能力做好思考、計劃和反思,並且一定要支持多模態,就像人類具備視覺和聽覺一樣,Agent(智能體)才能更好地處理複雜任務。”
視頻通話功能的實現,就建立在其多模態能力之上。從最後呈現的使用形態來看,視頻通話功能使得用戶無需再通過語言組織傳達眼前的信息,這無疑是對AI使用門檻的再一次降低。
技術能力的升級爲AI打通了視覺和聽覺的“任督二脈”,但也要看到,AI智能助手的快速擴張已經來到了瓶頸,新的交互範式可能是新階段的關鍵。
據量子位智庫數據,4月份Web端(網頁端)AI智能助手的總訪問量首次出現下降,說明以嚐鮮驅動的擴張期或已結束。
隨着豆包在今年3月接入抖音及其“打電話”功能在社交媒體上受到關注,豆包也在通過抖音生態快速觸達用戶。
27日,知名經濟學者、工信部信息通信經濟專家委員會委員盤和林在接受《每日經濟新聞》記者微信採訪時表示,豆包有着龐大的用戶應用生態作爲支撐,擴散應該比對手要快。
他認爲,豆包在商業拓展時主要還是和“剪映”集成,可以和抖音的內容審覈AI結合。比如可以通過AI發現違規的短視頻內容。盤和林還表示,AI視頻交互的使用前景非常光明,比如生成虛擬人進行直播,又比如通過AI識別來迅速對視頻文件進行歸納總結。
另一方面,AI眼鏡這一類符合視頻通話應用場景的新硬件逐漸升溫,也給AI視頻交互帶來了更多可能性。
盤和林認爲:“AI視頻交互可以和AI眼鏡有限結合,但現階段AI眼鏡的算力和顯示等方面還存在技術缺陷。所以,期待未來有新的融合。”