商湯科技李星冶:多模態大模型“所見即所得”讓人機交互更順暢
新京報貝殼財經訊(記者羅亦丹)7月10日,2025貝殼財經年會開幕。在主題爲“建設‘開源之都’:智AI未來,生態共澎湃”的首場論壇上,商湯科技集團大模型綜合商務部執行商務總監李星冶回顧了人工智能從1.0時代到2.0時代的演變,並重點介紹了商湯在多模態交互技術上的突破與應用落地。他強調,人工智能正從傳統的計算機視覺向“所見即所得”的多模態交互轉型,這將深刻改變教育、文旅、客服等多個領域。
李星冶表示,在AI 1.0時代,商湯專注於計算機視覺技術,主要服務於政府和企業。
隨着2023年大模型技術的興起,AI進入2.0時代,商湯開始推動多模態交互的創新。李星冶解釋,這不僅僅是文字指令的識別,而且是基於“所見即所得”的理念,整合視頻、圖像、語音等多種模態,實現與人類的實時互動。在現場,李星冶展示了通過畫出一個“太乙真人”的卡通形象,喚起太乙真人語音並進行實時互動的場景。
李星冶詳細介紹了多模態交互的落地成果。在教育領域,商湯與學習機廠商合作,開發了“所見即所得”的交互設備。孩子佩戴設備後,算法能實時感知手寫解題過程,識別錯誤並提供巧妙解法。針對低幼兒童,系統支持指讀繪本,將圖片轉化爲故事並互動。目前,商湯已與10所左右學校合作,打造智能校園助手,處理課程安排、成績查詢等功能。
此外,商湯科技的智能體應用是另一亮點。李星冶舉例稱,在倉庫租賃場景中,算法分析行業數據輔助BD銷售,生成租約管理方案等功能。在客服領域,商湯與知名運營商合作,打造高效智能體。在智能家居方面,提供家庭互動功能,以人工智能的技術豐富家庭交互生活。
“多模態大模型的優勢正在於此:讓交互不再侷限於識別文字指令,更能通過‘所見即所得’的方式,通過視覺等多維度信息,讓大模型與人之間的交互更順暢。”李星冶說。
編輯 楊娟娟
校對 柳寶慶