智譜華章申請基於視覺語言模型的超長音視頻理解方法系統和設備專利,降低計算資源需求
金融界2025年7月19日消息,國家知識產權局信息顯示,北京智譜華章科技股份有限公司申請一項名爲“基於視覺語言模型的超長音視頻理解方法、系統和設備”的專利,公開號CN120336483A,申請日期爲2025年04月。
專利摘要顯示,本發明屬於人工智能技術領域,涉及一種基於視覺語言模型的超長音視頻理解方法、系統和設備,所述方法包括:1)利用微調後的大語言模型對用戶問題進行多粒度意圖識別,以確定用戶問題的詢問模式,詢問模式包括單圖詢問模式、音頻內容詢問模式和視頻內容詢問模式;2)基於詢問模式和用戶問題對用戶輸入的圖片、音頻和視頻進行識別,獲得識別內容;3)基於時空提示機制和分層生成機制使用大語言模型對識別內容進行多模態信息融合;4)將用戶問題和多模態信息融合結果輸入視覺語言模型中,生成用戶問題的對應答案。
天眼查資料顯示,北京智譜華章科技股份有限公司,成立於2019年,位於北京市,是一家以從事軟件和信息技術服務業爲主的企業。企業註冊資本4028.1069萬人民幣。通過天眼查大數據分析,北京智譜華章科技股份有限公司共對外投資了24家企業,參與招投標項目200次,財產線索方面有商標信息279條,專利信息212條,此外企業還擁有行政許可6個。
本文源自金融界