作業幫申請基於多模態語音識別模型預測語音內容方法及裝置專利,解決固定語言模型參數不能很好適配實際場景需求的技術問題
金融界2025年6月7日消息,國家知識產權局信息顯示,作業幫教育科技(北京)有限公司申請一項名爲“一種基於多模態語音識別模型預測語音內容的方法及裝置”的專利,公開號CN120108387A,申請日期爲2025年02月。
專利摘要顯示,本發明公開一種基於多模態語音識別模型預測語音內容的方法及裝置,多模態語音識別模型包括語音轉文本大模型、模態適應層、Embedding層和大語言模型,多模態語音識別模型的訓練流程包括:第一訓練階段:使用自動語音識別數據訓練多模態語音識別模型,大語言模型和Embedding層的模型參數保持固定,對語音轉文本大模型和模態適應層進行訓練;第二訓練階段:第一訓練階段完成之後,將第一訓練階段訓練得到的語音轉文本大模型的模型參數保持固定,對大語言模型採用優化微調策略,使用與第一階段相同的自動語音識別數據訓練多模態語音識別模型。
天眼查資料顯示,作業幫教育科技(北京)有限公司,成立於2015年,位於北京市,是一家以從事科技推廣和應用服務業爲主的企業。企業註冊資本200000萬美元。通過天眼查大數據分析,作業幫教育科技(北京)有限公司共對外投資了3家企業,參與招投標項目5次,專利信息78條,此外企業還擁有行政許可15個。
本文源自:金融界
作者:情報員