智明日新申請一種基於多模態大模型的ASR音頻語料的生成方法和裝置專利,能夠生成高質量、符合特定需求且經過有效篩選的音頻語料

金融界2025年7月18日消息,國家知識產權局信息顯示,智明日新(南京)人工智能科技有限公司申請一項名爲“一種基於多模態大模型的ASR音頻語料的生成方法和裝置”的專利,公開號CN120340506A,申請日期爲2025年05月。

專利摘要顯示,一種基於多模態大模型的ASR音頻語料的生成方法和裝置,涉及音頻語料領域。在該方法中,將語義向量和條件向量拼接成聯合向量,生成第一語音;根據場景標籤從預設噪聲庫中選擇目標噪聲,將目標噪聲疊加到第一語音上生成帶噪聲語音,注入對抗性噪聲生成第二語音;對第二語音進行噪聲標註、文本標註、情感標註和說話人標註,進行對齊以生成多模態標註文件;根據多模態標註文件的場景標籤、噪聲類型及說話人信息,設定詞錯誤率閾值與語義相似度閾值,根據詞錯誤率閾值與語義相似度閾值從多模態標註文件中篩選目標語料。

天眼查資料顯示,智明日新(南京)人工智能科技有限公司,成立於2025年,位於南京市,是一家以從事研究和試驗發展爲主的企業。企業註冊資本1000萬人民幣。通過天眼查大數據分析,智明日新(南京)人工智能科技有限公司專利信息1條。

本文源自:金融界

作者:情報員