百度申請文檔提取模型相關專利,降低獲取文檔提取模型的資源
金融界2025年8月1日消息,國家知識產權局信息顯示,北京百度網訊科技有限公司申請一項名爲“文檔提取模型的訓練方法及裝置、文檔提取方法及裝置”的專利,公開號CN120409429A,申請日期爲2025年04月。
專利摘要顯示,本公開提供了一種文檔提取模型的訓練方法及裝置、文檔提取方法及裝置,涉及人工智能領域,具體涉及自然語言處理、大模型和深度學習技術領域;獲取第一樣本文檔;對第一樣本文檔執行處理任務對應的預處理流程,得到處理任務對應的第二樣本文檔;通過第一大模型對第二樣本文檔執行處理任務的信息提取過程,得到第一樣本文檔的文檔提取結果;以第一樣本文檔和文檔提取結果作爲訓練樣本,基於訓練樣本對第二大模型進行微調,得到文檔提取模型,通過對第一樣本文檔執行預處理流程,避免了因第一樣本文檔過長,超出第一大模型上下文長度的問題,通過對第二大模型進行微調,降低了獲取文檔提取模型的資源,提升了文檔提取模型進行文檔提取的性能。
天眼查資料顯示,北京百度網訊科技有限公司,成立於2001年,位於北京市,是一家以從事互聯網和相關服務爲主的企業。企業註冊資本1342128萬人民幣。通過天眼查大數據分析,北京百度網訊科技有限公司共對外投資了76家企業,參與招投標項目3049次,財產線索方面有商標信息1004條,專利信息5000條,此外企業還擁有行政許可57個。
本文源自:金融界
作者:情報員