DeepSeek 新專利公佈:減少數據採集時網絡資源消耗
IT之家 4 月 2 日消息,IT之家從國家知識產權局中國專利公佈公告網獲悉,DeepSeek 關聯公司杭州深度求索人工智能基礎技術研究有限公司申請的“一種廣度數據採集的方法及其系統”專利於 4 月 1 日公佈。
專利摘要顯示:
背景技術稱:近年來,隨着人工智能技術的進展,NLP 自然語言領域取得了巨大的進步。許多大語言模型 (LargeLanguageModels,LLMs) 被訓練應用於自然語言處理領域,用於研究實現人與計算機之間用自然語言進行有效通信的各種理論和方法。
大語言模型的訓練需要構建一個高質量、多樣化的大語言模型數據集,這需要將網頁數據採集並處理後得到大量高質量的文本信息作爲模型的輸入,用於大語言模型進行訓練。
然而,現有的數據採集技術存在諸多問題,比如對複雜站點進行採集時,無法獲取完整鏈接;容易過量下載,造成對方網站崩潰;對下載頁面不進行內容質量分析和推斷,造成重複下載或低質下載、影響數據採集的效率。
因此,在大量網頁數據獲取的過程中,如何快速、精準、安全、高效地採集互聯網數據變得至關重要。