清華大學×卡內基梅隆大學開源Crawl4LLM——LLM預訓練爬蟲新方案

【清華大學×卡內基梅隆大學開源Crawl4LLM——LLM預訓練爬蟲新方案】 核心創新 首創「預訓練影響力評分器」,顛覆傳統基於PageRank的爬蟲邏輯,直接以LLM訓練價值爲優先級指標,實現高效數據篩選。 性能突破 經9億級網頁索引驗證:僅需爬取21%的URL即可達成與傳統爬蟲同等下游任務表現,減少79%冗餘數據抓取,顯著降低對網站資源的佔用。 技術原理 1. 優先級隊列調度:爲每個URL動態計算預訓練價值分數 2. 定向圖譜探索:優先抓取對模型能力提升顯著的高質量網頁 3. 動態評分更新:根據已抓取內容持續優化後續URL評分 實驗驗證 在ClueWeb22數據集模擬中,相同計算資源下: ✓ 模型收斂速度提升2.1倍 ✓ 文本語義理解指標提高15% ✓ 長文本生成連貫性優化23% 開源地址:網頁鏈接