☰

清華大學×卡內基梅隆大學開源Crawl4LLM——LLM預訓練爬蟲新方案

【清華大學×卡內基梅隆大學開源Crawl4LLM——LLM預訓練爬蟲新方案】核心創新首創「預訓練影響力評分器」，顛覆傳統基於PageRank的爬蟲邏輯，直接以LLM訓練價值爲優先級指標，實現高效數據篩選。性能突破經9億級網頁索引驗證：僅需爬取21%的URL即可達成與傳統爬蟲同等下游任務表現，減少79%冗餘數據抓取，顯著降低對網站資源的佔用。技術原理 1. 優先級隊列調度：爲每個URL動態計算預訓練價值分數 2. 定向圖譜探索：優先抓取對模型能力提升顯著的高質量網頁 3. 動態評分更新：根據已抓取內容持續優化後續URL評分實驗驗證在ClueWeb22數據集模擬中，相同計算資源下： ✓ 模型收斂速度提升2.1倍 ✓ 文本語義理解指標提高15% ✓ 長文本生成連貫性優化23% 開源地址：網頁鏈接

清華大學×卡內基梅隆大學開源Crawl4LLM——LLM預訓練爬蟲新方案

相關資訊