Cloudflare推出「內容訊號政策」 讓網站自己對AI說明內容可以如何被使用
當搜尋引擎慢慢變成「答案引擎」,用戶甚至不需要點擊原始網站就能得到資訊。對網站經營者、新聞平臺或創作者來說,這意味着流量減少、收益受影響,甚至對內容被使用的方式完全沒有掌控權。面對這個挑戰,Cloudflare最近推出了全新「內容訊號政策」(content signals policy),協助網站和創作者更清楚地表達他們的偏好:AI公司能不能用你網站的內容?可以怎麼用?可不可以拿去訓練模型?
簡單來說,Cloudflare將協助使用者更新網站的robots.txt檔案。這個檔案原本就是網站告訴爬蟲「哪些區域可以抓、哪些不行」的小文字檔,但它過去無法規範抓取後的用途。而新的內容訊號政策,則能讓網站以機器可讀方式告訴AI:「是」表示允許使用、「否」表示不允許,以及沒訊號就表示沒有明確偏好。
同時,它也會明確列出AI爬蟲常見的使用方式,包括搜尋、AI輸入,以及AI訓練。換句話說,網站可以直接告訴AI,「我的內容可以被抓來給用戶看,但不能用來訓練你們的模型」,或是完全拒絕AI抓取。
Cloudflare共同創辦人暨執行長Matthew Prince說:「網際網路不能坐等解決方案出現。創作者有權決定誰可以使用他們的內容,也應該有一種清楚的方式讓AI公司知道這個意願。」他也提到,強化後的robots.txt不只是技術上的更新,更是一種對AI公司明確傳遞訊號的手段:「這是告訴業界:創作者的意願不能被忽視。」
對網站經營者來說,這意味着操作起來非常直觀。舉例來說,一家新聞網站原本每天吸引數十萬點擊,但若AI直接回答用戶問題,流量可能被壓縮。透過新的內容訊號政策,新聞網站可以在robots.txt裡標註「AI不可訓練」,即便爬蟲抓取了內容,也有清楚的規範告訴AI使用方式,未來如果被濫用,還可能具備法律效力。
目前已有超過380萬個網域使用Cloudflare的管理robots.txt服務,來表明他們不希望內容被用於AI訓練。現在新政策推出後,使用者可以進一步設定更多偏好,也能針對所有自動化存取 (例如AI爬蟲)提供明確指示,而對於希望自訂robots.txt的用戶,Cloudflare也提供了操作工具與範例指引。
業界對這項政策也表達支持,新聞媒體聯盟總裁Danielle Coffey認爲,這能讓內容發佈者重新掌控內容主導權,確保能持續資助高品質內容創作;Quora與Reddit則讚揚Cloudflare在建立透明控制機制上的努力,讓AI公司更尊重內容創作者的偏好;而RSL Collective與Stack Overflow則指出,這不只是保護權益,更有助於建立可持續且公平的網路生態,讓創作者與平臺在AI時代能夠共榮。
對一般創作者或中小型網站來說,這項政策也很實用。舉例來說,一位部落客如果每天寫科技文章,可以在robots.txt 設定「AI只能顯示摘要,不能訓練模型」;或者一個手作電商網站,可以限制AI不能抓取商品照片去訓練影像辨識模型。這不僅保護內容,也讓創作者更安心地持續產出。
Cloudflare強調,即日起所有使用其管理robots.txt服務的客戶將自動更新,納入新政策語言。對於想要自訂檔案的使用者,也提供工具與教學範例,確保每個網站都能把「內容使用權」掌握在自己手裡。隨着AI越來越深入網路生態,這套政策將是創作者、平臺與AI公司之間,一個清楚且可讀的「共識語言」。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》