放開“不登錄不給看全文”限制,知乎這回知道錯了
此前在去年5月,知乎不聲不響地爲網頁端添加了非登錄用戶無法查看全文限制,但近日這家問答社區卻又悄然放開了這個限制,用戶無需登錄即可直接瀏覽完整內容。
2024年5月有網友在社交平臺上反饋,非登錄狀態下訪問知乎網頁的問題回答頁面、點擊“展開閱讀全文”,就會自動彈出登錄窗口。不過由於用戶在WAP端、也就是手機網頁上以非登錄狀態仍可完整查看內容,表明知乎方面並未打算玩“打開App才能閱讀全文”這個套路。
彼時外界普遍認爲,知乎方面採取非登錄用戶查看全文的限制措施是爲了反爬蟲,以防AI廠商使用爬蟲來抓取內容訓練AI大模型。因爲查看網頁的源代碼就會發現,在用戶沒有登錄的情況下,知乎壓根就沒有傳輸回答的完整數據,所以即使是通過技術手段來屏蔽登錄彈窗,也不能在非登錄狀態下查看到完整的回答。
自從OpenAI用ChatGPT證明了Scaling law的正確性,即AI大模型的最終性能主要與計算量、模型參數量和訓練數據量三者的規模大小呈正相關後,AI廠商就開始對算力和數據變得如飢似渴。
算力之於AI的作用顯然毋庸置疑,OpenAI、微軟、Meta、xAI等廠商大手筆地購買英偉達的算力芯片,甚至直接將後者託舉成了全球最值錢的公司。而國內的AI廠商,更是絞盡腦汁地獲取英偉達H100/H200。同時作爲AI大模型的另一端,訓練數據或者說語料的重要性,也已經成爲了共識。
生成式AI的原理,大概可以總結爲通過大量的語料庫進行訓練,以建立相應的模型,從而使得AI能夠對人類的問題做出相應的回答和決策,它的核心邏輯就是“基於統計規律的模式生成”。經過大量的數據訓練後,AI預測出問題的答案其實並不等於擁有智慧,本質上與人類玩數獨或填字遊戲是一樣的。只不過訓練AI的數據規模過於龐大,就使得它的“猜謎”有了統計學意義。
ChatGPT爲什麼會表現得比以往的AI更聰明?單純就是因爲語料規模更大。要知道在相當長的一段時間裡,機器學習研究領域並沒有將數據量作爲主要研究對象,數據一般被認爲是被動變量,大量的研究集中在如何有效降低訓練誤差和如何控制模型複雜度上。
Scaling law無疑是過去兩年來,AI大模型賽道風起雲涌的理論基礎,它證明了通過預訓練中使用更多的數據和算力,就能讓AI大模型的性能暴漲。由於數據多等於智能多得到了驗證,如此一來AI廠商當然就迫切地想要獲得更多的數據來訓練更強的模型。而數據的問題,就讓OpenAI、Anthropic的爬蟲已然成爲了網絡空間中最具進攻性的存在。
如今幾乎每一個AI廠商,都揹着非法獲取數據所引發的版權官司。既然數據本身是有價值的,那麼如何處理它就成爲了每一個互聯網內容平臺必須要面對的問題。如果平臺本身胸無大志,這件事其實也很好辦,比如“美國貼吧”Reddit就選擇了簡單粗暴地賣數據,將平臺中的內容授權給谷歌、OpenAI用作大模型的訓練。
可問題在於,知乎並不想錯過AI時代。在一衆國內互聯網廠商中,知乎擁抱AI大模型的態度可以說是相當積極,第一批發布AI大模型的廠商裡就有他們。早在2023年4月,知乎就與面壁智能共建大模型產品“知海圖AI”,到了2024年7月又推出AI搜索產品“知乎直答”,就在2月11日,知乎也是第一批接入DeepSeek-R1的。
儘管知乎在國內互聯網廠商裡並不以技術見長,但中文互聯網中質量最高的內容庫,纔是他們的核心競爭力。知乎創始人周源在發佈“知海圖AI”時就曾表示,擁有中文互聯網大量高質量內容,正是知乎研發大語言模型的優勢所在。所以保護內容庫就是保護知乎在AI領域的市場競爭力,這一點知乎管理層顯然有着清晰的認知。
但凡事都有正反兩面,非登錄用戶無法查看全文的限制對於用戶體驗無疑是強烈的負反饋。對此用戶也選擇用腳投票,在知乎方面公佈的2024年第三季度財報中就表明,其月活爲8110萬,與去年第三季度的1.05億相比,同比大幅下滑了22.98%。
活躍用戶大幅下滑的影響顯然是巨大的,也直接導致了知乎的平均每月訂閱會員增長率下降至13.79%,不復2022年(93.07%)、2023年的(47.96%)的亮眼表現。活躍用戶規模下滑就意味着池子變小了,能篩選出願意付費的用戶基數自然就會相應縮減。
同時在知乎的財報中顯示,付費用戶的每月付費金額也在下降,已經從2023年的11.59元下降到了2024年第三季度的10.02元。換而言之,知乎過去兩年力推的付費訂閱業務遇到了困境。對此,他們解決方案就是重新挽回用戶、擴大月活規模。
當然,除了限制非登錄用戶查看全文導致用戶離心、要亡羊補牢之外,大模型的Scaling law放緩也是促使知乎轉向的原因,畢竟DeepSeek的出現給Scaling law理論帶來了新的思考。並且馬斯克的Grok 3在投入海量資源、付出巨大的成本後卻沒有出現質變,也爲Scaling law理論蒙上了一層陰影。
大模型不是必須大力才能出奇跡,這或許纔是知乎這一策略發生改變的根源,如果內容庫沒有想象中值錢,又何必爲其去得罪用戶呢?
【本文圖片來自網絡】