AI 產業重視訓練數據

隨着人工智慧(AI)模型的發展轉向更重視推理,全球的頂尖人工智慧(AI)業者日益正視訓練數據的重要性,因而正以高薪延攬產業專家,創造出更精密的訓練數據,取代在非洲、亞洲的低薪資料標註員,從而打造更聰明而強大的AI模型。

英國金融時報報導,Scale AI、Turing、Toloka等業者正聘請生物與金融等領域的一流專家,以創造出對催生下一代AI系統至關緊要的更精密訓練數據。

OpenAI的o3、Google旗下Gemini 2.5等推理模型的崛起,已使業者加速捨棄在肯亞、菲律賓等國家聘請數千名低薪員工的作法;這類人力從事註記數據集的耗時工作,時薪低於2美元。

Toloka共同創辦人、執行長梅戈爾斯卡雅說:「AI產業長久以來偏重於模型與運算,向來忽略數據這個環節。」「業界總算正視訓練數據的重要性。」這項轉變也點燃投資人對數據辨識新創公司的興趣。爲追趕對手,Meta在6月對美國的Scale AI投資150億美元,使該公司的估值倍增至290億美元。

加州的Turing AI在3月籌得1.11億美元,估值升至22億美元。亞馬遜創辦人貝佐斯的私人事業Bezos Expeditions也在5月引領對Toloka的7,200萬美元投資。

此前資料標註員負責簡單的工作,是在圖片上畫框以辨識物品、描述圖片內容、選擇流暢的表達方式,並移除數據集內常含有暴力或露骨內容的糟糕答覆。梅戈爾斯卡雅說,如今,這類任務的需求已大幅下降,因爲許多工作已能自動化處理。

爲了確保模型在程式設計、物理學與金融等各領域都有良好表現,財力雄厚的AI企業如今願意出高價,購買更復雜的數據集,並從全球延攬專家。

Turing AI共同創辦人兼執行長席達哈指出,爲了吸引來自不同產業的人才,開給專家的報酬比他們原先工作的薪資高出20%-30%。相較於AI公司在算力砸下數千億美元,資料支出僅佔其中約10%到15%,但這仍是一筆「極其龐大」的費用。