矽谷最神秘「資料清潔工」崛起,Meta狂砸4兆押注!Scale AI是誰?

Meta入股Scale AI引發市場疑慮,路透報導指出Google正計劃終止與Scale AI的合作,微軟、xAI也可能退出。 (來源:Dreamstime/典匠影像)

撰文者:曹博凱

AI 的競賽,正從比賽更強大的演算法或更快的晶片,走向下一階段。一家快速崛起的新創公司Scale AI告訴我們,關鍵勝負其實藏在另一個不起眼的環節──誰能掌握最優質的「數據原料」。

科技巨頭Meta在6月中斥資143億美元(約合新臺幣4.3兆元),完成對Scale AI的戰略性投資,取得其49%的股權,讓這家新創公司估值躍升至290億美元。這將是Meta史上第二高的收購金額!

此外,Scale AI創辦人、年僅28歲的汪滔(Alexandr Wang)也被挖角,加入Meta新成立的「超級智慧」AGI部門擔任領導者。

AI要變聰明,得給它能看懂的資料

爲何Meta要斥重金拿下Scale AI?AI世界的3大基礎支柱是演算法、算力與資料。過去幾年,人們把目光集中在大型語言模型如 GPT 的創新、輝達 GPU 的市值暴漲,卻忽略了:沒有大規模、高品質且不斷更新的「資料」,即使再強的模型也無法持續進化。

Scale AI鎖定的就是第3根支柱,專門爲AI模型準備學習用的資料。這個過程叫做「資料標註」,意思是幫一大堆圖片、文字或音訊加上說明,讓電腦能看懂這些資訊。

舉例來說,如果 AI 要學會辨識紅綠燈,就需要先讀過很多圖片,每一張都要有人標記出「這裡是紅燈」、「那裡是行人穿越道」;如果要讓 AI 懂人類情緒,就要先提供大量文字資料,並告訴它哪些語句是開心的、哪些是憤怒的。這些細節標註越精準,AI 學得就越快越準。

Scale AI 把這件事變成一門規模化的生意。通過其「數據代工廠」(Data Foundry)的理念,結合大量人工標註員,以及機器輔助系統,建立了一套可快速處理、又能保證品質的資料生產線。他們服務的對象從商業科技公司到美國國防部,還和Meta一起開發「國防Llama」這類軍事語言模型,顯示其資料處理能力受到高度信任。

這樣的資料供應實力,也反映在營運成績上。2024年公司營收爲8億7千萬美元,預估今年將成長一倍以上,突破20億美元。

Scale AI包辦最完善「資料代工」

傳統的資料清洗與標註公司,多半提供的是工具平臺或單次型的外包服務,由企業自行上傳資料、指派工作、管理品質。Scale AI 與這些公司不同的是,它提供的是一種「全流程託管」模式,從資料收集、標註策略制定,到最後的驗證,都由Scale AI一手包辦,並根據客戶用途提供量身定製的處理方案。

更重要的是,Scale AI 不只是工具供應商,而是與客戶共同設計數據策略的夥伴。它的模式更像「資料顧問+標註工廠」,同時處理質量控管、安全需求與資料更新機制,這讓它在高度敏感或要求極高的場景(如軍事語言模型)中能獲得信賴。

這也解釋了爲什麼Meta願意投入巨資來換取合作。這不只是一筆單純的投資,而是爲了確保未來能掌握一條獨佔的資料供應鏈。在晶片與模型都可能模仿的年代,資料處理流程的密集人力、複雜管理與多語料庫來源,反而成爲最高的門檻與護城河。

Scale AI的角色類似臺積電之於半導體產業。臺積電的晶圓代工服務,因爲品質佳,業界甚至沒有其他選擇,轉變成各個大廠爭搶的戰略合作伙伴。Scale AI 不只交付資料,更主導資料的結構、更新頻率與標註策略,完整的服務,導致很多AI大廠已經對它高度依賴。

Meta持股49%收購引發中立疑慮

然而這場交易也引來大量質疑。Scale AI原爲OpenAI、Google、微軟等多家大型AI實驗室的資料供應商,如今卻成爲Meta持股49%的公司。這讓市場出現擔心:這家曾經「爲所有人服務」的資料鍊金師,是否仍能保持中立?根據《路透社》報導,Google正計劃終止與Scale AI的合作,微軟、xAI也可能退出。

在生成式AI成爲主流的今日,企業若能掌握穩定、高品質、具前瞻性的數據來源,不只能提升模型效能,更能在激烈競爭中佔據長期優勢。Meta正是用百億美元下這個賭注,而Scale AI,則證明了資料鍊金術,可以是一門真正的戰略生意。但它的中立性,將成爲這門生意能否長久的最大考驗。

※更多精彩報導,詳見《商業週刊》網站。

※本文由商業週刊授權刊載,未經同意禁止轉載。

【延伸閱讀】

矽谷最神秘「資料清潔工」崛起,Meta狂砸4兆押注!Scale AI是誰?

爲何有些人說話總是很有條理?會不會用「框架思考法」是關鍵

等戰爭發生再來準備就太晚了:臺灣人現在能做的5件事

你幾歲開始不吃Buffet?日本報告發現「這年紀」後,飲食習慣大轉變

還沒40歲就被說有老態⋯營養師教你遠離10大顯老習慣