獨家揭秘:阿里國際藏了10萬億級數據黑科技
阿里國際高級數據科學技術專家李海軍 聚焦多語言大模型數據研發,針對通用模型在低資源語種(如東南亞小語種)表現不足的瓶頸,提出系統性解決方案。核心挑戰在於小語種數據稀缺、標註技術成熟度低及處理成本高。對此,阿里國際通過五大策略突破:
1. 數據採集: 整合開源多語言 Web 數據、專業機構合作、平行語料過濾(如OPUS、CCAligned),並利用業務積累數據;
2. 數據增強: 採用合成數據(In-Context 學習、多語言翻譯)和模型蒸餾技術;
3. 質量優化: 構建自動化處理流水線,融合規則、小模型與大模型,實現語種識別、多維度去重及質量打分;
4. 工程架構: 設計五階段分佈式流水線(解析→標準化→打標→去重→構建),結合 MaxCompute 與 FaaS 平臺提升處理效能;
5. 評估聯動 : 首創 TransBench 三級評估框架(基礎語言/領域專業/文化適應能力),通過“數據研發-訓練-評估”閉環驅動模型迭代,自研的 Marco-MOS 評估模型顯著優於 GPT-4。
該方案已應用於跨境電商多語言翻譯、商品理解等場景,並通過 OpenCompass 平臺開放能力,推動行業共建低資源語言生態。未來將深化領域數據精細化與在線學習機制,支撐大模型業務落地。
在7月25-26日深圳DA數智技術大會上,李海軍老師作爲專題出品人,策劃了 【大模型時代數據處理技術應用】 論壇,邀請了阿里國際 AI Business多模態數據負責人趙健杉老師來介紹具體的技術細節。在其之前,我們採訪了李海軍老師,從技術從面分享他們在做的事情,以饗讀者。
01
行業背景與技術挑戰
DataFun:您之前在分享中也提到過,“通用大模型在多語言場景下表現不足”,能否結合跨境電商場景,說明低資源語言數據(如東南亞小語種)在訓練大模型時的核心瓶頸?例如,數據稀疏性如何影響模型性能?
李海軍: 業界各類大模型發展迅速,雖然很多大模型在資源豐富語言上表現較好,但在小語種上表現一般,再結合到國際電商業務細分領域,更是差強人意。
Scaling Law 表明,擴大模型規模和訓練數據可顯著提升性能,然而低資源語言通常缺乏訓練大型模型所需的大量文本數據,這是多語言模型訓練需要解決的問題。
低資源語言數據,從數據源頭上來看,源數據就稀缺;從數據研發上看,NLP、分詞、實體提取、質量評估等,在技術成熟度上沒有大語種高;從標註上來看,無論是人工標註還是機器標註,其實現難度比大語種高出不少。因此多語言模型要突破,在其語料研發上都需要花更多的時間和精力去拓展更多的數據源、數據研發處理技術。
DataFun:面對低資源語言,阿里國際如何構建有效的數據採集策略,突破數據稀缺問題的?採用了哪些文本擴充數據的思路,或採用合成數據生成技術?
李海軍: 首先我們使用了大量的開源 Multilingual Web Data;其次,我們也與業界一些專業的多語言數據公司進行合作以獲取定向語言數據;
第三,開源的平行語料也是我們源數據的重要來源,以開源數據 OPUS、 CCAligned 爲例,我們通過特殊符號、停用詞、數字比例、源句子中重複詞比例等進行過濾,使用 LASER 相似度分數來過濾掉分數較低的句子對,也能得到高質量的平行語料;
第四,在一些特定語種上我們使用了數據合成和模型蒸餾,以儘可能多地提升多語言數據源,我們在 CT、SFT、DPO 等各類型訓練都有使用數據合成,如SFT數據,爲增加數據多樣性,我們使用了 In-Context Learning 和多語言翻譯技術來生成多語言數據,使用了不同語言的 SOTA 高階模型;
第五,我們阿里國際在業務發展過程中也積累了豐富的多語言業務數據,這是我們最寶貴的數據。
02
技術攻堅與數據工程
DataFun:多語言數據常面臨噪聲、標註不一致等問題。阿里國際是否通過自動化清洗工具(如規則引擎+AI質檢)提升數據質量?
李海軍: 在做多語言數據處理的時候,我們借鑑了業界的一些方法,如業界在處理 CommonCrawl 的數據集 C4、RefinedWeb、SlimPajama 和 FineWeb 等的一些處理方法。我們在這些方法的基礎上做了大量的優化改進,如在數據打標上,我們分別對字、詞、句、段、篇、集從微觀到宏觀的數據標籤設計,融合規則、小模型和大模型多種方法進行數據打標,根據打標的內容按照數據處理規則、訓練需要、訓練目標等不同角度去實現數據過濾。又比如在數據去重上,我們實現了文檔局部去重、數據集去重、Web Data多維度去重、全局去重。
在多語言方面,語言處理的一個核心是語言識別技術,我們在業界通用做法上做了大量的優化,使得在語種識別上準確率有很大的提升,從而能夠從海量的 Web數據中清洗出各個語種數據,並增加了各個語種語法、語義通順流暢度、標點符號、完整性等判斷方法,通過自動化打分機制,獲得高質量語料。
在格式解析、語種識別、打標過濾、文本轉換、文本去重、質量校驗的各個基礎能力之上,對這些基礎處理能力進行抽象,藉助阿里的分佈式計算能力,開發出一個通用的多語言數據處理工具,能夠高效處理各類多語言語料。
DataFun:跨境電商場景涉及文本、圖像、視頻等多模態數據。如何設計統一的數據處理框架,確保多語言文本與商品圖片的語義對齊?
李海軍: 在跨境電商場景中,設計統一的多模態數據處理框架,可圍繞不同模態數據的特徵提取與對齊展開,通過設計包括文本、圖像、視頻、音頻等不同模態的數據預處理算子,並結合規則+小模型+大模型的三重數據標註策略進行不同模態元數據標註,使用跨模態 Embedding 技術對不同模態數據向量化,構建統一語義空間以實現模態對齊,同時結合分佈式存儲與計算優化資源調度,支撐多語種電商圖片翻譯、圖片/視頻內容理解及多語種營銷文案生成等業務需求。
03
工程實踐與效能提升
DataFun:處理海量的多語言數據時,阿里國際如何實現分佈式計算架構?
李海軍: 在大語言模型數據研發方面,我們積累了10萬億級Tokens,面對海量的多語言數據的處理挑戰,我們構建了一套五階段流水線架構來優化分佈式計算性能。具體來說,數據解析、標準化、打標、去重到數據集構建這五個環節。
我們根據算子的計算特性做了差異化部署,首先對於那些邏輯相對簡單的規則類算子,比如格式轉換、基礎清洗等,我們直接在阿里雲分佈式計算引擎MaxCompute上研發自定義函數(UDF),充分利用其原生分佈式能力;
其次對於深度學習模型這類計算密集且需要GPU加速的算子,我們選擇部署在 EGS 集羣的 FaaS 平臺上,然後通過服務調用的方式與 MaxCompute 集成。
這兩類方式最後都通過 MaxCompute 雲分佈式的能力進行統一調度計算。在多模態大模型訓練數據的清洗與預處理中,對結構化元信息、非結構化數據、元信息與非結構化數據跨模態數據對齊等計算上,我們都進行了分佈式批處理及性能優化提升,以滿足多模態訓練數據的處理要求。
DataFun:您提出“數據建設與模型迭代聯動機制”,是如何運作的,如何建好數據建設與模型迭代聯動機制?
李海軍: 我們模型爲滿足阿里國際內部業務不斷進行迭代,在模型迭過程中需要對模型進行通用 Benchmark 評估,以評估其理解、推理、科學、數學、代碼等通用性能;也需要構建業務領域 Benchmark,評估模型在業務領域如多語言對話、商品多語言理解、商品多語言翻譯等業務領域表現。根據評估結果,再針對性補充數據用於模型迭代訓練使用,形成“數據研發-模型訓練-模型評估”聯動機制。
AI Data是爲了模型各階段訓練研發的,在這種聯動機制模式下,數據建設與模型目標一致,模型目標與業務目標一致,評估能力圍繞模型目標和業務目標開展。從數據研發角度看,不僅需要通用數據,還需要精細化高質量的領域數據,從評估上看,需要從真實業務出發,構建業務評測數據集,研發自動化智能化的業務評測方法,滿足評估樣本充足性和評估及時性。
04
應用驗證與行業價值
李海軍: 阿里國際聯合上海人工智能實驗室、北京語言大學一起研發的這套多語言翻譯大模型評測框架體系——TransBench,已經在 OpenCompass 司南平臺發佈。
多語言是我們業務領域的一大場景,在其他業務場景上我們也有不少實踐,如圖片理解、圖片生成、語音翻譯等業務場景上。無論是哪一個領域,我認爲結合自己的場景,整理清洗真實業務數據的測試集,研發準確高效的自動化智能化評估方法,並把這個評估能力應用到生產,是大模型評估的主要任務。
DataFun:阿里國際是否會開放多語言數據平臺,與學術界共建低資源語言生態?您認爲下一代大模型研發,面臨的數據問題是什麼,有沒有什麼好的應對方法?
李海軍: 我們在積極推動多語言領域的數據建設,也在與行業頭部機構合作,如我們正在跟上海人工智能實驗室合作,探討數據的共建共享機制。
經過大模型遍地開花甚至野蠻生長的過程,業界大模型的基本格局已初步形成,以 DeepSeek、Qianwen、OpenAI 等頭部機構的模型基礎能力越來越強。以大模型爲核心的應用落地將會越來越多,所以大模型數據需要服務於業務增強學習,對企業的領域數據採集、精細化清洗將是大模型數據面臨的重要任務之一。另外隨着大模型應用持續使用,應用數據採集迴流、模型在線/準在線學習、模型評估的機制也可能逐步形成。
嘉賓介紹
李海軍: 阿里國際 AI Business 數據與評測平臺負責人。長期深耕於大數據及人工智能領域,積累了豐富的數據平臺建設和架構設計實踐經驗。現任阿里國際 AI Business 大模型數據、評估負責人,專注於大語言模型及多模態大模型數據研發、模型評估工作,致力於推動數據與AI技術的迭代融合與創新。重點攻堅大型模型對應的大規模、高質量數據處理技術及優化,大模型在業務領域表現的自動化評估技術。在此之前,曾擔任阿里雲行業大型模型數據研發負責人、阿里雲政務及醫療行業數據負責人、螞蟻金服國際數據平臺架構師。