首個AI翻譯實戰榜單出爐!GPT-4o穩坐天花板,Qwen擅長文化丨開源

AI替咱打工搞翻譯,到底誰家最好用?

終於,有人來統一翻譯江湖的標準了:首個應用型AI翻譯測評榜單TransBench在OpenCompass上線。

它由阿里國際AI Business團隊聯合上海人工智能實驗室、北京語言大學共同發佈。

與傳統的翻譯測評體系相比,TransBench增加了幻覺率、文化禁忌詞、敬語規範等指標,專門針對大模型翻譯最容易出錯的關鍵問題進行實戰考覈。

比如:

這是首次針對行業的細分領域構建評測數據和評測方法。這些指標均來自真實場景的使用反饋,由此來測評大模型是否符合大規模應用的標準。

目前,TransBench評測方法與數據集已全面開源,也已發佈了首期測評結果。

歡迎各個AI翻譯機構去打榜,一較高下~

官網表示,TransBench數據集中涵蓋中、英、法、日、韓、西班牙等多種語言。

此外,還在不斷持續更新海量小語種。

TransBench評測體系中的數據集,根據“通用標準”“電商文化”“文化特性”三個大類,整理了不同的數據集。

目前,TransBench多語言翻譯評測榜單首期已經出爐。

評測榜單從“綜合得分”“通用標準”“電商文化”“文化特性”四個維度來給每個模型的翻譯能力打分。

其中,綜合得分是模型在評測數據集的三大維度的綜合平均得分。爲了保證數值可被平均,榜單對不同得分進行了數值縮放。

我們查看並整理了“英語翻譯爲其它語言”和“中文翻譯爲其它語言”兩個榜單的模型能力。

這個條件下,綜合得分和通用標準的得分前三,都分別是:

其中比較特別的是DeepL Translate,上個月底剛剛發佈。

和前三名的另外兩位不同,這是一個專門的機器翻譯(MT,Machine Translation)模型,而不是通用大語言模型。

在電商行業,DeepSeek-R1的翻譯能力殺入榜單前三:

而在文化特性方面,Qwen系列一馬當先。

Qwen2.5-0.5B-Instruct和Qwen2.5-1.5B-Instruct分別位居第一第二,同時第三名花落EuroLLM-1.7B-Instruct。

大家可能對EuroLLM-1.7B-Instruct相對陌生,它是由多個歐洲研究機構聯合開發的開源多語言大模型,涵蓋35種語言,旨在支持所有歐盟官方語言以及其他主要語言。

同樣,在中文翻譯爲其它語言這條賽道上,綜合得分和通用標準的排名相同:

在電商行業,拿下第一的是均值得分4.420的DeepSeek-V3。

緊隨其後的纔是Gemini-2.5-Pro和Claude-3.5-Sonnet。

最後一項文化特性,Qwen系列的表現同樣出色。

榜單前三分別是Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct。

隨着AI大模型加速落地,翻譯模型也進入“比誰更好用”的時代。

相應的,業內也對大模型翻譯效果有了更高的要求,比如要符合不同地區的文化特性、能體現不同行業的語言特色等。

但問題來了——怎麼判斷一個AI翻譯模型到底好不好用?

傳統的翻譯測評維度,主要關注通用質量(如BLEU、COMET),難以反映真實使用場景中對語義準確性、文化合規性、用戶體驗的高要求。

並且,大模型時代的AI翻譯往往面臨幻覺等更多問題。

也就是說,傳統的翻譯測評維度在今天已經不適用了。

爲此,阿里國際AI Business團隊聯合上海人工智能實驗室、北京語言大學一起,構建了更全面、最新的評測標準和規範TransBench。

它從三大維度,重新定義翻譯測評:

第一,全面的通用標準。

不僅包括通用質量,還新增幻覺率和魯棒性評測。

第二,行業垂直標準。

這是首次針對行業的細分領域構建評測數據和評測方法,數據均來自行業細分領域真實數據,並利用語言專家在應用中的標註數據訓練面向行業的打分模型。

第三,跨文化特性標準。

首次提出文化禁忌和敬語規範的評測數據和評測方法。

舉個例子!

電商場景下的用戶投訴,通常與敬語、禁忌語等相關。

這些翻譯結果從字面意思看無誤,但會直接影響到對話人的體驗,應該被納入到測評的範圍中。

其實,早在去年10月,阿里國際的AI Business團隊就發佈了首個大規模商用的翻譯大模型Marco MT,其效果趕超Google、DeepL等頭部AI翻譯工具。

截至目前,Marco MT的日均調用量爲6億次,是電商領域使用量最大的翻譯大模型。

而TransBench的測評體系,正是基於Marco MT在全球真實用戶反饋中總結提煉而來。

因此,構建TransBench這件事中有阿里國際的身影就很好理解了。

當然,除了有業界認可的領先技術外,業務需求也是其中原因之一。

阿里國際旗下有Aliexpress、Lazada、Alibaba.com、Trendyol及Daraz等電商業務,覆蓋全球200多個國家和地區,多語言翻譯是助力業務發展的重要一環。

根據公開信息,2023年3月,阿里國際成立了AI Business,基於全球化電商場景探索AI技術。

現在,阿里國際的所有電商平臺均已廣泛應用AI能力,已服務了超50萬賣家,形成了以服務中小企業出海爲核心,覆蓋全球多元市場、多種電商模式的規模級AI應用。

目前,TransBench的測評方法進行了開源,評測結果也將持續更新。

BTW:

最近啓動的2026屆校招中,阿里國際放出的崗位,80%是AI崗位,包括AI算法、研發、AI產品經理等。

有興趣的同學歡迎投遞~

測評網址:

https://transbench.com/#/?lang=zh-cn