☰

首個AI翻譯實戰榜單出爐！GPT-4o穩坐天花板，Qwen擅長文化丨開源

AI替咱打工搞翻譯，到底誰家最好用？

終於，有人來統一翻譯江湖的標準了：首個應用型AI翻譯測評榜單TransBench在OpenCompass上線。

它由阿里國際AI Business團隊聯合上海人工智能實驗室、北京語言大學共同發佈。

與傳統的翻譯測評體系相比，TransBench增加了幻覺率、文化禁忌詞、敬語規範等指標，專門針對大模型翻譯最容易出錯的關鍵問題進行實戰考覈。

比如：

這是首次針對行業的細分領域構建評測數據和評測方法。這些指標均來自真實場景的使用反饋，由此來測評大模型是否符合大規模應用的標準。

目前，TransBench評測方法與數據集已全面開源，也已發佈了首期測評結果。

歡迎各個AI翻譯機構去打榜，一較高下～

官網表示，TransBench數據集中涵蓋中、英、法、日、韓、西班牙等多種語言。

此外，還在不斷持續更新海量小語種。

TransBench評測體系中的數據集，根據“通用標準”“電商文化”“文化特性”三個大類，整理了不同的數據集。

目前，TransBench多語言翻譯評測榜單首期已經出爐。

評測榜單從“綜合得分”“通用標準”“電商文化”“文化特性”四個維度來給每個模型的翻譯能力打分。

其中，綜合得分是模型在評測數據集的三大維度的綜合平均得分。爲了保證數值可被平均，榜單對不同得分進行了數值縮放。

我們查看並整理了“英語翻譯爲其它語言”和“中文翻譯爲其它語言”兩個榜單的模型能力。

這個條件下，綜合得分和通用標準的得分前三，都分別是：

其中比較特別的是DeepL Translate，上個月底剛剛發佈。

和前三名的另外兩位不同，這是一個專門的機器翻譯（MT，Machine Translation）模型，而不是通用大語言模型。

在電商行業，DeepSeek-R1的翻譯能力殺入榜單前三：

而在文化特性方面，Qwen系列一馬當先。

Qwen2.5-0.5B-Instruct和Qwen2.5-1.5B-Instruct分別位居第一第二，同時第三名花落EuroLLM-1.7B-Instruct。

大家可能對EuroLLM-1.7B-Instruct相對陌生，它是由多個歐洲研究機構聯合開發的開源多語言大模型，涵蓋35種語言，旨在支持所有歐盟官方語言以及其他主要語言。

同樣，在中文翻譯爲其它語言這條賽道上，綜合得分和通用標準的排名相同：

在電商行業，拿下第一的是均值得分4.420的DeepSeek-V3。

緊隨其後的纔是Gemini-2.5-Pro和Claude-3.5-Sonnet。

最後一項文化特性，Qwen系列的表現同樣出色。

榜單前三分別是Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct。

隨着AI大模型加速落地，翻譯模型也進入“比誰更好用”的時代。

相應的，業內也對大模型翻譯效果有了更高的要求，比如要符合不同地區的文化特性、能體現不同行業的語言特色等。

但問題來了——怎麼判斷一個AI翻譯模型到底好不好用？

傳統的翻譯測評維度，主要關注通用質量（如BLEU、COMET），難以反映真實使用場景中對語義準確性、文化合規性、用戶體驗的高要求。

並且，大模型時代的AI翻譯往往面臨幻覺等更多問題。

也就是說，傳統的翻譯測評維度在今天已經不適用了。

爲此，阿里國際AI Business團隊聯合上海人工智能實驗室、北京語言大學一起，構建了更全面、最新的評測標準和規範TransBench。

它從三大維度，重新定義翻譯測評：

第一，全面的通用標準。

不僅包括通用質量，還新增幻覺率和魯棒性評測。

第二，行業垂直標準。

這是首次針對行業的細分領域構建評測數據和評測方法，數據均來自行業細分領域真實數據，並利用語言專家在應用中的標註數據訓練面向行業的打分模型。

第三，跨文化特性標準。

首次提出文化禁忌和敬語規範的評測數據和評測方法。

舉個例子！

電商場景下的用戶投訴，通常與敬語、禁忌語等相關。

這些翻譯結果從字面意思看無誤，但會直接影響到對話人的體驗，應該被納入到測評的範圍中。

其實，早在去年10月，阿里國際的AI Business團隊就發佈了首個大規模商用的翻譯大模型Marco MT，其效果趕超Google、DeepL等頭部AI翻譯工具。

截至目前，Marco MT的日均調用量爲6億次，是電商領域使用量最大的翻譯大模型。

而TransBench的測評體系，正是基於Marco MT在全球真實用戶反饋中總結提煉而來。

因此，構建TransBench這件事中有阿里國際的身影就很好理解了。

當然，除了有業界認可的領先技術外，業務需求也是其中原因之一。

阿里國際旗下有Aliexpress、Lazada、Alibaba.com、Trendyol及Daraz等電商業務，覆蓋全球200多個國家和地區，多語言翻譯是助力業務發展的重要一環。

根據公開信息，2023年3月，阿里國際成立了AI Business，基於全球化電商場景探索AI技術。

現在，阿里國際的所有電商平臺均已廣泛應用AI能力，已服務了超50萬賣家，形成了以服務中小企業出海爲核心，覆蓋全球多元市場、多種電商模式的規模級AI應用。

目前，TransBench的測評方法進行了開源，評測結果也將持續更新。

BTW：

最近啓動的2026屆校招中，阿里國際放出的崗位，80%是AI崗位，包括AI算法、研發、AI產品經理等。

有興趣的同學歡迎投遞～

測評網址：

https://transbench.com/#/?lang=zh-cn

首個AI翻譯實戰榜單出爐！GPT-4o穩坐天花板，Qwen擅長文化丨開源

相關資訊