首個AI翻譯實戰榜單出爐!GPT-4o穩坐天花板,Qwen擅長文化丨開源
AI替咱打工搞翻譯,到底誰家最好用?
終於,有人來統一翻譯江湖的標準了:首個應用型AI翻譯測評榜單TransBench在OpenCompass上線。
它由阿里國際AI Business團隊聯合上海人工智能實驗室、北京語言大學共同發佈。
與傳統的翻譯測評體系相比,TransBench增加了幻覺率、文化禁忌詞、敬語規範等指標,專門針對大模型翻譯最容易出錯的關鍵問題進行實戰考覈。
比如:
這是首次針對行業的細分領域構建評測數據和評測方法。這些指標均來自真實場景的使用反饋,由此來測評大模型是否符合大規模應用的標準。
目前,TransBench評測方法與數據集已全面開源,也已發佈了首期測評結果。
歡迎各個AI翻譯機構去打榜,一較高下~
官網表示,TransBench數據集中涵蓋中、英、法、日、韓、西班牙等多種語言。
此外,還在不斷持續更新海量小語種。
TransBench評測體系中的數據集,根據“通用標準”“電商文化”“文化特性”三個大類,整理了不同的數據集。
目前,TransBench多語言翻譯評測榜單首期已經出爐。
評測榜單從“綜合得分”“通用標準”“電商文化”“文化特性”四個維度來給每個模型的翻譯能力打分。
其中,綜合得分是模型在評測數據集的三大維度的綜合平均得分。爲了保證數值可被平均,榜單對不同得分進行了數值縮放。
我們查看並整理了“英語翻譯爲其它語言”和“中文翻譯爲其它語言”兩個榜單的模型能力。
這個條件下,綜合得分和通用標準的得分前三,都分別是:
其中比較特別的是DeepL Translate,上個月底剛剛發佈。
和前三名的另外兩位不同,這是一個專門的機器翻譯(MT,Machine Translation)模型,而不是通用大語言模型。
在電商行業,DeepSeek-R1的翻譯能力殺入榜單前三:
而在文化特性方面,Qwen系列一馬當先。
Qwen2.5-0.5B-Instruct和Qwen2.5-1.5B-Instruct分別位居第一第二,同時第三名花落EuroLLM-1.7B-Instruct。
大家可能對EuroLLM-1.7B-Instruct相對陌生,它是由多個歐洲研究機構聯合開發的開源多語言大模型,涵蓋35種語言,旨在支持所有歐盟官方語言以及其他主要語言。
同樣,在中文翻譯爲其它語言這條賽道上,綜合得分和通用標準的排名相同:
在電商行業,拿下第一的是均值得分4.420的DeepSeek-V3。
緊隨其後的纔是Gemini-2.5-Pro和Claude-3.5-Sonnet。
最後一項文化特性,Qwen系列的表現同樣出色。
榜單前三分別是Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct。
隨着AI大模型加速落地,翻譯模型也進入“比誰更好用”的時代。
相應的,業內也對大模型翻譯效果有了更高的要求,比如要符合不同地區的文化特性、能體現不同行業的語言特色等。
但問題來了——怎麼判斷一個AI翻譯模型到底好不好用?
傳統的翻譯測評維度,主要關注通用質量(如BLEU、COMET),難以反映真實使用場景中對語義準確性、文化合規性、用戶體驗的高要求。
並且,大模型時代的AI翻譯往往面臨幻覺等更多問題。
也就是說,傳統的翻譯測評維度在今天已經不適用了。
爲此,阿里國際AI Business團隊聯合上海人工智能實驗室、北京語言大學一起,構建了更全面、最新的評測標準和規範TransBench。
它從三大維度,重新定義翻譯測評:
第一,全面的通用標準。
不僅包括通用質量,還新增幻覺率和魯棒性評測。
第二,行業垂直標準。
這是首次針對行業的細分領域構建評測數據和評測方法,數據均來自行業細分領域真實數據,並利用語言專家在應用中的標註數據訓練面向行業的打分模型。
第三,跨文化特性標準。
首次提出文化禁忌和敬語規範的評測數據和評測方法。
舉個例子!
電商場景下的用戶投訴,通常與敬語、禁忌語等相關。
這些翻譯結果從字面意思看無誤,但會直接影響到對話人的體驗,應該被納入到測評的範圍中。
其實,早在去年10月,阿里國際的AI Business團隊就發佈了首個大規模商用的翻譯大模型Marco MT,其效果趕超Google、DeepL等頭部AI翻譯工具。
截至目前,Marco MT的日均調用量爲6億次,是電商領域使用量最大的翻譯大模型。
而TransBench的測評體系,正是基於Marco MT在全球真實用戶反饋中總結提煉而來。
因此,構建TransBench這件事中有阿里國際的身影就很好理解了。
當然,除了有業界認可的領先技術外,業務需求也是其中原因之一。
阿里國際旗下有Aliexpress、Lazada、Alibaba.com、Trendyol及Daraz等電商業務,覆蓋全球200多個國家和地區,多語言翻譯是助力業務發展的重要一環。
根據公開信息,2023年3月,阿里國際成立了AI Business,基於全球化電商場景探索AI技術。
現在,阿里國際的所有電商平臺均已廣泛應用AI能力,已服務了超50萬賣家,形成了以服務中小企業出海爲核心,覆蓋全球多元市場、多種電商模式的規模級AI應用。
目前,TransBench的測評方法進行了開源,評測結果也將持續更新。
BTW:
最近啓動的2026屆校招中,阿里國際放出的崗位,80%是AI崗位,包括AI算法、研發、AI產品經理等。
有興趣的同學歡迎投遞~
測評網址:
https://transbench.com/#/?lang=zh-cn