腾讯开源翻译模型狂飙：31个语言对夺30冠，力压谷歌GPT全家桶

发布时间：2025-09-02 19:09:17 浏览量：58

大数据文摘出品

腾讯宣布开源两款翻译模型。

这两款模型名为“Hunyuan MT 7B”和“Hunyuan MT Chimera 7B”，在国际权威赛事WMT2025上几乎横扫所有项目，31个语言对里拿下30个第一。

WMT是机器翻译领域的最高级别赛事，全球研究团队齐聚一堂比拼系统表现。

腾讯模型的得分大幅超过谷歌翻译。也在多项指标上，结果领先幅度高达65%。

不仅如此，面对OpenAI的GPT-4.1、Anthropic的Claude 4 Sonnet，以及谷歌的Gemini 2.5 Pro等顶尖AI系统，腾讯依然占优。

评测数据显示，Hunyuan模型在关键语言对的直接对抗中，比Gemini 2.5 Pro高出4.7个百分点。

面对专门的翻译模型，优势更为明显，提升幅度最高达110%。

这意味着，参数规模只有70亿的模型，居然在翻译任务上击败了动辄数百亿参数的庞然大物。

模型覆盖33种语言，包括中文、英语、日语，以及捷克语、马拉地语、爱沙尼亚语和冰岛语等小语种。

最引人注目的是，腾讯把重点放在了中国的少数民族语言。模型支持汉语与哈萨克语、维吾尔语、蒙古语和藏语的双向翻译。

为此，团队专门准备了1.3万亿个标注单位，仅针对少数民族语料。整个训练过程共涉及112种语言和方言。

另外，这两款模型未不是单纯依赖大数据暴力堆砌。训练过程分为五个阶段，从通用文本起步，逐渐引入翻译专属数据，再用人工标注进行监督学习。

接着是基于奖励信号的强化学习，最后一步是所谓“弱到强”的强化学习策略。

这种层层递进的方式，保证了模型既有广泛知识，又能在翻译任务上保持专业性。

特别值得一提的是“Chimera”模型。

它采用融合策略，将多个系统的翻译建议合并为更优结果，在标准测试中平均提升2.3个百分点。

这种方法等于把不同模型的优势叠加，避免了单一系统的偏差。

与之相比，谷歌最近宣布的Gemini翻译功能，虽然引入了实时对话翻译和语言学习模式，但在核心准确率上，依然落后于腾讯。

腾讯的另一个亮点是开源。

模型已经在Hugging Face平台上线，源代码同步开放在GitHub。在硬件需求上，Hunyuan只需普通显卡即可运行。

与72亿参数的Tower Plus系列相比，Hunyuan在多项指标上超出10%到58%。

显然，翻译领域的竞争，不再是“模型越大越好”。未来的方向，是精准训练和高效架构。

体验地址：

Github:

HugginFace:

AngelSlim压缩工具：

GPU 训练特惠！

H100/H200 GPU算力按秒计费，平均节省开支30%以上！

标签：模型翻译谷歌开源 gpt