新闻资讯-歌剧话剧

腾讯开源翻译模型狂飙:31个语言对夺30冠,力压谷歌GPT全家桶

发布时间:2025-09-02 19:09:17  浏览量:42

大数据文摘出品

腾讯宣布开源两款翻译模型。

这两款模型名为“Hunyuan MT 7B”和“Hunyuan MT Chimera 7B”,在国际权威赛事WMT2025上几乎横扫所有项目,31个语言对里拿下30个第一。

WMT是机器翻译领域的最高级别赛事,全球研究团队齐聚一堂比拼系统表现。

腾讯模型的得分大幅超过谷歌翻译。也在多项指标上,结果领先幅度高达65%。

不仅如此,面对OpenAI的GPT-4.1、Anthropic的Claude 4 Sonnet,以及谷歌的Gemini 2.5 Pro等顶尖AI系统,腾讯依然占优。

评测数据显示,Hunyuan模型在关键语言对的直接对抗中,比Gemini 2.5 Pro高出4.7个百分点。

面对专门的翻译模型,优势更为明显,提升幅度最高达110%。

这意味着,参数规模只有70亿的模型,居然在翻译任务上击败了动辄数百亿参数的庞然大物。

模型覆盖33种语言,包括中文、英语、日语,以及捷克语、马拉地语、爱沙尼亚语和冰岛语等小语种。

最引人注目的是,腾讯把重点放在了中国的少数民族语言。模型支持汉语与哈萨克语、维吾尔语、蒙古语和藏语的双向翻译。

为此,团队专门准备了1.3万亿个标注单位,仅针对少数民族语料。整个训练过程共涉及112种语言和方言。

另外,这两款模型未不是单纯依赖大数据暴力堆砌。训练过程分为五个阶段,从通用文本起步,逐渐引入翻译专属数据,再用人工标注进行监督学习。

接着是基于奖励信号的强化学习,最后一步是所谓“弱到强”的强化学习策略。

这种层层递进的方式,保证了模型既有广泛知识,又能在翻译任务上保持专业性。

特别值得一提的是“Chimera”模型。

它采用融合策略,将多个系统的翻译建议合并为更优结果,在标准测试中平均提升2.3个百分点。

这种方法等于把不同模型的优势叠加,避免了单一系统的偏差。

与之相比,谷歌最近宣布的Gemini翻译功能,虽然引入了实时对话翻译和语言学习模式,但在核心准确率上,依然落后于腾讯。

腾讯的另一个亮点是开源。

模型已经在Hugging Face平台上线,源代码同步开放在GitHub。在硬件需求上,Hunyuan只需普通显卡即可运行。

与72亿参数的Tower Plus系列相比,Hunyuan在多项指标上超出10%到58%。

显然,翻译领域的竞争,不再是“模型越大越好”。未来的方向,是精准训练和高效架构。

体验地址:

Github:

HugginFace:

AngelSlim压缩工具:

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

标签: 模型 翻译 谷歌 开源 gpt
sitemap