新闻资讯-歌剧话剧

GPT-5悬了!DeepSeek开源全球首个奥数金牌AI,正面对线谷歌

发布时间:2025-11-28 13:43:54  浏览量:23

全球首个开源的IMO金牌水平模型已经出现,DeepSeekMath-V2在IMO 2025解出6题中的5题并公开了代码与权重

2025年11月27日晚,这个模型被放到 Hugging Face 和 GitHub,同步释出论文,底座来自 DeepSeek V3.2 Exp Base

同期公布的成绩不只亮眼,还直戳核心问题:是靠一次灵光一现,还是把“能证实可靠”变成了能力的一部分

这次的关键不在更长的推理串,而在把“验证过程”变成模型训练的主轴

DeepSeek把生成、判分与复核三件事绑成闭环

生成端先写证明,再给自己打一个“稳不稳”的判断

验证端按严格细则给出0分、0.5分或1分,并指出具体缺口

复核端则盯着验证端的分析是否靠谱,错误定位是否真实存在,评分理由是否匹配规则

这一来一回,奖励信号不再只看最后答案,而是把“检视自己”的能力价值得到体现

在可量化指标上,复核端介入后,验证分析的平均质量分从0.85升到0.96,打分准确率维持稳定

训练中还刻意放大了验证器的算力来处理更复杂的证明样本,让验证器自身也获得进化空间

生成与验证相互刺激,生成端提出更挑剔的证明路径,反过来暴露验证端的盲点,再被修正,闭环逐步收敛

不是炫技,而是把“过稿”变成程序化流程

DeepSeek在普特南2024的外测里得了118分,满分是120分,人类参赛者最高分是90分

CMO 2024达到金牌区间

ProofBench-Basic上拿到接近99的高分,对比谷歌的Gemini Deep Think是89

ProofBench-Advanced则是61.9,略低于Gemini Deep Think的65.7

数据摆在那,一进一退,很清楚

这和以往“猜对就奖励”的范式不同

IMO级别的题本质是写出无漏洞的证明,简单对答案没意义

DeepSeek把奖励主要给到过程的可靠度和自我纠错的诚实度

生成端如果把不确定写明白,甚至承认某一步可能不成立,反而更有利于拿到正向反馈

长期看,最优策略就是在最终提交前把问题捞干净

单刀直入的实力不是传说,One-Shot测试也站得住

内部的CNML测试集合并了代数、几何、数论、组合、不等式五类难题,与GPT-5-Thinking-High和Gemini 2.5-Pro对比,DeepSeekMath-V2在多个科目全面领先,几何科目分数接近后者的三倍

这意味着即便不给多轮反思的时间,底层推理能力也足够硬

真正的突破发生在允许它“多想几次”的设置下

DeepSeek把IMO候选题拿来做连续修正实验,第一次迭代平均得分0.15,允许最多八次自我修正后提升到0.27

若从自己生成的32个思路里挑一个最佳,得分能到0.42

这组结果说明,模型不仅会改,还知道哪一条答案更可靠

把算力用在找证据而不是堆冗余,也是一种策略

DeepSeek在高强度测试里,每道题先生成64个候选证明,再为每个证明生成64份独立验证分析,只有全部通过的证明才被接纳

严格筛选带来了更高置信度,也带来了IMO 2025中解出5题的结果

这不是运气,是流程设计让证据更充分

DeepSeek团队在论文里直言,自我验证对扩展测试时间计算尤为重要,对没有已知解法的开放问题意义更大

他们同时提出,可自我验证的数学推理是一条可行的研究方向,有助于开发更强的数学AI系统

谷歌DeepMind的Gemini Deep Think同样触及了IMO金牌线,且在Advanced基准上保持领先

两条路径的差异一目了然

DeepSeek选择把方法、权重与论文释出,训练成本和使用门槛被显著压低

开源把“强模型”从展示品变成工具箱

开源也意味着更多人能复测、对拍、挑错,验证逻辑有了真实世界的磨砂感,这正是自验证路线需要的生态

时间线也很直给

2025年11月,OpenAI更新到GPT-5.1,谷歌发布Gemini 3系列,行业进入高频迭代期

11月27日晚,DeepSeek把V2放上开源平台,论文同步;

27日至28日,成绩与细节陆续披露,引发自验证技术路径的讨论

接下来的两三天,社区测评、友商回应、教育与科研侧的适配都会给出更多信号

市场侧有一个小注脚,科创人工智能ETF在11月28日上午微跌,但近五日净流入超过2亿元,乐观的预期并未降温

银河证券点评认为,DeepSeek的架构创新显著降低训练与推理成本,推动商业化落地

他们还提到,DeepSeek-R1在发布后七天内新增用户过亿,成为增速最快的AI应用之一

谨慎也必须写在这里

文中涉及对GPT-5相关测试的对比,未见官方统一基准公示,理解时需保留余地

自动标注与专家判断“高度一致”的说法,论文未披露一致性量化指标和样本规模,需要后续第三方复核

还有关于DeepSeek其他模型的坊间传言,未经证实,不做展开

回到技术本身,这套生成与验证的闭环正在产生一个连锁反应

生成端的能力提升,带来更有难度的证明样本,推动验证端迭代;

验证端变强,又能给回更细的奖励信号

最后两轮训练迭代里,自动化标注已经顶替了人工标注,后续抽检显示与专家判断吻合度很高,这意味着构建大规模高质量训练样本的成本被压低到一个新区间

如果说大模型过去像善于回答的人,现在更像一个会把草稿纸写满再抬头的解题者

真正的分水岭不在“答对”,而在“自证”

数学证明要求每一步都能被追问,这逼得模型学会停下来、回看一眼、再走下一步

一个能审视自己输出的系统,更接近可以信赖的工具,而不只是会写漂亮答案的文案机

对行业的影响会沿着三条线蔓延

短期是研究者可以直接复现与改造,开源降低了教学与训练的门槛;

中期是评测方法与开放题的流程被重写,验证将成为新常识;

长期是开放与闭源的博弈会持续,闭源保优势,开源保速度,各自的边界会更清楚

把算力堆成高墙不再是唯一选项,把验证做成底层能力才是通往可靠推理的快路

接下来几天值得关注的节点也很具体

11月29日,社区版的初测报告会集中出现;

11月30日,谷歌是否对比对给出正式回应;

12月1日,教育与科研侧的适配案例是否能跑通第一波

技术之外,问题都变成了实践题

结论并不花哨,自验证把“能不能做出一道题”变成“能不能站住一份证明”,DeepSeekMath-V2用开源给出了一个清晰且可复验的答案

标签: 谷歌 开源 金牌 deepseek 奥数
sitemap