太厉害！中国Deepseek数学碾压谷歌，拿下IMO金牌，代码全公开！

发布时间：2025-11-29 15:10:14 浏览量：71

说实话，以前咱们看那些所谓“聪明”的大模型，总觉得它们是在靠死记硬背混高分。

尤其在数学这行，一步逻辑出错，后面全白搭。

可DeepSeek团队悄悄干了件大事！

没发预告、没搞发布会，直接把一个叫 DeepSeek-Math-V2 的新模型扔到了 GitHub 和 Hugging Face 上。

参数高达6850亿，而且完全开源。

更牛的是，它成了全球第一个在国际奥数（IMO）级别考题上稳拿金牌、还敢把代码和权重全公开的AI。

这才是真正的质变。

周叔我连夜扒了他们刚放出来的论文《DeepSeek Math-V2：迈向可自验证的数学推理》，发现这次玩的不是堆料，而是换思路。

过去一年，很多模型靠“答对就给糖吃”的训练方式，在高中数学竞赛里刷出了漂亮分数。

但问题很明显：答案碰巧对了，过程可能漏洞百出。

DeepSeek 这次的做法很聪明：先造一个“数学裁判”——专门判断证明过程严不严谨；再让写证明的AI不断修改草稿，直到裁判点头为止。

这就像咱们当年做几何题，写完还得自己画图验一遍。

更狠的是，他们还用更强的算力去自动标注那些最难判断的推理案例，让裁判越来越专业，反过来逼AI越写越准。

结果呢？

在权威测试集 IMO-ProofBench 的基础部分，Math-V2 正确率冲到 99%，把谷歌的 Gemini DeepThink（号称IMO金牌水平）甩开整整10个百分点。

Gemini

虽然在高阶题上略逊一筹（61.9% vs 65.7%），但在真实赛场——2025年IMO、2024年中国数学奥林匹克（CMO）都达到金牌线。

连难度爆表的普特南数学竞赛（Putnam 2024）都拿了118分（满分120）。

关键是，这些成绩没靠背题库，纯靠现场推理。

从另一个角度看，这套“自己查自己”的机制，才是真正打开未来大门的钥匙。

像黎曼猜想这类千年难题，压根没有标准答案，传统AI根本没法练。但有了自验证能力，AI就能在没人指路的情况下，靠逻辑自洽一步步摸索。

难怪海外技术圈炸了锅，有人直接说：“DeepSeek这头沉寂已久的鲸鱼，终于浮出水面喷水了！”

咱们得提一句，上一代 DeepSeek-Math-7B 是2023年底发布的，当时才70亿参数，就已经能跟 GPT-4 打平手。

谁能想到，一年多后直接干到6850亿，性能不是翻倍，是换代。

更难得的是，他们没藏着掖着，模型、代码、论文全部免费公开。

现在这年头，大厂都在拼命闭源变现，DeepSeek 反其道而行，反而赢得满堂彩。

标签：谷歌金牌 deepseek imo imo金牌