说实话,以前咱们看那些所谓“聪明”的大模型,总觉得它们是在靠死记硬背混高分。
尤其在数学这行,一步逻辑出错,后面全白搭。
可DeepSeek团队悄悄干了件大事!
没发预告、没搞发布会,直接把一个叫 DeepSeek-Math-V2 的新模型扔到了 GitHub 和 Hugging Face 上。
参数高达6850亿,而且完全开源。
更牛的是,它成了全球第一个在国际奥数(IMO)级别考题上稳拿金牌、还敢把代码和权重全公开的AI。
这才是真正的质变。
周叔我连夜扒了他们刚放出来的论文《DeepSeek Math-V2:迈向可自验证的数学推理》,发现这次玩的不是堆料,而是换思路。
过去一年,很多模型靠“答对就给糖吃”的训练方式,在高中数学竞赛里刷出了漂亮分数。
但问题很明显:答案碰巧对了,过程可能漏洞百出。
DeepSeek 这次的做法很聪明:先造一个“数学裁判”——专门判断证明过程严不严谨;再让写证明的AI不断修改草稿,直到裁判点头为止。
这就像咱们当年做几何题,写完还得自己画图验一遍。
更狠的是,他们还用更强的算力去自动标注那些最难判断的推理案例,让裁判越来越专业,反过来逼AI越写越准。
结果呢?
在权威测试集 IMO-ProofBench 的基础部分,Math-V2 正确率冲到 99%,把谷歌的 Gemini DeepThink(号称IMO金牌水平)甩开整整10个百分点。
Gemini
虽然在高阶题上略逊一筹(61.9% vs 65.7%),但在真实赛场——2025年IMO、2024年中国数学奥林匹克(CMO)都达到金牌线。
连难度爆表的普特南数学竞赛(Putnam 2024)都拿了118分(满分120)。
关键是,这些成绩没靠背题库,纯靠现场推理。
从另一个角度看,这套“自己查自己”的机制,才是真正打开未来大门的钥匙。
像黎曼猜想这类千年难题,压根没有标准答案,传统AI根本没法练。但有了自验证能力,AI就能在没人指路的情况下,靠逻辑自洽一步步摸索。
难怪海外技术圈炸了锅,有人直接说:“DeepSeek这头沉寂已久的鲸鱼,终于浮出水面喷水了!”
咱们得提一句,上一代 DeepSeek-Math-7B 是2023年底发布的,当时才70亿参数,就已经能跟 GPT-4 打平手。
谁能想到,一年多后直接干到6850亿,性能不是翻倍,是换代。
更难得的是,他们没藏着掖着,模型、代码、论文全部免费公开。
现在这年头,大厂都在拼命闭源变现,DeepSeek 反其道而行,反而赢得满堂彩。