新闻资讯-歌剧话剧

太厉害!中国Deepseek数学碾压谷歌,拿下IMO金牌,代码全公开!

发布时间:2025-11-29 15:10:14  浏览量:29

说实话,以前咱们看那些所谓“聪明”的大模型,总觉得它们是在靠死记硬背混高分。

尤其在数学这行,一步逻辑出错,后面全白搭

可DeepSeek团队悄悄干了件大事!

没发预告、没搞发布会,直接把一个叫 DeepSeek-Math-V2 的新模型扔到了 GitHub 和 Hugging Face 上。

参数高达6850亿,而且完全开源

更牛的是,它成了全球第一个在国际奥数(IMO)级别考题上稳拿金牌、还敢把代码和权重全公开的AI。

这才是真正的质变。

周叔我连夜扒了他们刚放出来的论文《DeepSeek Math-V2:迈向可自验证的数学推理》,发现这次玩的不是堆料,而是换思路。

过去一年,很多模型靠“答对就给糖吃”的训练方式,在高中数学竞赛里刷出了漂亮分数。

但问题很明显:答案碰巧对了,过程可能漏洞百出

DeepSeek 这次的做法很聪明:先造一个“数学裁判”——专门判断证明过程严不严谨;再让写证明的AI不断修改草稿,直到裁判点头为止

这就像咱们当年做几何题,写完还得自己画图验一遍。

更狠的是,他们还用更强的算力去自动标注那些最难判断的推理案例,让裁判越来越专业,反过来逼AI越写越准。

结果呢?

在权威测试集 IMO-ProofBench 的基础部分,Math-V2 正确率冲到 99%,把谷歌的 Gemini DeepThink(号称IMO金牌水平)甩开整整10个百分点。

Gemini

虽然在高阶题上略逊一筹(61.9% vs 65.7%),但在真实赛场——2025年IMO、2024年中国数学奥林匹克(CMO)都达到金牌线。

连难度爆表的普特南数学竞赛(Putnam 2024)都拿了118分(满分120)

关键是,这些成绩没靠背题库,纯靠现场推理

从另一个角度看,这套“自己查自己”的机制,才是真正打开未来大门的钥匙。

像黎曼猜想这类千年难题,压根没有标准答案,传统AI根本没法练。但有了自验证能力,AI就能在没人指路的情况下,靠逻辑自洽一步步摸索。

难怪海外技术圈炸了锅,有人直接说:“DeepSeek这头沉寂已久的鲸鱼,终于浮出水面喷水了!”

咱们得提一句,上一代 DeepSeek-Math-7B 是2023年底发布的,当时才70亿参数,就已经能跟 GPT-4 打平手。

谁能想到,一年多后直接干到6850亿,性能不是翻倍,是换代

更难得的是,他们没藏着掖着,模型、代码、论文全部免费公开

现在这年头,大厂都在拼命闭源变现,DeepSeek 反其道而行,反而赢得满堂彩。

标签: 谷歌 金牌 deepseek imo imo金牌
sitemap