谷歌AI拿IMO金牌这事,别光看热闹。
背后藏着的不是什么天才AI,而是一套堪称暴力的工业化解题流水线。
它的核心玩法是两个学习循环。
第一个是广撒网。
用Gemini把上百万道人类数学题,“翻译”和“繁衍”出8000万道形式化习题。
这个过程并非全自动,而是有人工参与和修正的。
然后砸了8万个TPU日的算力,让一个30亿参数的模型去题海里硬刷。
第二个循环才是真正的杀手锏,专门对付IMO难题。
碰到一道硬骨头,它不硬刚,而是先自动生成40万个相关的“简化版”、“变体版”题目,然后专门训一个“专家模型”来攻克这一个山头。
这哪是解题,这是为一道题专门建了个高强度补习班。
所以它拿金牌也不是全能。
42分的卷子拿了41分,解出了代数和数论的三道题(P1, P2, P6),但几何(P3)和组合数学(P4, P5)那三道题就没搞定。
这说明它偏科严重。
强项是基于现有庞大知识库的逻辑推演,而不是从零创造几何直觉。
跟之前那个专解几何题的AlphaGeometry一比就更清楚了,谷歌这是在搞“专机专用”,不同类型的数学问题得用不同的AI工具集。
数学家们试用后也反馈,这东西找茬、验算、发现反例是一绝,能极大提高研究效率。
但一碰到需要大量全新自定义概念的证明,比如费马大定理那种,它就抓瞎了。
说白了,AlphaProof的成功,展示的不是AI有了人类的数学直觉。
而是证明了,只要数据量足够大,训练方法足够有针对性,AI就能用一种我们无法想象的、资源消耗巨大的方式,攻克人类顶级的智力堡垒。