碾压GPT-5.1，谷歌新王炸智商翻倍，终结“人工智障”只需一招

发布时间：2025-12-11 13:37:59 浏览量：22

哈喽，大家好，老庐今天跟大伙聊个有意思的现象：现在的AI既能写出专业又不生硬的商务邮件，转头却会答错“一斤铁和一斤棉花哪个重”这种小学生问题。

这种忽强忽弱的智力表现，被谷歌DeepMind首席执行官、2024年诺贝尔化学奖得主德米斯・哈萨比斯称为锯齿状智能。

就像锯齿一样高低不平，在高难度任务上远超人类，在基础问题上却频频翻车。

如今整个AI行业都陷入了“算力军备竞赛”，大家一门心思扩大模型规模，却没人真正解决“锯齿智能”这个核心痛点，这让AI始终停留在“数字玩具”阶段，难以成为靠谱的“现实工具”。

而哈萨比斯领导的DeepMind团队，却走出了一条完全不同的技术路线，他们到底靠什么打破AI的“偏科”困境，推动行业迈入新阶段？

给AI装上个“深度思考”的慢系统

AI行业过去的“算力竞赛”完全是舍本逐末。现有大模型本质上就是“文字接龙高手”，靠分析海量文本预测下一个词，擅长快速直觉式思考，却没有真正的理解和推理能力。

这也是为什么它们能解奥数题，却搞不懂基础常识，2025年11月发布的Gemini3，终于改变了这一现状。

它的核心突破是深度思考机制，相当于给AI植入了一个“审题规划系统”，让AI从“被动答题”变成“主动做事”。

和传统模型的单线程推理不同，Gemini3能实现并行思考，同时探索多个假设，推演不同路径后选择最优解，还能及时回溯错误。

在权威的ARC-AGI-2通用人工智能评测中，Gemini3准确率达到45.1%，是GPT-5.1的2.5倍，科学知识问答评估中更是接近满分。

这种能力落地到实际场景中效果显著：你只需说“帮我整理收件箱”，它就能自动扫描邮件、按重要性分类、标记待回复事项并起草建议，全程无需分步指导，Gemini3已经实现了主动式服务。

这背后是谷歌对AI价值的重新定义：不再看“回答了多少问题”，而是看“能帮人完成多少任务”。

信任机制与物理世界理解双突破

AI要走出对话框，成为现实工具，必须解决两个关键问题：信任和物理常识，这也是DeepMind接下来的重点发力方向。

针对信任难题，谷歌推出了Antigravity平台，让开发者从“代码编写者”变成“智能体架构师”，多个智能体可在后台独立工作，拥有自己的终端和浏览器权限，端到端完成复杂任务。

但智能体说“Bug已修复”，怎么让人相信？平台的产物机制给出了答案：智能体工作时会生成可审查的“凭证”，比如修复UIBug后，会提供操作浏览器验证效果的“屏幕录像”，彻底打破黑箱操作。

而物理常识的缺失，是“锯齿智能”的另一大根源，为此，DeepMind发布了Genie3，它不是简单的视频生成工具，而是能生成遵守物理规律的交互式3D世界。

以720p分辨率、24帧/秒的速度生成场景，还能通过自然语言实时修改：说“下雨”环境就会降雨，说“地面结冰”物理规则就会调整。

这个虚拟世界成了具身智能体SIMA2的完美训练场，在现实中训练机器人成本高、风险大，但在Genie3的无数虚拟场景里，SIMA2能进行亿万次模拟训练，学会理解物理规律和空间关系。

还能实现具身对话，比如用户问“蛋形物体是什么材料”，它会主动导航查看并给出答案，这种“虚拟体验+现实应用”的模式，是AI掌握物理常识的最佳路径。

科学发现才是AI的终极价值

在哈萨比斯看来，AI的“杀手级应用”从来不是聊天或广告优化，而是科学发现。

这也是DeepMind一直坚守的方向：AlphaFold助力蛋白质设计，GNoME预测新型材料，Torax优化等离子体模拟，这些技术正在重塑科研范式。

哈萨比斯预测，AI将把新药研发周期从数年缩短到一年以内，甚至更快，他旗下的IsomorphicLabs已获6亿美元融资，与礼来、诺华等制药巨头深度合作，加速药物研发进程。

更重要的是，苹果也计划在2026年推出的新版Siri中采用Gemini技术，这意味着谷歌AI将触达数亿iOS用户，影响力进一步扩大。

同时中国的创新力量也在崛起，深圳大学发布的“SocietyZeroUniverseLLMs社会仿真模拟平台”，以大模型为核心构建多智能体协同系统，展现了中国在AI领域的独特探索。

当Gemini3发布当天就集成到谷歌搜索、Gmail等产品，覆盖数十亿用户时，AI新时代已经来临。

它不再是需要专门打开的对话框，而是嵌入工作流的“隐形助手”，那些曾经让人失望的“愚蠢”表现，不过是AI学会真正思考的必经之路。

谷歌IMO金牌级Gemini 3深夜上线！华人大神挂帅，OpenAI无力反击

标签：谷歌比斯智能体智商智障