新闻资讯-歌剧话剧

碾压GPT-5.1,谷歌新王炸智商翻倍,终结“人工智障”只需一招

发布时间:2025-12-11 13:37:59  浏览量:22

哈喽,大家好,老庐今天跟大伙聊个有意思的现象:现在的AI既能写出专业又不生硬的商务邮件,转头却会答错“一斤铁和一斤棉花哪个重”这种小学生问题

这种忽强忽弱的智力表现,被谷歌DeepMind首席执行官、2024年诺贝尔化学奖得主德米斯・哈萨比斯称为锯齿状智能

就像锯齿一样高低不平,在高难度任务上远超人类,在基础问题上却频频翻车。

如今整个AI行业都陷入了“算力军备竞赛”,大家一门心思扩大模型规模,却没人真正解决“锯齿智能”这个核心痛点,这让AI始终停留在“数字玩具”阶段,难以成为靠谱的“现实工具”

而哈萨比斯领导的DeepMind团队,却走出了一条完全不同的技术路线,他们到底靠什么打破AI的“偏科”困境,推动行业迈入新阶段?

给AI装上个“深度思考”的慢系统

AI行业过去的“算力竞赛”完全是舍本逐末。现有大模型本质上就是“文字接龙高手”,靠分析海量文本预测下一个词,擅长快速直觉式思考,却没有真正的理解和推理能力

这也是为什么它们能解奥数题,却搞不懂基础常识,2025年11月发布的Gemini3终于改变了这一现状。

它的核心突破是深度思考机制,相当于给AI植入了一个“审题规划系统”,让AI从“被动答题”变成“主动做事”。

和传统模型的单线程推理不同,Gemini3能实现并行思考,同时探索多个假设,推演不同路径后选择最优解,还能及时回溯错误。

在权威的ARC-AGI-2通用人工智能评测中,Gemini3准确率达到45.1%,是GPT-5.1的2.5倍,科学知识问答评估中更是接近满分

这种能力落地到实际场景中效果显著:你只需说“帮我整理收件箱”,它就能自动扫描邮件、按重要性分类、标记待回复事项并起草建议,全程无需分步指导,Gemini3已经实现了主动式服务。

这背后是谷歌对AI价值的重新定义:不再看“回答了多少问题”,而是看“能帮人完成多少任务”。

信任机制与物理世界理解双突破

AI要走出对话框,成为现实工具,必须解决两个关键问题:信任物理常识,这也是DeepMind接下来的重点发力方向。

针对信任难题,谷歌推出了Antigravity平台,让开发者从“代码编写者”变成“智能体架构师”,多个智能体可在后台独立工作,拥有自己的终端和浏览器权限,端到端完成复杂任务。

但智能体说“Bug已修复”,怎么让人相信?平台的产物机制给出了答案:智能体工作时会生成可审查的“凭证”,比如修复UIBug后,会提供操作浏览器验证效果的“屏幕录像”,彻底打破黑箱操作。

而物理常识的缺失,是“锯齿智能”的另一大根源,为此,DeepMind发布了Genie3,它不是简单的视频生成工具,而是能生成遵守物理规律的交互式3D世界。

以720p分辨率、24帧/秒的速度生成场景,还能通过自然语言实时修改:说“下雨”环境就会降雨,说“地面结冰”物理规则就会调整。

这个虚拟世界成了具身智能体SIMA2的完美训练场,在现实中训练机器人成本高、风险大,但在Genie3的无数虚拟场景里,SIMA2能进行亿万次模拟训练,学会理解物理规律和空间关系。

还能实现具身对话,比如用户问“蛋形物体是什么材料”,它会主动导航查看并给出答案,这种“虚拟体验+现实应用”的模式,是AI掌握物理常识的最佳路径。

科学发现才是AI的终极价值

在哈萨比斯看来,AI的“杀手级应用”从来不是聊天或广告优化,而是科学发现

这也是DeepMind一直坚守的方向:AlphaFold助力蛋白质设计,GNoME预测新型材料,Torax优化等离子体模拟,这些技术正在重塑科研范式。

哈萨比斯预测,AI将把新药研发周期从数年缩短到一年以内,甚至更快,他旗下的IsomorphicLabs已获6亿美元融资,与礼来、诺华等制药巨头深度合作,加速药物研发进程

更重要的是,苹果也计划在2026年推出的新版Siri中采用Gemini技术,这意味着谷歌AI将触达数亿iOS用户,影响力进一步扩大。

同时中国的创新力量也在崛起,深圳大学发布的“SocietyZeroUniverseLLMs社会仿真模拟平台”,以大模型为核心构建多智能体协同系统,展现了中国在AI领域的独特探索。

当Gemini3发布当天就集成到谷歌搜索、Gmail等产品,覆盖数十亿用户时,AI新时代已经来临。

不再是需要专门打开的对话框,而是嵌入工作流的“隐形助手”,那些曾经让人失望的“愚蠢”表现,不过是AI学会真正思考的必经之路。

谷歌IMO金牌级Gemini 3深夜上线!华人大神挂帅,OpenAI无力反击

标签: 谷歌 比斯 智能体 智商 智障
sitemap