新闻资讯-歌剧话剧

谷歌Gemini登顶App Store:从DeepMind战略看AI下一个爆发点

发布时间:2025-09-17 14:06:14  浏览量:39

最近,谷歌Gemini凭借“Nano Banana”的爆火,在美App Store下载量超越ChatGPT,成为免费榜排名第一的应用。

就在前几天,这一爆款AI应用的真正缔造者——诺贝尔化学奖得主、谷歌DeepMind CEO戴米斯·哈萨比斯(Demis Hassabis)现身All-In Summit 2025,进行了一场引人深思的分享,并全面阐述了谷歌AI战略布局。

哈萨比斯现场没有过多强调模型参数,而是从谷歌AI应用产品视角,勾勒出了一幅人工智能深入现实世界、赋能多领域变革的路径图。

他的观点明确而深刻:我们正迈入一个AI全面爆发的时代——这不再是单点技术的迭代,而是一场系统级、多模态、跨领域的协同进化。

从语言模型到世界模型,从蛋白质结构预测到药物研发,从机器人控制到通用智能(AGI)的探索,哈萨比斯的叙述超越了产品和公司的范畴,指向一个更宏大的命题:AI 是否能够真正理解世界、参与世界,甚至改造世界?

Gemini:多模态引擎重塑人机交互

在哈萨比斯的构想中,Gemini远不止是一个多模态大模型。它既不局限于对话,也不仅是搜索的延伸,而是一种新型的“环境智能”。

它能够实时感知用户所在场景,理解图像、声音、动作甚至意图,并作出相应反馈。

例如,当你手持手机环顾四周,Gemini 可以识别街道标志、店铺类型、行人动态,并主动提供导航或建议;当你指着一份文档说“这里需要修改”,它不仅能理解“这里”所指的具体位置,还能就内容逻辑提出建议。

这种能力已不再是传统意义上的“自然语言处理”,而是对物理和语义环境的深度融合。

哈萨比斯强调,Gemini 的核心突破在于其作为“下一代用户界面”的定位。它正在被嵌入至谷歌的全线产品——Gmail、Workspace、地图、搜索引擎——成为连接人类意图与数字服务的智能中介。

其价值不在于回答问题本身,而在于如何在对的时间、以对的方式、提供对的帮助。

这意味着:AI 正在从“等你提问”走向“主动理解”,从“文本交互”走向“场景融合”。

Genie:从生成内容到模拟世界

如果说 Gemini 是“理解现实”,那么 Genie 就是在“生成现实”。

Genie可以根据一句指令——比如“一个雨后的小镇房间,窗外有月光”——实时生成一个完全可交互的虚拟场景。更为惊人的是,这个世界并非预先渲染完成,而是依据用户的注视点和行为动态生成。你没看到的地方,尚未“存在”;你所见之处,才被逐帧构建。

这种能力背后,是 Genie 对物理规则、运动逻辑、空间关系的隐式学习。

它通过分析海量视频与游戏片段,自主归纳出物体如何移动、光影如何变化、人与环境如何互动——本质上,它是一种通过数据驱动的“世界模拟器”

哈萨比斯指出,这远不同于传统的游戏引擎(如Unity或Unreal),后者依赖人工预设规则和资产。

而Genie展示的,是一种源于真实世界数据、却又能创造新环境的生成能力。这不仅为游戏、影视、虚拟现实带来变革,更将成为机器人训练、科学仿真、甚至城市模拟的基础设施。

换句话说,Genie 标志AI 正式从“内容生成”迈入“世界建构”。

机器人:多模态能力的终极体现

在DeepMind的实验室中,搭载Gemini的机器人已经能够听懂诸如“把黄色积木放进红色桶里”这样的指令,并准确执行。这背后是语言、视觉与动作控制的统一建模。

哈萨比斯特别指出,机器人技术的瓶颈从来不只是硬件,更是“理解”。

传统机器人依赖于预编程动作或孤立视觉识别,而Gemini赋予它们的是语义级别的环境理解与任务推理能力。

例如,当你说“放回原处”,机器人能明白“原处”指哪里,并回忆之前动作的上下文。

他透露,DeepMind 正在推进两条路径:一是打造通用机器人软件平台(类似Android for Robots),使不同形态的机器人可共享同一套智能系统;二是开发特定场景下垂域深度优化的端到端机器人(类似苹果软硬一体模式)。

尽管目前机器人仍处于“早期阶段”,但哈萨比斯相信,未来五到十年将是其真正爆发的时间窗口。

关键在于:AI 是否能够稳定、可靠地在物理世界中执行指令,并适应人类为其设计的非结构化环境。

AlphaFold:从诺贝尔奖到药物革命

2025年,哈萨比斯凭借AlphaFold 获得诺贝尔化学奖,但这在他看来“只是一个起点”。

AlphaFold 解决了生物学中一个百年难题——蛋白质结构预测,将原本数年的时间的实验过程压缩至几分钟。

但哈萨比斯的目标远不止于此。

他创立的 Isomorphic Labs 正在构建一套完整的AI药物研发系统,涵盖从靶点发现、分子设计、毒性预测到实验推荐的全流程。

目前,Isomorphic 已与多家顶级药企达成合作,并已有六个药物靶点进入研发管道。

他们的目标是将药物开发周期从“十年十亿美金”压缩到“几年甚至更短”,并显著提高成功率。

哈萨比斯将这套系统比喻为“科学搜索引擎”:输入疾病,输出潜在药物方案。

更重要的是,它是一个持续学习的系统:每一次成功或失败都会反馈给模型,使其越来越精准。

这不仅是一场技术革命,更是一种方法论的重构:科学研究正在从“经验驱动”转向“数据驱动+AI生成”。

真正的AGI:尚未走完的最后一步

尽管AI取得了显著进展,但哈萨比斯对当前系统的局限保持清醒认识。

他明确反驳了目前“模型已达到博士水平”的说法,指出如果换个问法,AI可能连高中数学题都会答错。

哈萨比斯表示,我们离真正的通用人工智能(AGI)仍有距离。他指出当前模型的四大局限:

1. 真正的推理能力缺失:模型可以复述知识,却难以提出全新理论或跨领域类比。

他举了一个例子:让现在的模型只掌握1901年的知识,然后看它能不能像爱因斯坦一样在1905年提出相对论?这才是检验AGI的标准。

2. 稳定的一致性的不足:同一问题不同问法可能导致回答不一致甚至自相矛盾。真正智能的系统应该在所有输入方式下保持稳定表现。

3. 持续学习的困境:当前大多数模型只能通过离线训练提升能力,不会在日常互动中越用越聪明。

4. 科学直觉的空白:伟大科学家与普通学者的区别往往在于直觉判断能力,现在的AI还无法在不同领域间发现共性并应用到新问题中。

在哈萨比斯看来,AGI 不是一个参数更多、规模更大的模型,而是一种能真正理解世界、进行创造性思考的系统。要实现这一目标,可能还需五到十年甚至更久的关键突破。

最后,AI 的价值不在技术本身,而在其与世界的关系

哈萨比斯的分享清晰地传递出一个信号:AI 的发展正从“模型竞争”走向“系统能力”的整合。

它的未来不再局限于对话或生成,而是深度融合进环境、设备、科研和产业之中。

对于行业而言,这意味着:

评估AI项目的标准不应再是“模型多大”,而是“能否真正跑通场景”;

未来的竞争焦点将是多模态、跨平台、可落地的系统能力;

人工智能的价值,终将体现在它对真实世界的影响中。

我们正在进入一个AI全面爆发的时代。它不是一次技术爆炸,而是一场静默渗透的结构性变革——而这场变革,才刚刚开始。

标签: 谷歌 gemini 谷歌gemini appstore 爆发
sitemap