谷歌Gemini3重磅发布！81%MMMU-Pro碾压GPT-5.1，AI多模态新纪元

发布时间：2025-11-25 17:44:17 浏览量：77

财经摆渡人

精研出品

破浪前行，共探财富新局

大家好欢迎收看【古今财鉴】

2025年11月18日，谷歌母公司Alphabet正式发布Gemini3，这一消息迅速在科技圈引起轰动。

这款被誉为"世界上最先进的多模态理解模型"的AI产品，在多项测试中展现出惊人实力。

从技术角度看，Gemini3Pro在衡量多模态能力的基准MMMU-Pro和Video-MMMU上，分别取得了81%和87.6%的分数。

这可不是简单的数字游戏，它意味着AI的输入和输出变得更加灵活，能更好地适应用户的个性化需求。

比如说，你可以上传一段自己打球的视频，让模型分析动作并生成改进的训练计划。

这种能力的实现，源于谷歌从Gemini1.0时代就确立的原则原生多模态与长上下文。

在推理能力方面，Gemini3同样表现抢眼。

它在人类终极考试（HLE）上，不使用任何工具就拿下37.5%的成绩；GPQADiamond测试中斩获91.9%的高分，展现出博士级的推理能力。

最让人惊喜的是数学领域，Gemini3在MathArenaApex上以23.4%的成绩刷新SOTA，树立了新标杆。

如果说推理和多模态是Gemini3的"大脑"，那么其强大的编程和规划能力就是它的"双手"。

谷歌将此定义为"代理式编程（AgenticCoding）"和"可视化编程（VibeCoding）"，借此重新定义用户与信息的交互方式、开发者与机器的协作模式。

为了支撑这些强大功能，谷歌进行了重大的组织变革。

公司宣布将GoogleBrain和DeepMind合并，成立名为GoogleDeepMind的新部门。

DeepMindCEODemisHassabis担任新部门CEO，GoogleBrain联合创始人之一JeffDean担任首席科学家。

这种整合无疑将加快AI领域的创新步伐。

在实际应用中，Gemini3的表现让人眼前一亮。

开发者可以向它提供一段长达数小时的视频讲座，让它生成交互式的抽认卡帮助学习；可以上传一张手写的，甚至混杂着不同语言的家庭食谱照片，让它整理并翻译成可分享的电子版。

这些场景不再是科幻电影的情节，而是Gemini3带来的真实改变。

医疗领域，基于Gemini构建的Med-Gemini医学大模型表现出色。

它在MedQA数据集上达到91.1%的准确率，比之前最好的模型高出4.6%。

更令人振奋的是，在医学文本摘要、转诊信生成和医学简化任务中，Med-Gemini的表现优于人类专家。

这意味着AI在辅助诊断、医学教育等方面将发挥越来越重要的作用。

编程领域，Gemini3彻底扭转了谷歌在该领域的短板印象。

在LiveCodeBench测试中，它的分数比第二名高出200多分；终端操作测试Terminal-Bench2.0中，54.2%的得分领先竞品11个百分点。

全新的智能体开发平台Antigravity更是将AI编程带入"自主开发"新阶段。

Antigravity提供两种主要工作模式：编辑器视图和管理视图。

管理视图就像一个"开发指挥中心"，能统一调度多个Agent与正在进行的任务。

这种"Agent-first"的设计哲学，让开发者可以摆脱重复性劳动，加速从创意构想到产品落地的全过程。

有用户试用后表示，Antigravity处理长上下文和跨文件提问的能力很强，分析速度比同类工具更快。

教育领域，Gemini3的应用前景同样广阔。

它可以根据学生的学习风格生成个性化内容，还能通过互动式学习工具提升学习效果。

比如，上传一段运动视频，Gemini3就能分析动作并生成改进建议，让学习变得更加直观和高效。

尽管Gemini3在技术上取得了重大突破，但它的定价策略却引发了不小的争议。

Gemini3Pro的API采用分级定价：20万tokens以下，输入/输出价格为2.00/12.00（每百万token），超过20万tokens则分别为4.00和18.00（美元）。

Pro版订阅要20美元一个月，Ultra版更是高达250美元。

有用户吐槽价格太贵，感觉用不起。

免费版额度又太少，没用几次就会提示上限，不得不切换回功能较弱的版本。

这种定价策略可能会限制Gemini3的普及，尤其是对中小型企业和个人开发者而言。

不过，也有分析师认为，随着技术的不断成熟和规模化应用，价格可能会逐渐下降。

而且，Gemini3带来的效率提升和创新能力，对一些企业来说可能仍然物有所值。

Gemini3的发布，标志着AI从生成式对话向自主代理的范式转变。

谷歌将Gemini3整合进搜索，上线独立APP，还推出全新的智能体开发平台。

这种全方位的生态布局，显示出谷歌"以整个公司的体量"推动AI发展的决心。

从8个商业化案例的实测结果来看，Gemini3已经展现出从工具开发到游戏制作的全方位能力。

有开发者表示，使用Gemini3可以在3天内完成电商小程序的开发，这大大降低了创业门槛，让"人人都是产品经理"成为可能。

当然，Gemini3也面临着不少挑战。

除了价格问题，如何进一步提升模型的可解释性、确保AI的安全性和伦理合规，都是谷歌需要持续思考的问题。

但不可否认的是，Gemini3已经为我们展示了AI的巨大潜力，它正在重新定义我们与技术的关系。

总的来说，Gemini3的发布不仅是谷歌AI战略的重要一步，也可能成为整个AI行业发展的分水岭。

它让我们看到，AI不再只是被动响应指令的工具，而是能够主动理解、规划和执行复杂任务的智能伙伴。

未来，随着技术的不断迭代和应用场景的不断拓展，我们有理由相信，AI将在更多领域发挥关键作用，为人类生活带来更多便利和惊喜。

标签：谷歌模态 gemi 谷歌gemini3 gemini3

相关资讯更多>>
分析师：美国司法部拆分谷歌的提议正中命门但成功几率不大

10-10 19:41
强制谷歌交出私有AI模型数据？美政府要对谷歌进行重大拆分

10-10 19:42
谷歌Pixel 9 Pro XL手机被曝存在严重安全问题，非法获取用户信息

10-10 19:20
谷歌谴责美国司法部提出的“激进”分拆计划

10-10 18:43
谷歌的非法搜索垄断：行业反应、影响

10-10 18:43
面对AI作图的日渐流行，谷歌想让相册应用提示照片是否经过AI处理

10-10 18:27
美国司法部考虑拆分谷歌

10-10 17:49
什么是ASO评论管理：管理苹果和谷歌应用商店评论的指南

10-10 15:44