新闻资讯-歌剧话剧

谷歌Gemini3重磅发布!81%MMMU-Pro碾压GPT-5.1,AI多模态新纪元

发布时间:2025-11-25 17:44:17  浏览量:20

财经摆渡人

精研出品

破浪前行,共探财富新局

大家好欢迎收看【古今财鉴】

2025年11月18日,谷歌母公司Alphabet正式发布Gemini3,这一消息迅速在科技圈引起轰动。

这款被誉为"世界上最先进的多模态理解模型"的AI产品,在多项测试中展现出惊人实力。

从技术角度看,Gemini3Pro在衡量多模态能力的基准MMMU-Pro和Video-MMMU上,分别取得了81%和87.6%的分数。

这可不是简单的数字游戏,它意味着AI的输入和输出变得更加灵活,能更好地适应用户的个性化需求。

比如说,你可以上传一段自己打球的视频,让模型分析动作并生成改进的训练计划。

这种能力的实现,源于谷歌从Gemini1.0时代就确立的原则原生多模态与长上下文。

在推理能力方面,Gemini3同样表现抢眼。

它在人类终极考试(HLE)上,不使用任何工具就拿下37.5%的成绩;GPQADiamond测试中斩获91.9%的高分,展现出博士级的推理能力。

最让人惊喜的是数学领域,Gemini3在MathArenaApex上以23.4%的成绩刷新SOTA,树立了新标杆。

如果说推理和多模态是Gemini3的"大脑",那么其强大的编程和规划能力就是它的"双手"。

谷歌将此定义为"代理式编程(AgenticCoding)"和"可视化编程(VibeCoding)",借此重新定义用户与信息的交互方式、开发者与机器的协作模式。

为了支撑这些强大功能,谷歌进行了重大的组织变革。

公司宣布将GoogleBrain和DeepMind合并,成立名为GoogleDeepMind的新部门。

DeepMindCEODemisHassabis担任新部门CEO,GoogleBrain联合创始人之一JeffDean担任首席科学家。

这种整合无疑将加快AI领域的创新步伐。

在实际应用中,Gemini3的表现让人眼前一亮。

开发者可以向它提供一段长达数小时的视频讲座,让它生成交互式的抽认卡帮助学习;可以上传一张手写的,甚至混杂着不同语言的家庭食谱照片,让它整理并翻译成可分享的电子版。

这些场景不再是科幻电影的情节,而是Gemini3带来的真实改变。

医疗领域,基于Gemini构建的Med-Gemini医学大模型表现出色。

它在MedQA数据集上达到91.1%的准确率,比之前最好的模型高出4.6%。

更令人振奋的是,在医学文本摘要、转诊信生成和医学简化任务中,Med-Gemini的表现优于人类专家。

这意味着AI在辅助诊断、医学教育等方面将发挥越来越重要的作用。

编程领域,Gemini3彻底扭转了谷歌在该领域的短板印象。

在LiveCodeBench测试中,它的分数比第二名高出200多分;终端操作测试Terminal-Bench2.0中,54.2%的得分领先竞品11个百分点。

全新的智能体开发平台Antigravity更是将AI编程带入"自主开发"新阶段。

Antigravity提供两种主要工作模式:编辑器视图和管理视图。

管理视图就像一个"开发指挥中心",能统一调度多个Agent与正在进行的任务。

这种"Agent-first"的设计哲学,让开发者可以摆脱重复性劳动,加速从创意构想到产品落地的全过程。

有用户试用后表示,Antigravity处理长上下文和跨文件提问的能力很强,分析速度比同类工具更快。

教育领域,Gemini3的应用前景同样广阔。

它可以根据学生的学习风格生成个性化内容,还能通过互动式学习工具提升学习效果。

比如,上传一段运动视频,Gemini3就能分析动作并生成改进建议,让学习变得更加直观和高效。

尽管Gemini3在技术上取得了重大突破,但它的定价策略却引发了不小的争议。

Gemini3Pro的API采用分级定价:20万tokens以下,输入/输出价格为2.00/12.00(每百万token),超过20万tokens则分别为4.00和18.00(美元)。

Pro版订阅要20美元一个月,Ultra版更是高达250美元。

有用户吐槽价格太贵,感觉用不起。

免费版额度又太少,没用几次就会提示上限,不得不切换回功能较弱的版本。

这种定价策略可能会限制Gemini3的普及,尤其是对中小型企业和个人开发者而言。

不过,也有分析师认为,随着技术的不断成熟和规模化应用,价格可能会逐渐下降。

而且,Gemini3带来的效率提升和创新能力,对一些企业来说可能仍然物有所值。

Gemini3的发布,标志着AI从生成式对话向自主代理的范式转变。

谷歌将Gemini3整合进搜索,上线独立APP,还推出全新的智能体开发平台。

这种全方位的生态布局,显示出谷歌"以整个公司的体量"推动AI发展的决心。

从8个商业化案例的实测结果来看,Gemini3已经展现出从工具开发到游戏制作的全方位能力。

有开发者表示,使用Gemini3可以在3天内完成电商小程序的开发,这大大降低了创业门槛,让"人人都是产品经理"成为可能。

当然,Gemini3也面临着不少挑战。

除了价格问题,如何进一步提升模型的可解释性、确保AI的安全性和伦理合规,都是谷歌需要持续思考的问题。

但不可否认的是,Gemini3已经为我们展示了AI的巨大潜力,它正在重新定义我们与技术的关系。

总的来说,Gemini3的发布不仅是谷歌AI战略的重要一步,也可能成为整个AI行业发展的分水岭。

它让我们看到,AI不再只是被动响应指令的工具,而是能够主动理解、规划和执行复杂任务的智能伙伴。

未来,随着技术的不断迭代和应用场景的不断拓展,我们有理由相信,AI将在更多领域发挥关键作用,为人类生活带来更多便利和惊喜。

标签: 谷歌 模态 gemi 谷歌gemini3 gemini3
sitemap