2025 年 6 月 18 日凌晨,谷歌宣布 Gemini 2.5 模型全系重磅更新,Gemini 2.5 Pro、Gemini 2.5 Flash 发布正式版并进入稳定运行阶段,同时推出 Gemini 2.5 Flash - Lite 预览版2。这标志着谷歌在大语言模型领域取得了重要进展,Gemini 2.5 系列模型展现出了强大的性能和诸多创新之处。
Gemini 2.5 系列模型在多个方面进行了优化和改进。在模型架构上,采用稀疏混合专家(MoE)模型,原生支持文本、视觉和音频输入2。稀疏 MoE 模型通过学习将 token 动态路由到参数子集(专家),为每个输入 token 激活一个模型参数子集,这样能将模型总容量与每个 token 的计算和服务成本分离2。例如,在实际推理过程中,每个 token 仅激活约 4 - 8 个专家(约 3 - 6% 的总参数),使得模型在保持万亿级参数规模的同时,显著降低了计算资源消耗1。
为解决训练不稳定性问题,Gemini 2.5 模型系列在增强大规模训练稳定性、信号传播和优化动态方面取得显著进展2。该系列是谷歌第一个在 TPU v5p 架构上进行训练的模型系列,采用同步数据并行训练,在分布于多个数据中心的谷歌 TPU v5p 加速器的多个 8960 芯片 pod 上并行化2。其预训练数据集大规模且多样化,涵盖 Web 文档、代码、图像、音频和视频等多种领域和模态,截止日期分别为 Gemini 2.0 的 2024 年 6 月和 Gemini 2.5 的 2025 年 1 月2。
谷歌还使用新方法提高过滤和重复数据删除的数据质量,训练后数据集由精心收集和审查的多模态指令调优数据组成,包括人类偏好、工具使用数据以及成对的指令和响应2。在后训练阶段,利用模型协助监督微调、奖励建模和强化学习阶段,实现更高效细致的数据质量控制,同时增加 RL 训练计算,结合可验证奖励和基于模型的生成奖励,提供更复杂可扩展的反馈信号,并通过算法更改提高 RL 过程长时间训练的稳定性2。
Gemini 2.5 模型是推理模型,能在响应前进行推理以提升性能和准确性,每个模型都可控制思考预算,让开发者选择模型生成响应前 “思考” 的时间和程度2。其中,2.5 Flash - Lite 预览版是 2.5 系列中延迟和成本最低的模型,是 Gemini 1.5 和 2.0 Flash 模型的经济高效升级版2。它在编程、数学、科学、推理和多模态基准测试中全面超越 2.0 Flash - Lite,在翻译和分类等高容量、延迟敏感任务中表现出色,广泛任务延迟低于 2.0 Flash - Lite 和 2.0 Flash2。
该模型缩短了首个 token 的获取时间,实现了更高的每秒 token 解码速度,适合大规模分类或汇总等高吞吐量任务2。虽然是推理模型,允许通过 API 参数动态控制思考预算,但因针对成本和速度优化,“思考” 功能默认关闭2。不过,它具备 Gemini 2.5 的诸多功能,如在不同预算下开启思考模式、连接谷歌搜索和代码执行等工具、多模态输入以及 100 万个 token 的上下文长度2。
Gemini 2.5 Pro 是谷歌最智能的思维模型,展现出强大的推理和编程能力,擅长生成交互式 Web 应用程序,能够进行代码库级别的理解,并展现出涌现的多模态编程能力2。Gemini 2.5 Flash 是混合推理模型,具有可控的思维预算,适用于大多数复杂任务,能控制质量、成本和延迟之间的平衡2。与 Gemini 1.5 系列相比,Gemini 2.5 系列模型在编程、数学、推理任务和图像理解能力上都有显著提升2。例如,在 AIME 2025 测试中,Gemini 2.5 Pro 的准确率为 88.0%,而 Gemini 1.5 Pro 的准确率为 17.5%;在 GPQA(钻石级)测试中,Gemini 2.5 Pro 的准确率为 86.4%2。
与其他主流大语言模型相比,Gemini 2.5 Pro 也有出色表现2。在 Aider Polyglot 编程任务中获得 SOTA,在 Humanity’s Last Exam、GPQA(钻石级)以及 SimpleQA 和 FACTS Grounding 事实性基准测试中获得最高分,在 LOFT 和 MRCR 长上下文任务中以 128k 的上下文长度获得 SOTA,并且是所考察模型中唯一支持 1M + tokens 上下文长度的模型2。不过,在数学方面,Gemini 2.5 Pro 的表现略逊色于 OpenAI o4 - mini,图像理解方面分数略低于 OpenAI - o3 high2。从性能表现看,Gemini 2.5 Flash 型号已成为 Gemini 家族中功能第二强大的型号,不仅超越了之前的 Flash 型号,还超越了一年前发布的 Gemini 1.5 Pro 型号2。
在性价比方面,Gemini 2.5 系列模型也有优势。在 LMArena 排行榜中,Gemini - 2.5 - Flash - Lite 文本排名 12,创意写作排名第三、编程排名第 14、难题提示排名第 172。Gemini 2.5 Pro 比 Gemini 1.5 Pro 的分数高出 120 多分,高于 OpenAI、xAI、Anthropic 的其他主流模型2。价格上,Gemini - 2.5 - Flash - Lite 比 Gemini - 2.5 - Flash 便宜 30% - 60%,输入价格为 0.1 美元(折合人民币约 0.7 元)/ 百万 tokens,输出价格为 0.4 美元(折合人民币约 2.9 元)/ 百万 tokens;Gemini 2.5 Flash 的输入价格为 0.3 美元(折合人民币约 2.2 元)/ 百万 tokens,输出价格为 2.5 美元(折合人民币约 17.9 元)/ 百万 tokens2。
Gemini 2.5 Flash - Lite 预览版已在谷歌 AI Studio 和 Vertex AI 中上线,2.5 Flash 和 Pro 稳定版也可在 Gemini 应用中访问,谷歌还为搜索功能引入了 2.5 Flash - Lite 和 Flash 的定制版本2。Gemini 2.5 系列模型的推出,标志着谷歌在大语言模型领域的快速发展,其强调性能更强劲的推理能力和经济实惠的特点,反映出谷歌在面对竞争时,加速为消费者和企业部署相应工具的决心。随着技术的不断进步,Gemini 2.5 系列模型有望在更多领域得到广泛应用,为人工智能的发展带来新的机遇和挑战。