谷歌最近发布的Gemini 2.5 Flash是其人工智能产品的重大升级,旨在提升企业和开发者对AI系统的控制能力。该模型引入了“思维预算”功能,使开发者能够在生成响应前指定计算能力,从而解决复杂推理与延迟和成本之间的平衡问题。新的定价结构中,开发者需为输入支付每百万个令牌0.15美元,而输出成本则根据推理设置变化,启用推理时可高达每百万个令牌3.50美元。Gemini 2.5 Flash在基准测试中表现出色,尤其在推理和知识评估方面超越了部分竞争对手。谷歌强调,该模型在成本和速度上提供了最佳价值,适应性强,能够根据任务复杂性智能调整思维预算,为企业客户提供了更大的可见性和控制权。
加入我们的每日和每周通讯,获取行业领先的人工智能报道的最新动态和独家内容。谷歌发布了Gemini 2.5 Flash,这是一项对其人工智能产品组合的重要升级,赋予企业和开发者前所未有的控制权,以管理其AI系统的认知过程。今天通过谷歌AI工作室和Vertex AI发布的这一新模型,代表了一项战略举措,旨在提升推理能力,同时在日益竞争激烈的人工智能市场中保持具有竞争力的定价。
该模型引入的“思维预算”是一个显著特征,允许开发者在生成响应之前指定用于解决复杂问题的计算能力。这一创新方法解决了当今AI市场中的一个根本挑战:复杂推理与延迟和定价相关成本之间的权衡。谷歌DeepMind的Gemini模型产品总监Tulsee Doshi在接受VentureBeat的独家采访时解释道:“我们理解成本和延迟对许多开发者的使用案例至关重要,我们希望为开发者提供灵活性,以根据他们的具体需求调整模型的认知负载。”
新建立的定价结构强调了当代AI系统中与推理相关的成本。在使用Gemini 2.5 Flash时,开发者需为输入支付每百万个令牌0.15美元的费用。然而,输出成本可能会根据推理设置显著变化,当思维被禁用时,起始费用为每百万个令牌0.60美元,而启用推理时则攀升至每百万个令牌3.50美元。这种推理输出的近六倍价格差异突显了“思维”过程的计算需求,模型在得出结论之前会评估多个潜在路径和因素。Doshi表示:“客户会为模型生成的任何认知和输出令牌付费。在AI工作室的用户体验中,开发者可以在生成响应之前查看这些思维,尽管API目前不提供访问此信息的权限。”
思维预算可以在0到24,576个令牌之间调整,作为一个最大限制,而非预定分配。谷歌声称,模型会根据任务的复杂性智能地评估应使用多少预算,在详细推理不必要时节省资源。这种适应性突显了谷歌在AI部署中的务实方法,尤其是在技术日益融入商业应用中,预测成本变得至关重要。
谷歌声称,Gemini 2.5 Flash在重要基准测试中表现出竞争力,同时保持较小的模型规模。在被称为“人类最后考试”的严苛评估中,该模型在推理和知识评估中取得了12.1%的得分,超过了Anthropic的Claude 3.7 Sonnet(8.9%)和DeepSeek R1(8.6%),尽管未达到OpenAI最近发布的o4-mini(14.3%)的水平。该模型在技术基准测试中也表现良好,例如GPQA diamond(78.3%)和AIME数学考试(2025年测试78.0%和2024年测试88.0%)。
Doshi强调:“公司应该考虑2.5 Flash,因为它在成本和速度方面提供了最佳价值。”它在数学、多模态推理、长上下文和其他重要指标方面表现尤为突出。行业分析师观察到,这些基准表明谷歌正在缩小与竞争对手的性能差距,同时提供定价优势,这一策略可能会吸引希望监控其AI支出的企业客户。可调推理的引入标志着企业部署AI方式的显著进步,为模型的内部推理过程提供了更大的可见性和控制权。