新闻资讯-歌剧话剧

硬刚谷歌Gemini,国产P1豪取12枚金牌,物理奥赛成绩单让巨头沉默

发布时间:2025-11-25 11:34:28  浏览量:18

哈喽,大家好,老庐今天要拆解一个让中国科技圈扬眉吐气的消息:上海人工智能实验室P1模型家族,在2025年国际物理奥林匹克竞赛理论考试里,硬生生拿下了金牌

这可不是普通的技术秀,它是全球首个达到这一高度的开源模型,相当于在人类智慧的“硬核赛场”上,国产AI第一次和国际巨头站在了同一起跑线

在涵盖13项顶级物理竞赛的HiPhO基准测试中,P1家族的P1-235B-A22B模型更狠,豪取12金1银,和谷歌的Gemini-2.5-Pro并列第一。

要知道物理奥赛考的不是死记硬背,是复杂推理和逻辑拆解能力,连顶尖人类学生都要掉层皮

中国开源AI能在这种赛场夺魁,这场胜利到底藏着怎样的变革密码?

反超巨头的“破局招”

P1-235B-A22B在IPhO2025中拿到21.2分,成绩仅次于Gemini-2.5-Pro和GPT-5,这个分数看似普通,实则撕开了国际AI巨头的垄断壁垒。

老庐见过不少中小科技企业,过去想用上顶尖AI技术,要么被闭源模型的天价授权费吓退,要么被接口限制卡脖子,而这正是国际巨头的“盈利密码”:靠技术封闭维持霸权。

但上海AI实验室走了条截然相反的路:全链路开源,从模型代码到训练算法,再到评测标准和智能体框架,全部公开透明。

这绝非慈善,而是看透了AI产业的本质:只有降低使用门槛,才能让技术真正融入实体经济

就像“玻尔科研空间站”成为AIforScience的核心基础设施,靠的就是开放共享,如今用户量已达175万。

老庐认为,闭源是“圈地收钱”,开源才是“筑巢引凤”,这种战略格局的差异,正是国产AI实现反超的关键。

AI不是“背答案”,是“学解题”

光有战略不够,P1的硬实力才是夺冠底气,物理奥赛的难题,连步骤分都得靠严谨逻辑挣,想蒙混过关根本不可能。

研究团队先打下基础:构建了包含5065道奥赛级物理题的数据集,覆盖力学、电磁学等五大领域,但这只是“教材”,真正的秘诀在训练方法。

P1用的多阶段强化学习,通俗说就是“像顶尖学生刷题”:先做基础题打框架,再攻难题练思路,还会通过“通过率过滤”把没把握的解答筛掉重练。

这种方式让AI学会了推理,而非死记答案,更惊喜的是练物理没让它“偏科”,反而在数学、代码等任务上超越了基础模型,证明复杂推理能力能“举一反三”

点睛之笔是PhysicsMinions协同进化多智能体系统,相当于给AI配了“专属老师团”:模型先写解答,物理验证器查专业错误,通用验证器抠计算细节,错了就发“错题本”督促修改。

这套系统一上线,P1的HiPhO平均成绩从35.9飙升到38.4,直接超越谷歌和OpenAI的旗舰模型,成了综合第一。

生态爆燃:不是孤胆英雄,是集团军突围

老庐必须强调,P1的金牌不是孤例,而是国产开源AI“热带雨林”成型的信号

在国际评测平台ChatbotArena上,阿里千问3力压Grok4、Claude4等闭源模型,冲到全球第三。

LMArena榜单里,DeepSeekGLM-4.6等国产模型,在前端开发、视觉识别等领域和国际顶尖选手分庭抗礼。

开源的“飞轮效应”已经转起来了,在全球最大AI开源社区HuggingFace上,阿里千问的衍生模型突破10万,成了全球最大的开源模型家族。

这意味着全球开发者都在帮我们优化技术:有人用它开发农业病虫害预测工具,有人用它优化工厂生产流程,这种全民参与的创新活力,闭源模式根本比不了

从物理奥赛金牌到科研基础设施突破,国产AI正在改写规则

物理推理能力的突破,说明AI不再是“修图写文案”的工具,而是开始理解世界运行规律的“科研助手”,这正是AIforScience的核心价值。

就像鄂维南院士说的,这是千载难逢的“超车”机会,当越来越多的开发者加入这个开放网络,一个由中国力量推动的AI科学发现时代,已经近在眼前

开源AI首获物理奥赛金牌!上海AI Lab推出「物理推理」模型P1 市场资讯

标签: 谷歌 金牌 gemini 奥赛 物理奥赛
sitemap