新闻资讯-歌剧话剧

GPT-5.2陷刷分引争议!靠堆数据来超越谷歌?实测却落后Gemini 3

发布时间:2025-12-16 11:45:07  浏览量:26

哈喽,大家好,小圆这篇评论就来跟大家聊聊最近AI圈的大瓜,OpenAI刚放出的GPT-5.2,前脚刚因“吊打”谷歌Gemini 3.0 Pro出尽风头,后脚就被曝疑似“作弊”。

核心槽点很直接:它在关键测试里用了远超对手的token数量才刷出高分,不少网友直言这赢了也不光彩,那么这场看似精彩的AI对决,到底藏着多少门道?

事情的导火索是一位用户的精细计算,直接戳穿了GPT-5.2高分背后的猫腻,用远超对手的token消耗换回来的高分,到底算不算真本事?在AI领域,token相当于模型的“思考字数”,消耗越多意味着动用的算力和资源越多,成本也随之飙升。

最直观的对比来自ARC AGI 2测试,这是AI圈公认的硬核评测标准,数据显示,GPT-5.2的xhigh版本拿到了52.9%的得分,看似亮眼,但每个任务要消耗约13.5万个token;而谷歌Gemini 3.0 Pro只用6.7万token就取得了相近成绩,效率整整高出一倍。

更关键的是,把算力投入标准化后会发现,两个模型的真实能力其实难分伯仲。甚至在HLE、MMMU-Pro等多个测试中,GPT-5.2用了更多token还表现不佳,只有在OpenAI自家创建的GDPVal测试集里优势明显,既当裁判又当运动员,这样的结果客观性难免让人打问号。

GPT-5.2的争议,其实暴露了AI评测圈的一个深层困境:榜单早已不是单纯的技术比拼,反而成了各家厂商的“定向优化赛场”,OpenAI前高管Ilya早就说过,现在的大模型基本都在为榜单量身优化,结果水分很大,这话在业内其实是共识。

不止OpenAI,谷歌也有类似操作,在谷歌自家推出的FACTS Benchmark测试中,Gemini 2.5 Pro曾“超越”GPT-5,这个结果同样没人敢全信,就连相对中立的SWE软件工程评测,情况也很复杂,不同模型在不同任务上各有优劣,根本没有哪个能全面领先。

出现这种乱象核心还是利益驱动,随着AI技术商业化加速,一份漂亮的榜单成绩直接关系到企业估值、融资和用户信任,为了在竞争中占优,各家自然会往对自己有利的方向调整测试参数,甚至定制测试集,这种“军备竞赛”其实偏离了AI发展的初衷。

OpenAI变了味?对普通用户来说,榜单分数再好看,不如实际用着顺手,但GPT-5.2的用户体验,却和评测成绩形成了鲜明反差。有网友说它检查代码时“幻觉”严重,连自己写的函数都理解不了;还有人吐槽它像把成年人当学龄前儿童对待,体验反而不如老版本GPT-4o。

用户体验下滑的背后,是OpenAI的战略转向,曾经的OpenAI是敢于直面问题的研究机构,2023年还发表论文剖析AI对行业的颠覆风险,甚至登上《Science》;但现在,它更像一家“专心卖货”的商业公司。

今年9月发布的《全球用户如何使用ChatGPT》报告,通篇都在讲AI如何提升效率、创造价值,却对“AI替代就业”等敏感问题避而不谈,这种转向直接导致核心研究员流失。经济研究骨干Tom Cunningham离职时直言,团队从严谨的学术研究沦为“公司宣传部门”。

探讨AI负面影响的课题要么被要求软化措辞,要么被搁置;前安全研究员更是公开指出ChatGPT可能引发的用户心理风险,反观竞争对手Anthropic,CEO还敢公开预警AI对初级白领的替代风险,虽然可能有博取监管关注的成分,但相比OpenAI的沉默,至少保留了对风险的敬畏。

OpenAI的转变其实不难理解,毕竟它正冲刺万亿美元估值和IPO,背后还有微软等投资方的利益绑定,“诚实”在巨大的商业利益面前,确实成了奢侈品。但企业要长久发展,终究不能只靠榜单和营销,用户体验和社会责任才是根基。

GPT-5.2的“作弊”争议,与其说是一次孤立事件,不如说是AI行业商业化进程中的一次“成长阵痛”。token刷分、榜单优化、商业与学术的失衡,这些问题其实都在提醒我们:AI的价值从来不是靠分数定义,而是看它能否真正解决用户的实际问题。

小圆觉得,行业竞争终究要回归理性,对企业来说,与其在榜单上钻空子,不如把资源投入到减少“幻觉”、提升效率、降低成本等用户真正关心的方向。

对用户而言,也不必被单一榜单绑架,实际体验才是检验技术的最终标准,AI技术的发展需要速度,但更需要温度和诚意,只有兼顾技术进步、商业利益和社会责任,才能走得更远。毕竟,真正的AI强者,从来不需要靠“刷分”证明自己。

标签: 谷歌 gemini 评测 token 刷分
sitemap