GPT-5.2陷刷分引争议！靠堆数据来超越谷歌？实测却落后Gemini 3

发布时间：2025-12-16 11:45:07 浏览量：99

哈喽，大家好，小圆这篇评论就来跟大家聊聊最近AI圈的大瓜，OpenAI刚放出的GPT-5.2，前脚刚因“吊打”谷歌Gemini 3.0 Pro出尽风头，后脚就被曝疑似“作弊”。

核心槽点很直接：它在关键测试里用了远超对手的token数量才刷出高分，不少网友直言这赢了也不光彩，那么这场看似精彩的AI对决，到底藏着多少门道？

事情的导火索是一位用户的精细计算，直接戳穿了GPT-5.2高分背后的猫腻，用远超对手的token消耗换回来的高分，到底算不算真本事？在AI领域，token相当于模型的“思考字数”，消耗越多意味着动用的算力和资源越多，成本也随之飙升。

最直观的对比来自ARC AGI 2测试，这是AI圈公认的硬核评测标准，数据显示，GPT-5.2的xhigh版本拿到了52.9%的得分，看似亮眼，但每个任务要消耗约13.5万个token；而谷歌Gemini 3.0 Pro只用6.7万token就取得了相近成绩，效率整整高出一倍。

更关键的是，把算力投入标准化后会发现，两个模型的真实能力其实难分伯仲。甚至在HLE、MMMU-Pro等多个测试中，GPT-5.2用了更多token还表现不佳，只有在OpenAI自家创建的GDPVal测试集里优势明显，既当裁判又当运动员，这样的结果客观性难免让人打问号。

GPT-5.2的争议，其实暴露了AI评测圈的一个深层困境：榜单早已不是单纯的技术比拼，反而成了各家厂商的“定向优化赛场”，OpenAI前高管Ilya早就说过，现在的大模型基本都在为榜单量身优化，结果水分很大，这话在业内其实是共识。

不止OpenAI，谷歌也有类似操作，在谷歌自家推出的FACTS Benchmark测试中，Gemini 2.5 Pro曾“超越”GPT-5，这个结果同样没人敢全信，就连相对中立的SWE软件工程评测，情况也很复杂，不同模型在不同任务上各有优劣，根本没有哪个能全面领先。

出现这种乱象核心还是利益驱动，随着AI技术商业化加速，一份漂亮的榜单成绩直接关系到企业估值、融资和用户信任，为了在竞争中占优，各家自然会往对自己有利的方向调整测试参数，甚至定制测试集，这种“军备竞赛”其实偏离了AI发展的初衷。

OpenAI变了味？对普通用户来说，榜单分数再好看，不如实际用着顺手，但GPT-5.2的用户体验，却和评测成绩形成了鲜明反差。有网友说它检查代码时“幻觉”严重，连自己写的函数都理解不了；还有人吐槽它像把成年人当学龄前儿童对待，体验反而不如老版本GPT-4o。

用户体验下滑的背后，是OpenAI的战略转向，曾经的OpenAI是敢于直面问题的研究机构，2023年还发表论文剖析AI对行业的颠覆风险，甚至登上《Science》；但现在，它更像一家“专心卖货”的商业公司。

今年9月发布的《全球用户如何使用ChatGPT》报告，通篇都在讲AI如何提升效率、创造价值，却对“AI替代就业”等敏感问题避而不谈，这种转向直接导致核心研究员流失。经济研究骨干Tom Cunningham离职时直言，团队从严谨的学术研究沦为“公司宣传部门”。

探讨AI负面影响的课题要么被要求软化措辞，要么被搁置；前安全研究员更是公开指出ChatGPT可能引发的用户心理风险，反观竞争对手Anthropic，CEO还敢公开预警AI对初级白领的替代风险，虽然可能有博取监管关注的成分，但相比OpenAI的沉默，至少保留了对风险的敬畏。

OpenAI的转变其实不难理解，毕竟它正冲刺万亿美元估值和IPO，背后还有微软等投资方的利益绑定，“诚实”在巨大的商业利益面前，确实成了奢侈品。但企业要长久发展，终究不能只靠榜单和营销，用户体验和社会责任才是根基。

GPT-5.2的“作弊”争议，与其说是一次孤立事件，不如说是AI行业商业化进程中的一次“成长阵痛”。token刷分、榜单优化、商业与学术的失衡，这些问题其实都在提醒我们：AI的价值从来不是靠分数定义，而是看它能否真正解决用户的实际问题。

小圆觉得，行业竞争终究要回归理性，对企业来说，与其在榜单上钻空子，不如把资源投入到减少“幻觉”、提升效率、降低成本等用户真正关心的方向。

对用户而言，也不必被单一榜单绑架，实际体验才是检验技术的最终标准，AI技术的发展需要速度，但更需要温度和诚意，只有兼顾技术进步、商业利益和社会责任，才能走得更远。毕竟，真正的AI强者，从来不需要靠“刷分”证明自己。

标签：谷歌 gemini 评测 token 刷分