谷歌逆天操作！AI新架构改写行业规则，大模型再次爆火

发布时间：2025-12-11 15:45:30 浏览量：27

文|锐资

编辑|锐资

家人们，你有没有过这种体验？跟ChatGPT聊了半小时业务规则，窗口一关它全忘光；教Gemini认了自家产品参数，第二天问起还是一脸"茫然"。

现在的AI看着神通广大，其实都得了严重的"顺行性遗忘症"，就像电影《记忆碎片》里的主角，老知识记得门儿清，新东西转头就忘。

这事儿不是技术bug，而是整个AI行业的"先天缺陷"。咱们现在用的大模型，核心都是Transformer架构，这玩意儿有个致命问题：要么只能短期记事儿，要么干脆不更新。

你跟它聊天时，它能通过注意力机制临时记住几句话，但这记忆全靠显存撑着，一旦会话结束就清零。

而它肚子里的海量知识，都存在前馈神经网络里，这部分跟"死内存"似的，除非花大价钱全量微调，否则永远是出厂设置。

中间就缺个能把新学到的东西慢慢存下来的机制，就像人没有了把短期记忆转化为长期记忆的能力。

就在NeurIPS2025会议上，谷歌的研究团队扔出了个"炸弹"论文《NestedLearning:TheIllusionofDeepLearningArchitectures》提出，这问题根本不是缺个记忆模块，而是我们从一开始就搞错了AI的设计逻辑。

论文第一作者AliBehrouz说得挺透彻：以前我们总把AI的"架构"和"优化器"分开看，架构是固定的骨架，优化器是训练时用的工具，训练完就扔，这种割裂才导致AI"记不住新东西"。

这个思路挺颠覆的，谷歌团队还找了神经科学的例子来撑腰：医学上有种手术叫半球切除术，就是把大脑一半切掉治癫痫，但剩下的脑组织能重组接管所有功能，患者照样正常生活。

这说明大脑不是靠固定模块干活的，而是通用的、能复用的。AI为啥不能这么设计？为啥非要给架构和优化器划清界限？

基于这个想法，谷歌搞出了个叫HOPE的框架，直译是"高阶优化与表达"，还真给AI记忆难题带来了点希望。

这框架的灵感来自人脑的双记忆系统：海马体负责快速记新事儿，大脑皮层负责长期存知识，俩系统配合着干活。HOPE也分了快慢两个系统，分工特别明确。

快系统用的是谷歌之前研究的Titans架构，你可以把它当成增强版的循环神经网络，但它有个牛本事，能自我修改。

传统的神经网络都是按固定权重干活，Titans不一样，它能根据你说的话，实时生成需要的计算参数，还能自己决定这次要不要"记下来"、记多少。

比如你跟它说一个新的业务术语，它立马就能判断这东西重要性，快速记在短期记忆里，跟人脑海马体的作用一模一样。

真正让人眼前一亮的是慢系统，叫连续记忆系统CMS。以前的AI模型，要么全量更新参数（费钱还容易忘旧知识），要么完全不更新（记不住新知识），非黑即白。

CMS把模型分成了好几个"频率层级"，就像不同转速的齿轮：高频层处理几百个词就更新一次，专门记对话里的新定义、新规则。

中频层处理几万词才更新，用来适应新项目的背景；低频层几乎不更新，牢牢守住语法、常识这些基础。

这设计太妙了，完美解决了"灾难性遗忘"的问题。新学到的东西先存在浅层的高频层，不会打扰深层的旧知识，等用得多了、证明确实重要，才慢慢沉淀到深层。

这不就是咱们人类记东西的过程嘛？白天学的新知识，晚上睡觉的时候慢慢转化为长期记忆，而不是一下子就把老记忆覆盖掉。

为了配合这套记忆系统，谷歌还搞了个M3优化器，简单说就是"多尺度动量优化器"。模型都分层了，优化器当然也得跟上。

M3有两套动量机制，快动量管眼前的小错误，慢动量把握全局的学习方向，让模型在学习新东西的时候不跑偏。

实验数据也挺实在，在ImageNet图像分类和大模型训练任务里，M3比以前的优化器收敛更快，最终效果也更好。

最让行业兴奋的是，HOPE框架能向后兼容。用他们提出的Ad-hocLevelStacking技巧，不用从头训练新模型。

直接拿现有的Llama、Qwen这些模型改造就行，把浅层设为高频层记新知，深层保持低频层稳基础，相当于给老模型做"原地升级"，大大降低了企业的使用成本。

不过这事儿也引发了轩然大波，支持者和反对者吵得不可开交。

支持者说这就是"AttentionIsAllYouNeedV2"（Transformer的奠基性论文是《AttentionIsAllYouNeed》），给AI加了自我修改的能力，相当于让AI学会了"怎么学习"，从被动接受知识变成了主动适应环境，这是质的飞跃。

尤其是企业们，要是模型能在日常业务中自己学新规则，还不忘旧制度，那AI的更新维护成本能降一大截，简直是解决了老大难问题。

反对的声音也挺尖锐。有研究者说，论文里把随机梯度下降解释成"联想记忆"，数学推导看着漂亮，但缺乏严格的收敛性证明，能不能稳定工作还不好说。

更多工程师担心的是实操问题：以前调一个Adam优化器就够头疼了，现在要同时协调好几个不同频率的层级，超参数调优的难度直接呈指数级上升，实际用起来可能根本没法控制。

还有个关键问题没解决：让模型在和用户交互中持续更新，数据隐私、计算成本、稳定性都是大麻烦。

万一有人故意输入恶意信息，污染了模型怎么办？在手机、智能音箱这些边缘设备上，怎么实现实时的多尺度更新？这些实际问题，论文里都没说清楚。

标签：逆天模型谷歌行业架构