文|锐资
编辑|锐资
家人们,你有没有过这种体验?跟ChatGPT聊了半小时业务规则,窗口一关它全忘光;教Gemini认了自家产品参数,第二天问起还是一脸"茫然"。
现在的AI看着神通广大,其实都得了严重的"顺行性遗忘症",就像电影《记忆碎片》里的主角,老知识记得门儿清,新东西转头就忘。
这事儿不是技术bug,而是整个AI行业的"先天缺陷"。咱们现在用的大模型,核心都是Transformer架构,这玩意儿有个致命问题:要么只能短期记事儿,要么干脆不更新。
你跟它聊天时,它能通过注意力机制临时记住几句话,但这记忆全靠显存撑着,一旦会话结束就清零。
而它肚子里的海量知识,都存在前馈神经网络里,这部分跟"死内存"似的,除非花大价钱全量微调,否则永远是出厂设置。
中间就缺个能把新学到的东西慢慢存下来的机制,就像人没有了把短期记忆转化为长期记忆的能力。
就在NeurIPS2025会议上,谷歌的研究团队扔出了个"炸弹"论文《NestedLearning:TheIllusionofDeepLearningArchitectures》提出,这问题根本不是缺个记忆模块,而是我们从一开始就搞错了AI的设计逻辑。
论文第一作者AliBehrouz说得挺透彻:以前我们总把AI的"架构"和"优化器"分开看,架构是固定的骨架,优化器是训练时用的工具,训练完就扔,这种割裂才导致AI"记不住新东西"。
这个思路挺颠覆的,谷歌团队还找了神经科学的例子来撑腰:医学上有种手术叫半球切除术,就是把大脑一半切掉治癫痫,但剩下的脑组织能重组接管所有功能,患者照样正常生活。
这说明大脑不是靠固定模块干活的,而是通用的、能复用的。AI为啥不能这么设计?为啥非要给架构和优化器划清界限?
基于这个想法,谷歌搞出了个叫HOPE的框架,直译是"高阶优化与表达",还真给AI记忆难题带来了点希望。
这框架的灵感来自人脑的双记忆系统:海马体负责快速记新事儿,大脑皮层负责长期存知识,俩系统配合着干活。HOPE也分了快慢两个系统,分工特别明确。
快系统用的是谷歌之前研究的Titans架构,你可以把它当成增强版的循环神经网络,但它有个牛本事,能自我修改。
传统的神经网络都是按固定权重干活,Titans不一样,它能根据你说的话,实时生成需要的计算参数,还能自己决定这次要不要"记下来"、记多少。
比如你跟它说一个新的业务术语,它立马就能判断这东西重要性,快速记在短期记忆里,跟人脑海马体的作用一模一样。
真正让人眼前一亮的是慢系统,叫连续记忆系统CMS。以前的AI模型,要么全量更新参数(费钱还容易忘旧知识),要么完全不更新(记不住新知识),非黑即白。
CMS把模型分成了好几个"频率层级",就像不同转速的齿轮:高频层处理几百个词就更新一次,专门记对话里的新定义、新规则。
中频层处理几万词才更新,用来适应新项目的背景;低频层几乎不更新,牢牢守住语法、常识这些基础。
这设计太妙了,完美解决了"灾难性遗忘"的问题。新学到的东西先存在浅层的高频层,不会打扰深层的旧知识,等用得多了、证明确实重要,才慢慢沉淀到深层。
这不就是咱们人类记东西的过程嘛?白天学的新知识,晚上睡觉的时候慢慢转化为长期记忆,而不是一下子就把老记忆覆盖掉。
为了配合这套记忆系统,谷歌还搞了个M3优化器,简单说就是"多尺度动量优化器"。模型都分层了,优化器当然也得跟上。
M3有两套动量机制,快动量管眼前的小错误,慢动量把握全局的学习方向,让模型在学习新东西的时候不跑偏。
实验数据也挺实在,在ImageNet图像分类和大模型训练任务里,M3比以前的优化器收敛更快,最终效果也更好。
最让行业兴奋的是,HOPE框架能向后兼容。用他们提出的Ad-hocLevelStacking技巧,不用从头训练新模型。
直接拿现有的Llama、Qwen这些模型改造就行,把浅层设为高频层记新知,深层保持低频层稳基础,相当于给老模型做"原地升级",大大降低了企业的使用成本。
不过这事儿也引发了轩然大波,支持者和反对者吵得不可开交。
支持者说这就是"AttentionIsAllYouNeedV2"(Transformer的奠基性论文是《AttentionIsAllYouNeed》),给AI加了自我修改的能力,相当于让AI学会了"怎么学习",从被动接受知识变成了主动适应环境,这是质的飞跃。
尤其是企业们,要是模型能在日常业务中自己学新规则,还不忘旧制度,那AI的更新维护成本能降一大截,简直是解决了老大难问题。
反对的声音也挺尖锐。有研究者说,论文里把随机梯度下降解释成"联想记忆",数学推导看着漂亮,但缺乏严格的收敛性证明,能不能稳定工作还不好说。
更多工程师担心的是实操问题:以前调一个Adam优化器就够头疼了,现在要同时协调好几个不同频率的层级,超参数调优的难度直接呈指数级上升,实际用起来可能根本没法控制。
还有个关键问题没解决:让模型在和用户交互中持续更新,数据隐私、计算成本、稳定性都是大麻烦。
万一有人故意输入恶意信息,污染了模型怎么办?在手机、智能音箱这些边缘设备上,怎么实现实时的多尺度更新?这些实际问题,论文里都没说清楚。