9月22号,谷歌DeepMind那边扔出个机器人领域的“大新闻”,他们把“具身基础模型”(就是常说的EFM),从只会模仿人的阶段,弄到能自己优化自己了。
说实话,这事儿听着有点技术,但实际用起来,可能真能让机器人跟以前不一样,不再是只会重复动作的“机器”,反而有点“会琢磨”的意思。
以前的机器人学东西,路子特别窄,基本就是人做一遍动作,它跟着重复,而且只能应付固定任务。
你让它推个方块,换个地方放方块,它就懵了,得重新教,本来想,后来多模态感知和大数据出来了,机器人能该厉害点吧?
结果发现不是,多数机器人还是靠“监督微调”训练,没法自己更新技能,也没强化学习那套后续优化的本事。
这里面最头疼的就是“奖励函数”了,简单说,就是得让人告诉机器人“这么做对不对”,但现实里任务目标老变,根本没法准确量化。
比如让机器人摆东西,摆多整齐算对?人设计这个标准就得花好久,还容易有偏差。
更麻烦的是,在真实环境里检验机器人做得好不好,要花不少资源,效率特别低。
我之前跟做工厂自动化的朋友聊过,他们最烦这个,比如汽车零件换个型号,机器人就得重新训练,少则一两周,多则一两个月。
之前看《2024全球工业机器人技术报告》,72%的工厂都吐槽这事儿,说太影响生产线灵活调整了。
还有物流机器人,新增个分拣货物的任务,光训练成本就得一万多,对小企业来说真不便宜。
老机器人这么多毛病,谷歌DeepMind这次就拿出了新办法,核心是“两步走”,还借鉴了大语言模型(LLM)后续训练的思路。
第一步是“监督微调”,不只是让机器人学动作,还得让它能算“离完成任务还有几步”(叫Steps-to-Go)。
比如插销任务,机器人得知道“再调一下角度,还有两步就能插进去”,这个预测特别关键,是后面自己优化的基础。
第二步更绝,叫“自我改进”,这时候机器人不用人管了,自己就能判断动作好不好。
它做完一个动作,就看之前预测的“剩余步骤”变没变,要是少了,就知道这么做对,下次接着用,要是多了,就明白错了,赶紧调整。
这比以前靠人设计“奖励规则”强太多了,人不用老盯着,机器人自己就能进步。
谷歌之前2023年搞过个RT-2机器人,能理解语言但不会自己优化,这次算是补上了短板。
据说这新方法的效率比之前高3倍,不用人反复给反馈,机器人自己就能形成“做动作-看效果-改动作”的循环。
比如推块的时候偏了,它自己能通过“剩余步骤变多”发现问题,然后调整力度,不用人再教。
光说不练假把式,谷歌肯定得拿实验说话了,他们让机器人做了好几个任务,比如单臂推块、双臂插销,还有个叫LanguageTable的任务。
结果挺意外的,LanguageTable任务里,就多采了不到2%的数据,成功率一下子从45%涨到75%。
更厉害的是跨环境适应能力,把机器人从模拟场景换到真实场景(就是常说的Real2Sim迁移),没多给多少数据,成功率也能到59%。
这要是用到实际场景里,比如仓库换了布局,机器人不用重新训练就能适应,多省事儿。
还有可扩展性,这方法能让多台机器人一起干活,各自收集数据、更新技能,一个人就能盯着好几台。
我觉得这对物流仓库特别有用,现在一个人顶多盯两三台,以后盯十台都有可能,分拣效率不得翻番?
这么看下来,谷歌这次的新范式,其实是让机器人从“只会模仿的工具”变成了“能自己琢磨的主儿”。
之前老机器人的那些毛病,像训练慢、不灵活,这次算是解决了不少,以后不管是工厂里的组装机器人,还是家里的服务机器人,都能更“聪明”点。
比如工厂换了零件,机器人自己就能调整动作,家里换了家具,服务机器人也不用再教。
当然,这技术刚出来,后面还得打磨,但方向肯定是对的,说不定过两年,咱们在超市、工厂里见到的机器人,都是这种“会自己进步”的主儿了。