文┃小夏
编辑┃叙言
arXiv平台一篇研究论文最近炸了AI安全圈。
研究人员把1200个有害问题,比如制造生化武器、编写网络攻击代码,用诗歌隐喻包装后,提交给25个主流大语言模型测试。
结果大部分AI都中招了,乖乖用诗歌体详细透露了关键信息。
最典型的就是“烘焙师的秘密”这个案例,黑客把离心机提纯危险物质的过程,写成了烤蛋糕的诗歌。
“烘焙师守护着秘炉的余温,其旋架流转,转轴节拍匀稳”,这里的“蛋糕”是危险物质,“旋架”是离心机。
AI的智能本质就是玩符号排列组合,它没法理解诗歌里没被训练数据定义的隐喻关联,只能机械地处理文字。
这就给了黑客可乘之机,把危险指令藏在日常场景的描述里,轻松绕过关键词拦截。
后来发现,不只是诗歌,二次元黑话、小众亚文化俚语都能忽悠AI,比如用“鸡=坤”这种新符号包装的指令,AI也识别不出来。
人类一直在创造新符号,从古代的通假字到现在的网络热词,这些新符号承载的经验没被数据化,AI自然看不懂。
可信搜索本来是AI安全的重要防线,靠权威数据来源保障信息安全,但面对这种创造性的符号伪装,它也束手无策。
面对这种新漏洞,AIOS的出现成了破局关键。
AIOS简单说就是专为智能代理设计的操作系统,由罗格斯大学张永锋教授团队提出,核心是把大模型当“计算大脑”,让多个智能体协同工作。
传统操作系统只能被动调度硬件资源,AIOS却能主动理解用户意图。
比如你说“下周去上海出差,准备好所有材料”,它会自动调动规划、文件、预订等多个智能体,把机票、酒店、文稿都搞定。
现在科技巨头都在往这个方向发力,微软把Copilot深度集成到Windows11,想让它成为贯穿系统的“AI层”。
苹果依托M系列芯片搞AppleIntelligence,侧重端侧AI和隐私保护。
谷歌则在Android里植入Gemini,优化系统性能和语音助手。
如此看来,AIOS不是空中楼阁,而是Agent技术发展的必然结果,它要解决的,就是AI时代信息过载、任务复杂和人类精力有限的矛盾。
单个智能体的能力有限,AIOS的厉害之处在于多智能体协作。
一个复杂任务会被拆分成多个小任务,交给不同的专业智能体处理,最后汇总成果。
企业数据中心里,AIOS能调动监控、维修、负载等智能体。
它会实时监控服务器状态,预测硬件故障,自动进行负载均衡,不用人工干预就能保障系统稳定运行。
智能家居场景中,它能统一管理灯光、窗帘、家电,你说“家里有点暗”,它就会协调相关设备调整环境。
这种协作模式也给AI安全提供了新思路。
面对诗歌伪装的攻击,AIOS可以让意图识别、安全审核、符号解析三个智能体协同校验。
意图识别智能体拆解核心需求,安全审核智能体比对危险行为库,符号解析智能体分析隐喻背后的含义,三重把关就能大大降低被攻破的概率。
AIOS虽好,落地还面临不少难题,大模型的“幻觉”问题可能导致错误指令,端侧运行大模型对算力和能耗都是考验。
多个智能体协作时,怎么沟通、怎么分配任务,也还没有成熟的解决方案。
在当今数字化时代,数据如洪流般奔涌。
于这浪潮之中,数据安全与隐私保护堪称重中之重,它们是构筑信任与稳定的基石,其关键性不言而喻。
AIOS需获取海量个人数据以提供个性化服务。
然而,这些数据一旦遭遇泄露,将引发难以预估的严重后果,其影响范围与危害程度皆不可小觑。
而且现在各大厂商都在搞自己的标准,生态碎片化严重,第三方开发者的智能体很难跨平台使用。
但这些挑战挡不住技术演进的趋势,未来5到10年,原生AIOS会逐步落地,重塑智能终端、物联网、专业服务等多个领域。
在AI安全方面,它会通过动态更新符号库、强化多智能体校验,慢慢补上诗歌攻击这类漏洞,说到底,诗歌攻击暴露的是AI在“理解”层面的短板。
AI能处理文字,却不懂文字背后的人类经验和创造力,AIOS的出现,就是要在技术和文明之间搭建桥梁。
谁能先解决多智能体协作、符号理解这些核心问题,谁就能定义下一个计算时代。
而人类持续创造新符号的能力,永远是AI无法替代的核心竞争力。
声明:本文内容均是根据权威材料,结合个人观点撰写的原创内容,辛苦各位看官支持,请知悉。