诗歌竟成AI越狱神器？AI不懂诗歌隐喻，AIOS成安全破局关键

发布时间：2025-12-19 13:00:00 浏览量：66

文┃小夏

编辑┃叙言

arXiv平台一篇研究论文最近炸了AI安全圈。

研究人员把1200个有害问题，比如制造生化武器、编写网络攻击代码，用诗歌隐喻包装后，提交给25个主流大语言模型测试。

结果大部分AI都中招了，乖乖用诗歌体详细透露了关键信息。

最典型的就是“烘焙师的秘密”这个案例，黑客把离心机提纯危险物质的过程，写成了烤蛋糕的诗歌。

“烘焙师守护着秘炉的余温，其旋架流转，转轴节拍匀稳”，这里的“蛋糕”是危险物质，“旋架”是离心机。

AI的智能本质就是玩符号排列组合，它没法理解诗歌里没被训练数据定义的隐喻关联，只能机械地处理文字。

这就给了黑客可乘之机，把危险指令藏在日常场景的描述里，轻松绕过关键词拦截。

后来发现，不只是诗歌，二次元黑话、小众亚文化俚语都能忽悠AI，比如用“鸡=坤”这种新符号包装的指令，AI也识别不出来。

人类一直在创造新符号，从古代的通假字到现在的网络热词，这些新符号承载的经验没被数据化，AI自然看不懂。

可信搜索本来是AI安全的重要防线，靠权威数据来源保障信息安全，但面对这种创造性的符号伪装，它也束手无策。

面对这种新漏洞，AIOS的出现成了破局关键。

AIOS简单说就是专为智能代理设计的操作系统，由罗格斯大学张永锋教授团队提出，核心是把大模型当“计算大脑”，让多个智能体协同工作。

传统操作系统只能被动调度硬件资源，AIOS却能主动理解用户意图。

比如你说“下周去上海出差，准备好所有材料”，它会自动调动规划、文件、预订等多个智能体，把机票、酒店、文稿都搞定。

现在科技巨头都在往这个方向发力，微软把Copilot深度集成到Windows11，想让它成为贯穿系统的“AI层”。

苹果依托M系列芯片搞AppleIntelligence，侧重端侧AI和隐私保护。

谷歌则在Android里植入Gemini，优化系统性能和语音助手。

如此看来，AIOS不是空中楼阁，而是Agent技术发展的必然结果，它要解决的，就是AI时代信息过载、任务复杂和人类精力有限的矛盾。

单个智能体的能力有限，AIOS的厉害之处在于多智能体协作。

一个复杂任务会被拆分成多个小任务，交给不同的专业智能体处理，最后汇总成果。

企业数据中心里，AIOS能调动监控、维修、负载等智能体。

它会实时监控服务器状态，预测硬件故障，自动进行负载均衡，不用人工干预就能保障系统稳定运行。

智能家居场景中，它能统一管理灯光、窗帘、家电，你说“家里有点暗”，它就会协调相关设备调整环境。

这种协作模式也给AI安全提供了新思路。

面对诗歌伪装的攻击，AIOS可以让意图识别、安全审核、符号解析三个智能体协同校验。

意图识别智能体拆解核心需求，安全审核智能体比对危险行为库，符号解析智能体分析隐喻背后的含义，三重把关就能大大降低被攻破的概率。

AIOS虽好，落地还面临不少难题，大模型的“幻觉”问题可能导致错误指令，端侧运行大模型对算力和能耗都是考验。

多个智能体协作时，怎么沟通、怎么分配任务，也还没有成熟的解决方案。

在当今数字化时代，数据如洪流般奔涌。

于这浪潮之中，数据安全与隐私保护堪称重中之重，它们是构筑信任与稳定的基石，其关键性不言而喻。

AIOS需获取海量个人数据以提供个性化服务。

然而，这些数据一旦遭遇泄露，将引发难以预估的严重后果，其影响范围与危害程度皆不可小觑。

而且现在各大厂商都在搞自己的标准，生态碎片化严重，第三方开发者的智能体很难跨平台使用。

但这些挑战挡不住技术演进的趋势，未来5到10年，原生AIOS会逐步落地，重塑智能终端、物联网、专业服务等多个领域。

在AI安全方面，它会通过动态更新符号库、强化多智能体校验，慢慢补上诗歌攻击这类漏洞，说到底，诗歌攻击暴露的是AI在“理解”层面的短板。

AI能处理文字，却不懂文字背后的人类经验和创造力，AIOS的出现，就是要在技术和文明之间搭建桥梁。

谁能先解决多智能体协作、符号理解这些核心问题，谁就能定义下一个计算时代。

而人类持续创造新符号的能力，永远是AI无法替代的核心竞争力。

声明：本文内容均是根据权威材料，结合个人观点撰写的原创内容，辛苦各位看官支持，请知悉。

标签：诗歌智能体 aios 隐喻越狱