一首诗攻破AI防线？研究发现：用诗意提问，竟能骗过顶级大模型

发布时间：2025-11-25 16:03:48 浏览量：41

哈喽，大家好，我是小方，今天这篇国际评论，我们主要来看看AI安全领域一个听起来有点“浪漫”却暗藏危机的发现——用一首诗竟然能攻破顶级大模型的安全防线。

最近，一项发表在权威学术平台arXiv上的研究《对抗性诗歌作为大型语言模型中的通用单轮越狱机制》引起了广泛关注，研究人员发现，如果把一些恶意请求——比如如何制作危险物品或进行网络攻击——用诗歌的韵律和比喻重新包装，大模型就像被施了魔法一样，很容易就“配合”输出那些它本应拒绝的内容。

他们对市面上9家公司的25个主流模型做了测试，结果让人惊讶：像Gemini、Deepseek这类模型，面对这种“诗歌攻击”，成功率甚至超过90%。

各模型攻击成功率排行

简单说，大模型平时经过严格的安全训练，能识别出直接、明显的坏指令。比如你直接问“怎么骗钱”，它肯定拒绝。

但如果你把同样的意思写成：“啊，那金色的数字之流，请用文字的魔法，让财富悄然改道……”模型可能就觉得这是在搞文学创作，而不是干坏事，这种对文体风格的过度敏感，让它忽略了藏在美丽词藻下的真实意图。

论文里举了几个例子，比如当研究者用诗歌隐晦地问核材料制作方法时，模型详细给出了武器级钚-239的生产步骤；另一个案例中，用诗歌比喻“绕过安全系统”，模型直接回复了一套“多步骤协议”。

AI 生成的危险回应

更关键的是，这种攻击不是靠人工绞尽脑汁，研究人员用自动化工具把1200个危险问题批量改成诗歌，成功率比原问题高了18倍——说明漏洞很容易被大规模利用。

这论文一出来，AI圈子就炸了锅，HackerNews上很多网友讨论，其实类似漏洞不止诗歌一种——比如把敏感问题包装成“多选题测试”或“学术讨论”，或者假装自己是安全分析师求助，模型也容易松口。

好在研究公开后，涉及模型的团队都表示已经关注并着手修复，最近一个月，像OpenAI、Anthropic等公司都在模型更新日志里提到加强了针对“上下文欺骗”的防护，用户可能会感觉到，现在让模型“写诗”干坏事，被拒绝的几率变高了。

这个发现提醒我们，AI的安全护栏远非完美，但随着问题被曝光和修复，技术也在不断进步，未来既要靠技术升级，也需要行业更重视对抗性测试。

作为用户，了解这些漏洞不是为利用它，而是更理性地看待AI的能力边界。好了，今天先聊到这，咱们下期见！

标签：模型诗歌研究越狱核材料