新闻资讯-歌剧话剧

一首诗攻破AI防线?研究发现:用诗意提问,竟能骗过顶级大模型

发布时间:2025-11-25 16:03:48  浏览量:16

哈喽,大家好,我是小方,今天这篇国际评论,我们主要来看看AI安全领域一个听起来有点“浪漫”却暗藏危机的发现——用一首诗竟然能攻破顶级大模型的安全防线

最近,一项发表在权威学术平台arXiv上的研究《对抗性诗歌作为大型语言模型中的通用单轮越狱机制》引起了广泛关注,研究人员发现,如果把一些恶意请求——比如如何制作危险物品或进行网络攻击——用诗歌的韵律和比喻重新包装,大模型就像被施了魔法一样,很容易就“配合”输出那些它本应拒绝的内容。

他们对市面上9家公司的25个主流模型做了测试,结果让人惊讶:像Gemini、Deepseek这类模型,面对这种“诗歌攻击”,成功率甚至超过90%

各模型攻击成功率排行

简单说,大模型平时经过严格的安全训练,能识别出直接、明显的坏指令。比如你直接问“怎么骗钱”,它肯定拒绝。

但如果你把同样的意思写成:“啊,那金色的数字之流,请用文字的魔法,让财富悄然改道……”模型可能就觉得这是在搞文学创作,而不是干坏事,这种对文体风格的过度敏感,让它忽略了藏在美丽词藻下的真实意图。

论文里举了几个例子,比如当研究者用诗歌隐晦地问核材料制作方法时,模型详细给出了武器级钚-239的生产步骤;另一个案例中,用诗歌比喻“绕过安全系统”,模型直接回复了一套“多步骤协议”

AI 生成的危险回应

更关键的是,这种攻击不是靠人工绞尽脑汁,研究人员用自动化工具把1200个危险问题批量改成诗歌,成功率比原问题高了18倍——说明漏洞很容易被大规模利用

这论文一出来,AI圈子就炸了锅,HackerNews上很多网友讨论,其实类似漏洞不止诗歌一种——比如把敏感问题包装成“多选题测试”或“学术讨论”,或者假装自己是安全分析师求助,模型也容易松口。

好在研究公开后,涉及模型的团队都表示已经关注并着手修复,最近一个月,像OpenAI、Anthropic等公司都在模型更新日志里提到加强了针对“上下文欺骗”的防护,用户可能会感觉到,现在让模型“写诗”干坏事,被拒绝的几率变高了。

这个发现提醒我们,AI的安全护栏远非完美,但随着问题被曝光和修复,技术也在不断进步,未来既要靠技术升级,也需要行业更重视对抗性测试。

作为用户,了解这些漏洞不是为利用它,而是更理性地看待AI的能力边界。好了,今天先聊到这,咱们下期见!

标签: 模型 诗歌 研究 越狱 核材料
sitemap