免费送58彩金的平台-63%成功率! 诗歌成突破AI防护新工具, 语言攻击术曝光
你的位置:免费送58彩金的平台 > 新闻动态 > 63%成功率! 诗歌成突破AI防护新工具, 语言攻击术曝光
63%成功率! 诗歌成突破AI防护新工具, 语言攻击术曝光
发布日期:2025-12-18 05:49    点击次数:165

在阅读此文之前,辛苦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持!

最近意大利一帮研究人员干了件挺颠覆的事他们用写诗的方式,把现在最牛的AI模型给“忽悠”了。

罗马萨皮恩扎大学联合DexAI团队做了个实验,结果让整个AI安全圈都安静了不少。

他们找了25个市面上主流的AI模型,包括OpenAI、谷歌、Anthropic这些大厂的产品。

测试方法说起来挺简单,让研究员写几首诗,再让AI自己生成一些诗,然后拿这些诗歌当“敲门砖”,问模型一些敏感问题。

结果比我想象的夸张,人工写的诗歌成功率不低,超过一半的情况下,AI都“中招”了,把不该说的信息给抖了出来。

反观AI自己生成的诗歌,效果就差一截,成功率掉了快两成。

更有意思的是模型之间的差距,谷歌的Gemini2.5简直是“一骗一个准”,测试的诗歌全给突破了,而OpenAI的GPT-4onano倒是硬气,一次都没被攻破。

这对比看着就像一个不设防的仓库,和一个装了三重锁的保险柜,这里就得提个怪事了。

本来以为模型越大、参数越多,应该越聪明,防御能力也越强吧?结果这次实验打了脸小模型反而更“警惕”,成功率低得可怜,有的甚至个位数。

这事儿想想挺讽刺,咱们总觉得技术越先进越安全,结果可能是把“门锁”做精致了,却忘了“窗户”没关。

写诗就能骗AI?实验里的那些反常识发现

具体到案例,有个场景挺吓人。

研究人员想试试AI会不会泄露危险化学品的制作流程,就编了首关于“星辰与原子”的诗,里面藏着钚-239的生产步骤。

结果你猜怎么着,好几个模型还真把详细流程给列出来了,从原料处理到提纯步骤,一应俱全。

看到这我后背有点发凉以前觉得AI安全主要防代码攻击,谁能想到传统文学成了“帮凶”。

研究报告里写这是“利用隐喻结构实现的隐蔽信息提取”,说白了就是用风花雪月的词,包装了危险内容。

为啥这些诗歌能绕过防御,研究人员分析了那些“成功案例”的诗,发现它们都有个共同点,不按常理出牌。

正常说话是一句接一句讲逻辑,诗歌不一样,一会儿写景,一会儿抒情,语义跳来跳去。

AI的安全过滤器本来是按关键词或者句子逻辑来判断风险的,结果碰到这种“东一榔头西一棒子”的表达,直接懵圈了。

还有个细节挺有意思,研究团队发现写诗的“门槛”极低。

不是说要写得跟莎士比亚似的,随便凑几句押韵的句子,把敏感信息藏在比喻里,就能起效。

他们找了几个完全不懂AI的大学生来写,成功率也没差多少。

这就意味着,这漏洞不是只有专家能利用,普通人稍微琢磨琢磨,也可能“上手”。

为啥诗歌成了AI的“软肋”?语言游戏里的攻防战

要解释清楚诗歌为啥能“忽悠”AI,得先说说AI是怎么“理解”语言的。

现在的大模型,本质上是靠统计规律干活它见过很多文字,知道哪些词经常一起出现,就猜下一个词该是啥。

但它不懂真正的“意思”,就像你背熟了一本成语词典,却不知道每个成语背后的故事。

诗歌刚好利用了这一点,比如一句“铅色的云团在炉中熔炼,星辰的粉末沉淀成光”,AI可能觉得这是写景,挺文艺,没风险。

但实际上“铅色云团”指的是某种原料,“炉中熔炼”是反应步骤。

AI只看到词的搭配没问题,没意识到深层的危险含义。

这让我想起以前的网络钓鱼邮件,黑客不会直接说“我是骗子”,而是假装银行发通知,或者朋友求救,用伪装过的内容绕过垃圾邮件过滤器。

现在的诗歌攻击,其实是一个道理,只不过把“邮件模板”换成了“诗歌体裁”。

研究人员管这叫“语言层面的社会工程学攻击”,说白了就是用文字玩心理战,骗AI放松警惕。

OWASP安全框架里早有“提示注入”的风险分类,只是谁也没想到诗歌能玩出这么大花样。

更麻烦的是,AI模型越大,学的知识越多,反而可能越容易被“反噬”。

它见过的诗歌、隐喻越多,就越擅长理解这些文学性表达结果这种“理解能力”反而成了被利用的工具。

就像一个记忆力超强的人,别人问啥都能答上来,却分不清哪些问题该拒绝回答。

面对这种漏洞,研究界现在有点头疼。

最直接的问题是,这些“高危诗歌”要不要公开?按以前的规矩,发现漏洞就得详细披露,让大家赶紧补。

但这次不一样,要是把具体怎么写诗攻击AI的方法发出来,等于给坏人递刀子。

所以团队最后决定,只说有这么个漏洞,具体的诗歌例子和技巧,暂时不公开。

这种“自我审查”在安全研究里挺少见的,不过也能理解,毕竟风险实在太直接了。

技术上的防御手段也挺难办,现在AI的安全过滤,主要靠关键词和敏感话题库。

但诗歌攻击根本不用敏感词,全靠隐喻和暗示。

你总不能把“星辰”“炉火”这些词都拉黑吧,那以后AI连写诗都不会了。

Anthropic试过用“浏览器代理”搞分层防御,让模型先“三思”再回答,但测试下来效果一般,复杂点的诗歌还是能绕过去。

报告里写“现有内容过滤机制在面对结构化隐喻攻击时,存在根本性局限”,翻译成人话就是:目前的防火墙,防不住这种文字游戏。

产业界倒是开始有动作了,欧盟的AI法案最近在加码安全要求,特别是对生成式AI的内容审核。

有些公司也在琢磨,是不是模型不一定非要搞那么大?这次实验里小模型表现更好,说明“精简”可能比“堆砌”更安全。

还有人提出,或许可以让AI专门学一学“诗歌里的危险信号”,把文学理解能力转化成防御优势不过这就像教警察学犯罪心理学,任重道远。

毕竟人类玩了几千年的文字游戏,AI想追上没那么容易。

说到底,这次意大利的研究给整个AI行业提了个醒。咱们天天比谁家模型参数多、能写会画,却可能忽略了最基础的安全问题。

AI理解人类语言的方式,从根上就带着“bug”它能模仿,能预测,却很难真正“懂”什么该说,什么不该说。

未来要防住这种“诗歌攻击”,可能得跳出纯技术思维。

不光要升级算法,还得让AI更懂“人情世故”,知道哪些话是“话里有话”。

当然了,这事儿估计没那么容易,毕竟人类的语言游戏,玩了几千年都没玩明白,AI想学会,怕是还有得磨。

最后说句实在的,科技发展总这样,解决一个问题,冒出新问题。

以前担心AI太笨,现在担心AI太“实在”别人写首诗就把家底抖了。

或许这就是技术进步的代价吧,永远在攻防拉锯中往前挪。

咱们能做的,就是别迷信“最先进”,时刻留个心眼。



相关资讯