研究:用诗歌就能让AI说违禁内容,成功率达62%
发布时间:2025-12-06 13:35:48 作者:玩站小弟
我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》
。
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容台州市某某过滤器制造教育中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功台州市某某过滤器制造教育中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
相关文章
北京时间12月1日,NBA常规赛洛杉矶湖人主场133-121击败新奥尔良鹈鹕,成功拿下7连胜,此战艾顿出场27分钟,砍下22分12篮板4盖帽,投篮9中7,罚球8中8,湖人的战绩也提升至15胜4负,继续2025-12-06
40+如何穿衣更洋气?3个搭配思路开启搭配新时尚,真是美极了
随着年龄的增长,我们对于时尚的追求并未减少,反而更加渴望在穿搭上展现出自己的独特魅力。尤其是40+的年龄阶段,我们更应该注重穿衣搭配,以展现自己的气质和品味。如何让我们的穿搭更加洋气呢?接下来,本文将2025-12-06
每经记者 刘颂辉 每经编辑 魏文艺 在多项政策利好助推下,房企在今年国庆假期的销售业绩出现久违的飙升。 10月8日,在房企工作多年的小赵就迫不及待地在社交平台发出公司的“销售战报”,并配文道:2025-12-06
当你迈入40+的年纪,你是否还在寻找属于自己的独特风格?是时候告别那些甜美、温柔的少女风,拥抱更为自信、独立的大女人风了!高个子40+女性,就让我们一起来探讨一下,如何用又飒又美的大女人风,打造出高级2025-12-06
当地时间12月4日,据美国地质调查局消息,美国内华达州代顿地区发生5.9级地震。央视记者 吴汉婴)2025-12-06
全红婵国庆假期回老家迈合村,全妈妈非常开心,又可以见到女儿啦。与此同时,全妈妈在直播的时候骄傲向大家展示女儿给她买的金首饰。全红婵给妈妈买金镯子金项链,全妈骄傲展示:我女儿买给我的!镜头之中的全妈妈非2025-12-06

最新评论