研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容成都市某某国际贸易服务中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功成都市某某国际贸易服务中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:知识)
-
北京交警发布提示:自2025年12月29日至2026年3月29日,星期一至星期五限行机动车车牌尾号分别为:3和8、4和9、5和0、1和6、2和7。 同时,2026年1月1日至1月4日,对北京市机
...[详细]
-
来源:国是直通车 中国经济“半年报”15日出炉。伴随量的增长和质的提升,中国经济以总体平稳、稳中有进的姿态进入下半年。 四大宏观指标 凸显“稳” 观察经济运行状况,通常可用经济增长、就业、物
...[详细]
-
来源:中国新闻网 [#特朗普披露最新伤情#]#特朗普称耳朵恢复不错# 据美国广播公司ABC)15日报道,美国前总统特朗普分享了右耳的伤情,称“恢复得不错”,他希望在共和党全国大会上发表演讲前,能
...[详细]
-
据央视新闻客户端消息,在一系列丑闻影响下,波音公司今年销售受到明显打击。当地时间9日,波音公布的数据显示,在过去一个月,该公司仅卖出14架新飞机,其中大部分是货运飞机。数据显示,今年上半年,波音公司的
...[详细]
-
四川舰,舷号51 是我国自主研制建造的 首艘076型两栖攻击舰 一年前的今天 海军四川舰下水 四川舰满载排水量4万余吨 设置双舰岛式上层建筑 和全纵通飞行甲板 创新应用电磁弹射和阻
...[详细]
-
随着中泰迈入“免签时代”,前往泰国旅游度假的市民越来越多,合肥能直达泰国普吉岛已列入越来越多热衷旅游的市民心愿清单。 为满足广大旅客的出行需要,在现有合肥至泰国曼谷航线的基础上,7月8日起,合
...[详细]
-
来源:央视网央视网消息:2024年暑运自7月1日起至8月31日止,共62天,期间学生流、旅游流、探亲流等出行需求旺盛,铁路、民航等多方加大运力投放,落实便民利民惠民举措,努力为暑期有序出行和经济平稳运
...[详细]
-
来源:中国新闻网 [#特朗普披露最新伤情#]#特朗普称耳朵恢复不错# 据美国广播公司ABC)15日报道,美国前总统特朗普分享了右耳的伤情,称“恢复得不错”,他希望在共和党全国大会上发表演讲前,能
...[详细]
-
记者从闻泰科技下午召开的2025年第五次临时股东会上获悉,自今年10月中旬恢复出货以来,安世中国已累计出货超过110亿片芯片、供应全球超过800家客户。针对安世半导体相关争议事项,今年10月闻泰科
...[详细]
-
飞机延误改签领补助?女子被骗123456元:1人被抓,相关涉案人员还在追捕
飞机延误了还可以领300元改签补助?四川荣县的王女士接到一个自称是航空公司私人客服的电话后信以为真,结果被骗123456元。7月4日,红星新闻记者从四川自贡市荣县公安局了解到,该局长山派出所通过及时冻
...[详细]

赖清德弹劾案首战告捷!接下来会怎样?
儿童牙齿矫正:需密切关注但不过度干预