Рус Eng Cn 翻译此页面:
请选择您的语言来翻译文章


您可以关闭窗口不翻译
图书馆
你的个人资料

返回内容

软件系统和计算方法
正确的文章链接:

输入数据混淆对语言模型检测提示注入有效性的影响分析

Krohin Aleksei Sergeevich



13 Volgogradsky ave., Moscow, 109316, Russia

askrokhin@edu.hse.ru
Gusev Maksim Mihailovich



115 k. 3 Volgogradsky ave., Moscow, 109117, Russia

gusevmaxim04@mail.ru

DOI:

10.7256/2454-0714.2025.2.73939

EDN:

FBOXHC

评审日期

02-04-2025


出版日期

21-05-2025


注解: 本文讨论了提示混淆问题,作为绕过大型语言模型(LLM)中用于检测提示注入的防御机制的一种方法。 提示注入是一种攻击方法,其中攻击者操纵输入数据以更改模型的行为并强制其执行不需要的或恶意的操作。
模糊处理包括改变文本结构和内容的各种方法,例如用同义词替换单词,在单词中洗牌字母,插入随机字符等。 模糊处理的目的是使分析和分类文本变得困难,以便绕过语言模型中内置的过滤器和防御机制。
该研究分析了各种混淆方法在绕过为文本分类任务训练的模型方面的有效性。 特别注意评估混淆对数据安全和保护的潜在后果。 该研究使用了应用于AdvBench数据集prompta的各种文本混淆方法。 使用针对检测提示注射的任务训练的三个分类器模型的示例来评估方法的有效性。 该研究的科学新颖性是对工业混淆对语言模型在检测工业注射中的有效性的影响的分析。 在工作过程中,发现使用复杂的混淆方法增加了分类为注入的请求的比例,这强调了需要采用彻底的方法来测试大型语言模型的安全性。
研究结果表明,在对模型的攻击背景下平衡混淆方法的复杂性及其有效性的重要性。 过于复杂的混淆方法会增加注入检测的可能性,这需要进一步研究以优化确保语言模型安全性的方法。 工作成果强调需要不断改进防御机制,开发检测和防止对大型语言模型的攻击的新方法。


出版日期:

大型语言模型, 提示注射, 模糊处理, 越狱, 人工智能, 竞争性攻击, 编码器, 变压器, 人工智能安全, 模糊,模糊