提示工程推荐：《第6章提示安全设计》读书笔记

2025年 5月 9日网络安全 SE_Meng

一、核心内容概述
本文聚焦于大语言模型在AI原生应用开发中的提示安全设计。随着大语言模型应用的日益广泛，其安全问题愈发凸显，提示安全作为其中关键部分，已成为亟待解决的重要议题。文章围绕提示安全问题，详细剖析了数据泄露、注入攻击和越权攻击这三大类安全威胁的成因、表现形式，并针对性地提出了一系列切实可行的防御策略，旨在帮助开发者构建更安全可靠的AI原生应用。

二、重点知识梳理
（一）数据泄露
成因：一方面，模型记忆泄露源于训练数据筛选与保护不足，导致模型记住敏感信息，后续在生成内容时不经意泄露，就像模型“误食”敏感信息又“吐出”一样；另一方面，应用调用泄露是在使用云端大语言模型API服务时，用户调用日志用于模型再训练或用户反馈数据被纳入再训练环节，进而引发数据留存或意外泄露。
防御策略：最小化数据输入，减少向大语言模型API提供的敏感信息，如剔除身份证号、电话号码等；信息脱敏和加密，在数据存储、传输和使用前进行处理，可借助Hutool等工具包实现，保护信息真实内容；变量掩码技术，用变量名代替敏感信息，展示前再替换，但该技术存在处理工作量大、不适用于复杂逻辑推理场景等局限；模型私有化部署，适合处理高度敏感数据的企业，可确保对数据和模型的绝对掌控，但需综合考虑企业自身资源、技术实力和成本等因素。
（二）注入攻击
攻击类型：任务挟持通过在用户输入中嵌入有害文本，篡改或替换原本任务指令，使大语言模型执行非预期任务；提示泄露是攻击者诱骗大语言模型泄露系统任务提示，损害AI原生应用的知识产权，攻击者可据此设计更具恶意的提示；越狱攻击试图绕过大语言模型的安全审查机制，利用角色伪装或设定虚拟场景等方式，诱导模型生成非法内容，如仇恨言论、暴力信息等，对社会和公众造成不良影响。
防御方法：输入参数化，通过特殊符号包裹文本块、暗示输入为字符串需转义编码或添加随机字符串等方式，使大语言模型区分指令和用户输入，但这些方法效果因模型而异，需与其他措施结合；指令增强，在提示中加入额外补充信息，明确任务目标和范围，引导模型忽略有害提示，但仍可能被巧妙诱导突破防线；指定角色参数，利用大语言模型API中的系统消息，明确区分系统指令与用户输入，降低提示注入风险；提示注入检测，采用名单机制预设关键词过滤潜在注入内容，或利用模型检测技术评估输入安全性，基于大语言模型的检测方法在应对复杂自然语言攻击时表现更优。
（三）越权攻击
漏洞类型：代码解释器漏洞，大语言模型的代码解释器虽方便用户用自然语言完成复杂任务，但当其具有执行系统命令权限时，可能执行危险操作，如删除文件等，且攻击者可通过隐蔽方式诱导其执行危险代码；开发框架漏洞，如LangChain等开发框架虽简化了AI原生应用开发流程，但存在任意命令执行、SQL注入等安全漏洞，恶意攻击者利用这些漏洞可导致应用程序崩溃、数据泄露等严重后果；调用工具漏洞，大语言模型调用外部工具时，若权限缺乏适当授权和限制，恶意用户可利用提示间接提升权限，执行发送垃圾短信、下达虚假订单等有害操作。
防御手段：防御性提示，在编写提示时预设限制和警示，防止用户进行超出授权范围的操作，但只能应对部分简单攻击；最小权限授予，遵循默认拒绝、按需授予、最短时间和最小范围等原则，通过操作系统权限控制或应用程序角色权限设定，减少越权攻击风险；使用沙盒环境，借助容器化技术（如Docker）或沙盒软件（如Firejail、Bubblewrap），为工具执行提供隔离空间，限制其对底层系统和敏感数据的访问，同时设定资源使用约束，但可能带来性能开销；引入安全控制层，在大语言模型和调用工具之间构建中间层，拦截和过滤调用请求，根据预设规则判断请求合法性和安全性，实现权限控制和过滤，并对请求进行日志记录和监控。
三、学习收获与思考
（一）收获
通过学习本文，我系统掌握了大语言模型在AI原生应用开发中面临的各类提示安全问题及其应对策略。认识到提示安全问题的复杂性和多样性，不同类型的安全威胁相互交织，需要综合运用多种防御手段才能有效保障应用安全。每种防御策略都有其适用场景和优缺点，在实际应用中需根据具体情况灵活选择和组合，以达到最佳安全效果。同时，也了解到安全设计贯穿于AI原生应用开发的各个环节，从数据处理、模型交互到工具调用，都需要严谨考虑安全因素。

（二）思考
在实际应用场景中，随着大语言模型功能的不断拓展和应用环境的日益复杂，新的安全威胁可能不断涌现。如何及时发现并应对这些潜在威胁，是开发者面临的持续挑战。对于不同行业、不同规模的企业，其对安全的需求和承受风险的能力各不相同，如何制定个性化的安全方案，在保障安全的同时兼顾企业的业务发展和成本效益，值得深入思考。此外，各种防御策略在实际实施过程中可能会遇到技术难题和管理挑战，如加密算法的选择与更新、沙盒环境的性能优化、安全控制层的规则制定与维护等，需要进一步探索有效的解决方法，确保防御策略能够切实落地并发挥作用。

作者：SE_Meng

链接：https://www.cnesa.cn/4880.html

文章版权归作者所有，未经允许请勿转载。

提示工程推荐：《第6章 提示安全设计》读书笔记

提示工程推荐：《第6章提示安全设计》读书笔记