CP-Evenings-and-Weekends/harden-ai-study-assistant
GitHub: CP-Evenings-and-Weekends/harden-ai-study-assistant
强化AI学习助手,提升AI系统安全性。
Stars: 0 | Forks: 0
# 强化AI学习助手
## 缓解措施 1 — 提示注入防御(输入 + 上传文档)
### 要求
## 缓解措施 2 — 速率限制
### 验证
## 需要考虑的事项
- 缓解措施 1 中的您的清理器是一个字符串匹配。一个足够聪明的攻击者能否绕过它?如何绕过?(提示:Unicode相似字符,句子重述,base64编码指令。)
- 缓解措施 1 中的“将上下文包裹在定界符中并告诉LLM它是数据”的防御是否完全无懈可击?如果文档本身包含关闭定界符序列会发生什么?
- 在API层进行速率限制并不能阻止恶意**内部**调用者对你的账户进行计费。你可以在哪些其他层添加上限?(提示:在API密钥本身上设置提供方支出上限。)
- 输出审查有误报率——一些合法的答案会被标记。你将如何构建一个用于“标记答案——让人类审查并解锁”的用户体验?
## 扩展
- **输入过程中的PII擦除**:在将问题发送到嵌入API之前,运行一个正则表达式遍历,将电子邮件、电话号码、SSN形状的字符串替换为 `[REDACTED]` 占位符。
- **支出上限**:在OpenAI API密钥本身上配置一个硬性每月支出限制(控制台→限制)并添加一个服务器端软性上限,一旦达到每日预算则返回503。
- **审计日志**:将每个(用户、问题、检索到的片段、LLM答案、审查结果)元组存储在 `RequestLog` 模型中。对于事件审查很有用。
- **第二次LLM验证器**:除了(或与)审查端点之外,进行第二次LLM调用,询问“以下响应违反了 <政策> 吗?回答是/否。”在回答是的情况下阻止。
- **按用户支出跟踪**:按用户计数令牌并当他们超过每日配额时进行速率限制(或拒绝)。
标签:请求拦截, 逆向工具